Phiên bản rút gọn, action-oriented — từ mô tả dataset đến báo cáo EDA sẵn trình bày trong 3 bước với Gemini trên Google Colab.
👉 Bạn có bao giờ rơi vào cảnh này chưa?
-
Mở một file CSV mới, thấy hàng chục cột, hàng ngàn dòng… rồi không biết bắt đầu từ đâu?
-
Tốn 3-5 tiếng chỉ để clean data cơ bản và viết lại những đoạn code lặp đi lặp lại?
-
Làm EDA thủ công nhưng vẫn bị sót missing values, không nhận ra outlier ẩn, hay bỏ lỡ mối quan hệ quan trọng giữa các biến?
😩 Nếu bạn thấy quen quen, thì xin chúc mừng – bạn không cô đơn đâu. Đây chính là nỗi đau của hầu hết Business Analyst khi làm việc với data thật.
Vấn đề của hầu hết Analyst không phải là phân tích không giỏi, mà là tốn quá nhiều thời gian cho bước chuẩn bị dữ liệu. Và điều tệ hơn là: nhiều khi chúng ta còn bỏ sót outlier quan trọng, xử lý thiếu nhất quán, dẫn tới kết quả phân tích sai lệch.
Đó là lý do vì sao ngày càng nhiều Business Analyst tìm đến AI để tăng tốc bước Data Cleaning & EDA. Nếu làm đúng cách, bạn có thể rút gọn 4–8 tiếng xử lý thủ công xuống chỉ còn 20–30 phút, mà vẫn đảm bảo dữ liệu sạch, phân tích chặt chẽ và báo cáo rõ ràng.
Đơn giản chỉ cần: Mô tả dữ liệu → Copy paste prompt → Chạy và nhận insights
Trong bài này, mình sẽ chia sẻ workflow 3 bước dùng Gemini Data Science Agent trên Google Colab, kèm prompt mẫu để bạn có thể áp dụng ngay. Đây không chỉ là “tự động hóa code”, mà là cách để BA giữ vai trò trung tâm: AI lo thao tác, bạn lo quyết định.
Hãy cùng mình đi qua workflow “chuẩn BA” với AI-Powered Data Cleaning & EDA:
-
Step 1: Import & Overview Dataset
-
Step 2: Data Cleaning & Outlier Handling
-
Step 3: Comprehensive EDA với Insights kinh doanh
Cuối bài blog này, bạn sẽ có ngay một bộ prompt tự động chạy được cho bất kỳ dataset nào – tiết kiệm thời gian, công sức và tạo báo cáo chuyên nghiệp chỉ trong một buổi.
STEP 1: KHÁM PHÁ & ĐÁNH GIÁ DATA
Mục tiêu: Hiểu data structure, tìm vấn đề cần fix, detect outliers cần review.
AI sẽ làm setup & import libraries, code upload file từ máy tính, load data và verify thành công. Sau đó sẽ xuất data overview với shape dataset, data types của từng column, statistical summary và sample data để bạn xem.
🌟TRƯỚC KHI DÙNG PROMPT, hãy chuẩn bị mô tả data theo columns:
Format mô tả:
Dataset: [Loại data - sales/customer/survey/etc] Columns: - Column_name: Mô tả ngắn - Column_name: Mô tả ngắn ... Goal: [Mục tiêu phân tích]
Quan trọng nhất bạn phải xác định loại dữ liệu của bạn là categorical hay numerical.
Categorical columns → các cột phân loại, text, ID, tên…
Numerical columns → các cột số học, để tính toán, thống kê.
Sau khi đã mô tả đầy đủ, bạn điền vào prompt như ví dụ dưới đây.
PROMPT STEP 1:
-
Import CSV vào Colab (dùng widget upload).
-
Load dữ liệu vào DataFrame.
-
Xác định categorical columns và numerical columns (dựa trên mô tả người dùng cung cấp).
-
Convert categorical sang
category dtype
, numerical sang numeric. - Xuất thông tin tổng quan:
info()
,shape
,describe()
,dtypes
,head()
, missing values.
Kết Quả Bạn Sẽ Có:
-
✅ Code import data hoàn chỉnh
-
✅ Hiểu rõ cấu trúc và vấn đề của dataset
Xem chi tiết Prompt trong tài liệu ở cuối.
Trường hợp đặc biệt:
Trường hợp Gemini không cho ra dòng code đầy đủ như bên dưới thì bạn phải tự nhập vào đoạn code.
– Trước:
# Define lists for categorical and numerical columns (assuming example column names)
# **Note:** You will need to adjust these column names based on your specific CSV file.
categorical_cols = ['categorical_column_1', 'categorical_column_2']
numerical_cols = ['numerical_column_1', 'numerical_column_2']
– Sau:
Categorical columns = ['Gender','Education Level','Job Title']
Numerical columns = ['Age','Years of Experience','Salary']
STEP 2: DATA CLEANING
Mục tiêu: Làm sạch dữ liệu, đưa dữ liệu về dạng chuẩn nhất để EDA.
Dataset sẽ được đánh giá chất lượng tổng thể, tìm outliers và xử lí theo business logic, giải quyết missing value phù hợp, chuẩn hóa data format và đảm bảo dataset đủ sạch cho bước EDA kế tiếp.
Học liệu buổi số 2 của khóa học “Master Analytical Thinking & Data Analysis with Power BI”
PROMPT STEP 2:
-
Đánh giá chất lượng data & phát hiện vấn đề.
-
Điều tra outliers.
-
Xử lý outliers.
-
Xử lý missing values.
-
Tối ưu & chuẩn hóa.
-
Validation sau cleaning.
Kết Quả Bạn Sẽ Có:
-
✅ Dataset đã được clean hoàn toàn
-
✅ Báo cáo chi tiết các thay đổi đã thực hiện
-
✅ Validation kết quả cleaning
-
✅ Dataset sẵn sàng cho phân tích EDA
Xem chi tiết Prompt trong tài liệu ở cuối.
STEP 3: PHÂN TÍCH SƠ BỘ – EDA DATA
Mục tiêu: “làm sáng tỏ dữ liệu” trước khi phân tích sâu hay xây dựng mô hình, nhằm đảm bảo tính chính xác, tránh rủi ro và tối ưu hiệu quả mô hình sau này.
Dựa vào dữ liệu đã được làm sạch, AI sẽ tiến hành khám phá patterns trong đó, tìm mối quan hệ giữa các biến (đơn biến, hai biến, đa biến). Từ đó, đề xuất các business insights và đưa các đề nghị phù hợp.
PROMPT STEP 3:
- Univariate analysis: Phân phối của numerical columns, tần suất của categorical columns, summary statistics.
- Bivariate analysis: Phân tích tương quan (correlation), explore relationships giữa các biến, so sánh chéo giữa variables (đã loại outliers noise).
- Multivariate analysis: Phát hiện pattern với nhiều biến cùng lúc, advanced visualization (heatmap, pairplot, segment), segmentation insights.
- Business insights: Tóm tắt key findings, đánh giá impact của xử lý outliers, recommendations thực tế cho business, gợi ý next steps cho phân tích sâu hơn.
Kết Quả Bạn Sẽ Có:
-
✅ Báo cáo EDA hoàn chỉnh với visualizations
-
✅ Key insights và patterns quan trọng
-
✅ Business recommendations actionable
-
✅ Hiểu sâu về data và có thể present cho stakeholders
Xem chi tiết Prompt trong tài liệu ở cuối.
KẾT
Dựa vào prompt này, bạn không cần phải tốn hàng giờ đồng hồ cho bước tiền xử lí dữ liệu nữa mà có thể nhanh chóng bắt tay vào xem xét dữ liệu như một Data Scientist thực thụ. Không cần phải là chuyên gia về Python hay thống kê để bắt đầu. Bạn chỉ cần hiểu bối cảnh kinh doanh của dữ liệu, biết đặt đúng câu hỏi, và để AI xử lý phần kỹ thuật.
Thời đại AI rồi, làm việc thông minh hơn thôi!
🌟Chúc bạn thành công nhé!
Nếu bạn muốn trau dồi thêm kĩ năng Python, bạn có thể tham khảo khóa học
“From Data to Insight with Python”
-
Giáo trình bài bản, trọn đời gồm
-
82 video (12 giờ)
-
Tài liệu cô đọng, bài tập thực hành sau mỗi kiến thức, quiz kiểm tra
-
4 case study thực tế về bán hàng, phân tích rủi ro…
-
-
Bài giảng được thiết kế theo luồng: Định nghĩa → Thực hành → Ứng dụng thực tế, đảm bảo kiến thức đi từ nền tảng đến triển khai.
-
Mỗi video chỉ khoảng 5 phút giúp bạn dễ theo dõi sau giờ làm việc.
-
Sẽ được học MIỄN PHÍ các nội dung mới cập nhật trong tương lai.
-
Ngoài ra bạn còn được ở trong cộng đồng community, nơi thường xuyên chia sẻ kinh nghiệm, hỏi đáp…