Hôm nay là ngày chủ nhật cuối cùng của tháng 8, kết thúc 1 tuần sau khi Sài Gòn siết chặt lệnh giãn cách mức cao nhất đến thời điểm hiện tại. Thời gian này ở nhà, mình chiêm nghiệm lại bản thân nhiều hơn, bỗng nhận thấy nhiều “cái non nớt” của những ngày đầu làm công việc Data Analyst.

Trước khi bàn về nội dung chính của bài, mình muốn kể cho mọi người nghe về task đầu tiên của mình ở ZaloPay.

Đó là thời điểm 2 năm về trước, lúc đó mình có trong tay vỏn vẹn 1 vài skills: biết vài câu lệnh SQL cơ bản để query data, xử lý data trên Excel tàm tạm với pivot table, dùng được Power BI để visualize dữ liệu. Mình nhận tasks đầu tiên “Phân tích tình trạng liên kết ngân hàng với tài khoản ví điện tử”

Một lẽ tự nhiên, mình bắt tay vào công việc với “bản năng” phân tích tự phát. Mình tư duy về điều gì thì mình làm cái đó, mình đặt giả thuyết thiếu hay thừa mình cũng chẳng thể kiểm soát được. Lúc đó mình làm phân tích đơn giản lắm:

  • Xem tỷ lệ liên kết thành công của toàn bộ bank, xem tiếp theo từng bank
  • Thấy bank nào kết quả tốt thì mình nghĩ là ổn, mình lướt qua. Mình chỉ tập trung vào bank đang có kết quả xấu.
  • Sau đó tiếp tục đi tìm nguyên nhân vì sao bank A, B và C tệ. Tìm được 1, 2 và 3 root causes thì mừng hớn hở nhưng cũng chưa biết là mình đã phát hiện đủ các vấn đề hay chưa!

Nôm na thì bài làm của mình mang góc nhìn rất chủ quan và thiếu đi sự toàn vẹn vì còn rất nhiều kẽ hở. Mình không biết dùng bất kì kĩ thuật phân tích nào để đảm bảo cấu trúc chặt chẽ và khai phá được tối đa khía cạnh vấn đề. Sau đó, khi mình trình bày kết quả với sếp và các phòng ban, mình đã bị đặt rất nhiều câu hỏi về các góc nhìn mà bài phân tích của mình chưa thể hiện được.

Mãi sau này, khi tìm hiểu thêm kiến thức về các loại hình phân tích dữ liệu: Descriptive – Diagnostic – Predictive – Prescriptive Analytics. Mình dần dần có cái nhìn tổng quan về phương pháp mình giải quyết bài toán. Giá như mình biết kiến thức này sớm hơn thì bài phân tích của mình có thể tốt hơn rất nhiều.

Bài viết này dựa trên cách hiểu của mình trong quá trình tham khảo nhiều tài liệu. Bạn đọc có thể kiểm chứng khi tiếp nhận thông tin cho riêng mình.

Descriptive analytics – Phân tích mô tả

Hiểu một cách đơn giản, việc khai khá dữ liệu ở giai đoạn này sẽ giúp bạn trả lời câu hỏi về những gì đã xảy ra. Output của bước làm descriptive analytics đơn giản là đưa ra các con số mô tả kết quả của business, của sản phẩm. Những kết quả này cho chúng ta sự nhìn nhận ban đầu về những sự kiện đã diễn ra trong quá khứ mà không giải thích tại sao.

Ví dụ theo bài toán đề cập ở trên, descriptive analytics chính là bước phân tích đầu tiên mình cần làm. Thu thập những con số để thể hiện kết quả tổng quan, là cơ sở ban đầu để biết cần làm gì tiếp theo:

  • Tỷ lệ liên kết thành công tài khoản ngân hàng tổng thể là 70%
  • Nhóm ngân hàng A có kết quả cao nhất 90%, B 50%, nhóm thấp nhất là nhóm C với 70%
  • Tỷ trọng người dùng nhóm A – 55%, B – 35%, C-10%
  • Giai đoạn có tỷ lệ thấp là tháng 4, 5 so với các tháng còn lại
  • Tỷ lệ liên kết thành công trên Android là 70%, iOS là 85%

Tất cả đơn giản là những con số thể hiện kết quả, không giải thích thêm bất kì lý do nào.

Diagnostic analytics – Phân tích chẩn đoán

Mình hay gọi đây là giai đoạn “khám bệnh”. Từ các kết quả tổng quan của bước đầu tiên, dữ liệu sẽ được mổ xẻ, khai phá, đào sâu theo nhiều khía cạnh (What – Where – Who – When – Why – How). Chẩn đoán dữ liệu để giải thích lý do dẫn đến kết quả của business, của sản phẩm. Ngoài ra, diagnostics analytics càng chi tiết, càng đi sâu sẽ giúp tìm ra những features (yếu tố) quan trọng. Những phát hiện này sẽ là đầu vào cho các models (mô hình) được sử dụng trong giai đoạn phân tích tiếp theo.

Ví dụ: Tiếp tục từ những kết quả phía trên, mình tiến hành:

  • Dựa vào tỷ trọng, nhóm A + B = 90% tổng khách hàng, nên mình sẽ tập trung vào 2 nhóm này trước tiên.
  • Vì sao nhóm A thì tốt với 90% nhưng nhóm B chỉ bằng 1 nửa? So sánh từng yếu tố của A và B để chỉ ra sự khác biệt:
    • Who: Các banks trong A và C hoàn toàn khác nhau. Đối tượng phân khúc khách hàng của nhóm A đa phần (80%) dùng ví điện tử trên 6 tháng, sở hữu nhiều hơn 1 tài khoản ngân hàng, độ tuổi từ 16-35. Trong khi nhóm B là những khách hàng mới (70%) dưới 6 tháng, chỉ mới liên kết 1 ngân hàng nên chưa có nhiều trải nghiệm.
    • Where: Nhóm A có nền tảng kết nối trực tiếp với ví điện tử (người dùng thao tác ít bước hơn) trong khi nhóm B phải liên kết thông qua bên thứ 3 (bên trung gian) –> Khách hàng nhóm B gặp nhiều khó khăn hơn.
    • When: Nhóm A tỷ lệ liên kết thành công ổn định theo thời gian, nhóm B thì hay thấp (10-15%) vào các ngày cuối tuần –> T7, CN là thời gian khách hàng sử dụng ví điện từ nhiều hơn, bên liên kết trung gian hay gặp sự cố quá tải hệ thống dẫn đến khách hàng không thể thao tác được. Tháng 4, 5 các ngân hàng nhóm B bảo trì hệ thống nhiều lần là nguyên nhân gây ra kết quả xấu trong thời gian đó.
    • Why: Tại sao tỉ lệ liên kết thành công trên Android của nhóm B chỉ bằng 1 nửa so với iOS. Mình phân user journey và phát hiện ra một vài thao tác trên Android không hoạt động, khách hàng bị “out” tại bước “gửi yêu cầu”.
    • How: trải nghiệm người dùng ở nhóm B tệ hơn. Dựa vào thời gian trung bình của 1 yêu cầu của B rất dài 3 phút, trong khi nhóm A chỉ mất 1 phút. Khách hàng nhóm B phải thao tác quá nhiều trong khi nhóm A được tối ưu rất tốt.

Đó là những giả thuyết mình đặt ra dựa trên: geographic, demographic, psychographic và behavioral cùng với phương pháp 5W – 1H cho bước làm phân tích chẩn đoán

Predictive analytics – Phân tích dự đoán

Điều gì có khả năng xảy ra? Phân tích dự đoán sẽ trả lời câu hỏi đó. Từ kết quả chi tiết của bước phân tích mô tả và chẩn đoán, dữ liệu có thể đưa ra các xu hướng dự báo trong tương lai. Dự đoán trước các tình huống tiếp theo mang lại nhiều giá trị trong kinh doanh. Tuy nhiên nó cũng phụ thuộc vào độ chính xác của dữ liệu và tình huống ở từng thời điểm.

Mình thường hay nghe nói đến ứng dụng của predictive analytics như: Dự đoán nhu cầu tiêu thụ để lên kế hoạch trữ hàng, logistics nhằm tối ưu chi phí và lợi nhuận.

Ví dụ: Vấn đề có thể dự đoán từ bài toán liên kết ngân hàng ở trên:

  • Dự đoán traffic liên kết tài khoản trong 6 tháng tới để chuẩn bị cải thiện các “kẽ hở” hiện tại và nguồn lực vận hành.

Prescriptive analytics – Phân tích đề xuất

“Chúng ta nên làm gì với những vấn đề có khả năng xảy ra?” Từ phân tích mô tả và dự đoán, dữ liệu có thể hỗ trợ ra quyết định bằng việc đề xuất ra những phương án thích hợp. Bước phân tích này đòi hỏi độ chính xác từ dữ liệu quá khứ và được thực hiện bằng các kĩ thuật machine learning (học máy), AI (trí tuệ nhân tạo), …

Ví dụ: Từ việc phân tích hành vi của những khách hàng liên kết tài khoản ngân hàng với ví điện tử, mình có thể phát hiện ra những đặc điểm ảnh hưởng đến nhu cầu liên kết của người dùng.

  • Đã mua hàng bằng ví điện tử trên 5 lần
  • Có tổng số tiền thanh toán > 200 nghìn
  • Sử dụng trên 3 loại giao dịch

–> Từ đó đề xuất nhiều phương án giữ chân khách hàng, tăng cross-selling (bán chéo), giúp tiếp cận nhiều sản phẩm, nên tung khuyến mãi cho nhóm khách hàng có những đặc điểm trên. Bài toán chi phí và vận hành cũng được cải thiện khi target đúng vào nhóm người dùng tiềm năng.

Trong công việc thực tế, mình hiếm khi thực hiện hết toàn bộ 4 giai đoạn phân tích cho từng bài toán. Với một người Data Analyst, mình làm nhiều ở giai đoạn descriptive, diagnostics và đôi khi có yêu cầu sẽ ứng dụng predictive và prescriptive. Tuy nhiên, việc hiểu được toàn vẹn bức tranh các loại hình phân tích sẽ giúp người làm đánh giá đúng yêu cầu và đảm bảo chất lượng kết quả của dữ liệu. Biết làm “mô tả”, “chẩn đoán” hợp lí và chặt chẽ để khai phá hết toàn bộ khía cạnh vấn đề. Nắm bắt ý tưởng để làm tiếp bài toán “dự đoán” và đề xuất giải pháp.

Cám ơn bạn đã xem hết bài. Hi vọng những đúc kết của mình sẽ giúp ích bạn một phần nào đó trong việc hiểu giá trị của dữ liệu ở từng giai đoạn.

Maz.

 

error: Content is protected !!
11
0
Would love your thoughts, please comment.x
()
x