Tuần trước mình có bài viết đầu tiên trong series “How to build Data Analytics Portfolio” bàn về việc sử dụng SQL cho giai đoạn Data Preparation. Hôm nay, mình sẽ tiếp tục chia sẻ về phần tiếp theo trong quá trình phân tích dữ liệu là Data Exploratory với Data visualization tool.

Data visualization tool đóng vai trò như thế nào trong công việc của mình?

Trong bài chia sẻ về công việc của Data Analyst, mình có liệt kê tổng cộng 5 đầu việc: Build dashboard, reporting, Ad-hoc analysis, build strategy và làm data asset. Data visualization tool góp mặt 3/5 công việc của mình bao gồm: làm dashboard, làm report, xử lý các ad-hoc analysis. Vì thế có thể thấy nó quan trọng và cần thiết cho công việc của một DA như mình vô cùng.

Cách mình làm dashboard với các Data visualization tools

Hiện nay có nhiều tools lắm. Có thể kể đến như: Power Bi, Tableau, Qlik, Google Data Studio, … Nhìn hình bên dưới bạn sẽ thấy top đầu đang là những platform mà mình vừa liệt kê.

Dashboad là gì? Khi nào mình cần làm dashboard?

Mình đã từng nhắc đến, dashboard là một tập hợp các key measurement metrics (chỉ số đo lường) được tính toán sẵn và visualize theo nhiều dạng charts, matrix tables khác nhau. Kết quả hiển thị trên dashboard được tự động cập nhật theo thời gian. Nó giúp người quản lý business / project / product theo dõi tình hình kinh doanh / tiến độ dự án / hiệu quả sản phẩm một cách trực quan và nhanh chóng.

Thế nên, không phải cứ làm phân tích dữ liệu là phải tạo ra dashboard, cứ có yêu cầu cần đánh giá, cần báo cáo kết quả cho sếp là hì hục visualization hoành tráng. Mình thường cân nhắc 2 yếu tố sau để quyết định một yêu cầu công việc có cần thiết phải xây dựng dashboard hay không?

  1. Tần suất xem số liệu: Có thường xuyên hay không? Mỗi giờ, vài giờ 1 lần, mỗi ngày, hằng tuần, hằng tháng. Ít nhất phải được dùng hằng tuần, nếu quá ít khi 1 tháng/lần thì đánh giá effort tiêu tốn nhiều hay ít. Nếu chỉ mất 1 giờ để tạo ra dashboard thì mình thấy cũng hợp lí.
  2. Đối tượng người dùng: Người quan trọng (cấp lãnh đạo, đối tác kinh doanh, …) là nhóm đối tượng có sức nặng, ảnh hưởng đến business nên ưu tiên. Nếu yêu cầu chỉ đến từ 1 vài người dùng lẻ tẻ (tuýp người từ các team khác hay đi hỏi ké số liệu nè) thì mình việc làm dashboard không cần thiết, sẽ tốn nhiều công sức mà value mang lại không nhiều.

Mình tạo ra một effective dashboard như thế nào?

Học cách sử dụng 1 công cụ data visualization rất dễ. Bạn chỉ cần lên youtube học PowerBI, Tableau, GG data studio vài buổi học các thao tác kéo thả, tính toán là có thể vẽ vời ra vô số các biểu đồ từ đơn giản đến “dữ dội” và nó rất đẹp. Nhưng dashboard có mang lại giá trị cho business hay không? Là một câu chuyện hoàn toàn khác. Ngoài tính thẩm mĩ đầy kĩ thuật thì cần phải có chất lượng bên trong, phải dùng được.

  1. Logic Tree đảm bảo cung cấp đầy đủ số liệu và đa chiều

Yếu tố này được bắt đầu từ bước “define measurement metrics and filters/slicers” mà mình có đề cập ở bài trước. Sử dụng Logic Tree để bàn bạc và thống nhất thật kĩ với đối tượng sử dụng tất cả các chỉ số cần theo dõi và các góc nhìn mà họ muốn xem.

Trong lúc define bằng Logic Tree, hãy chú ý đến nguyên tắc MECE (Mutually Exclusive Collectively Exhaustive).

  • Mutually Exclusive (ME) – Không trùng lặp: Mỗi metric và layer đưa vào tree phải thể hiện các khía cạnh độc lập cho mỗi loại danh mục và không được xuất hiện hay bị bao hàm trong một danh mục khác.
  • Collectively Exhaustive (CE) – Không bỏ sót: Cố gắng cover hết các khía cạnh, các vấn đề để đưa ra đầy đủ các góc nhìn mà không bỏ sót (đặc biệt là những yếu tố quan trọng).

2. Trình bày dữ liệu logic và chặt chẽ

Dựa vào kết quả Logic Tree mà mình xây dựng logic (mạch câu chuyện) khi trình bày dữ liệu lên dashboard gồm các phần:

  • Phần overview: Bao gồm các con số (card) thể hiện to rõ performance của business. Giúp người xem nắm bắt được những thông tin tổng quan nhất.
  • Phần details: sẽ trình bày theo từng nhánh trên Tree, bao gồm:
    • Distribution của dữ liệu phân bổ như thế nào?
    • Các chỉ số theo time series
    • Thể hiện theo từng lát cắt (góc nhìn) nếu cần thiết

3. Có tính linh hoạt và thẩm mĩ

Phần này mình phải đảm bảo cách sử dụng loại biểu đồ hợp lí, màu sắc, cỡ chữ, xây dựng sự tương tác giữa các charts. Bạn có thể xem thêm các lưu ý trong quá trình thiết kế dashboard qua notes của bạn Mai Tieu Khoi đã chia sẻ ở link này.

4. Đảm bảo tính hiệu năng

Một dashboard tốt cần phải “chạy mượt mà” không vì khối lượng dữ liệu khổng lồ mà overload. Tìm hiểu cách tối ưu performance của tool mà bạn sử dụng là một điều quan trọng đó.

Cách mình dùng Data visualization tool để hỗ trợ Reporting và Ad-hoc analysis

Why?

Việc mình nhận được các yêu cầu phân tích đột suất từ sếp, giải thích các vấn đề cần làm rõ thường xuyên xảy ra. Các tools như Tableau hay PowerBI xuất hiện như vị cứu tinh thần thánh giúp tìm ra câu trả lời trong vòng vài giờ, có thể là vài phút (save cost). Bởi lẽ khả năng visualize đa chiều của các tools này rất mạnh mẽ, kéo thả giúp mình bắt được vấn đề nhanh chóng sau khi có đủ các dữ liệu cần thiết (catch insights).

Cách mình hay làm

  • Dựa vào Logic Tree để đưa ra giả thuyết về các nguyên nhân trong bài toán.
  • Mình collect tất cả các dữ liệu phục vụ các giả thuyết trong Logic Tree phía trên.
  • Query-transform-cleaning bằng SQL hoặc Python tạo thành các tables mình cần.
  • Dùng Tableau để connect vào các bảng đó.
  • Visualize data để trả lời những giả thuyết ban đầu.

Với mình, BI đóng hai vai trò quan trọng trong công việc. Vì thế, việc chứng minh kĩ năng sử dụng BI tools là điều cần thiết cho các ứng viên trong ngành phân tích dữ liệu. Phần sau, mình chia sẻ một chút về việc tạo dashboard miễn phí với Tableau Public, bổ sung vào portfolio cá nhân.

Tạo dashboard bằng Tableau Public

Sở dĩ mình chọn Tableau để thể hiện năng lực visualization là do:

  • Tableau đã là một trong những BI tools dẫn đầu lâu đời trên thế giới, khả năng trực quan hóa rất tốt.
  • Hiện tại mình đang sử dụng Tableau nhiều hơn các tools khác (hì hì)

Hệ sinh thái của Tableau bao gồm: Tableau Desktop – Tableau Server – Tableau Prep – Tableau Public.

Tableau Public là phiên bản được sử dụng miễn phí cho nhu cầu cá nhân, chỉ bị giới hạn nguồn dữ liệu được phép kết nối so với Tableau Desktop và chỉ có thể publish sản phẩm lên trang Tableau Public mà không publish được lên Server riêng. Vì thế rèn luyện trên Tableau Public cũng sẽ tương tự như bạn làm trên bản desktop.

Hướng dẫn tạo dashboard và publish

  • B1: Vào đường dẫn: https://public.tableau.com/, điền email và download.
  • B2: Cài đặt theo hướng dẫn xong là đã có thể sử dụng
  • B3: Xây dựng dashboard thôi. Mình xin phép không chia sẻ cụ thể vì việc này là cả một quá trình học. Bạn có thể follow theo Hướng dẫn tự học Tableau Data Visualisation hiệu quả của anh Hiếu đã viết rất chi tiết và tuyệt vời.
  • B4: Save dashboad lên trang Tableau Public

Sau khi save xong là mình đã có thể cho mọi người cùng xem sản phẩm trên trang của Tableau như thế này. Bạn có thể dẫn link này vào tài khoản GitHub để tập trung lại các projects đã làm.

Data sources: Bạn có thể dùng sample data trên trang của Tableau (https://public.tableau.com/en-us/s/resources), chọn lựa một chủ để để cùng thực hành với mình thôi.

Ngoài ra nếu bạn muốn thực hành Power BI thì mình nghĩ tutorial này cũng rất tuyệt https://www.youtube.com/watch?v=AGrl-H87pRU

Kết

Bài viết này, ngoài việc chia sẻ với mọi người công cụ Tableau Public mình còn muốn gửi gắm quan điểm sử dụng BI tools và việc tạo ra dashboard như thế nào là hiệu quả. Bởi lẽ trước đây, bản thân mình cũng đã từng rất chú trọng vào các kĩ thuật visualization cầu kì, tập trung vào góc nhìn của cá nhân mà chưa nhận ra điều cốt lỗi vẫn là giá trị, là thông tin mà dữ liệu mang lại cho người dùng. Từng cái chart, từng con số, không phải để “thỏa mãn” nhu cầu chứng minh năng lực “vẽ vời” xịn xò của người Data Analyst. Nó nên làm nhiệm vụ khẳng định sự am hiểu của DA về business, tạo ra giá trị ý nghĩa tác động đến sản phẩm.

Hi vọng mọi người đồng cảm với mình một phần nào trong câu chuyện này.

Suy nghĩ vẩn vơ một tí. Thời gian gần đây, khi bắt đầu viết blog, mình mới có cơ hội tìm hiểu về cung và cầu của nghề data ở Việt Nam. Nói về cầu – tức cơ hội việc làm, data cần thiết cho mọi lĩnh vực không chỉ cho kinh doanh, marketing, tài chính, logistics mà còn support cho cả vận hành và quản lý nhân sự. So với 2-3 năm trước, nhu cầu tuyển dụng các vị trí phân tích dữ liệu bây giờ trở nên phổ biến hơn. Tuy nhiên, theo mình, cầu tăng 1 thì cung cũng đang tăng 2-3 lần ở thời điểm hiện tại. Một sự thay đổi rõ ràng nhất là ngay cả các vị trí Intern/Junior Data Analyst hiện tại đa số các công ty đều yêu cầu nhất định về technical skills (statistics, programming language, visualization tool, …). Chứ không như vài năm trước, lúc mình còn hạn chế nhiều kĩ năng, công ty vẫn tuyển mình và training lại từ con số 0. Điều này chứng minh, chất lượng nhân lực trong nghề DA đã tốt hơn và dồi dào hơn. Đồng nghĩa với việc tính cạnh tranh cũng ngày một tăng cao, tương lai sẽ ngày càng khó khăn hơn trong việc tìm kiếm cơ hội.

Một tuần mới lại đến, chúc bình an và may mắn đến các bạn trong hành trình chinh phục hạnh phúc của mình.

Maz.

error: Content is protected !!
4
0
Would love your thoughts, please comment.x
()
x