Data Analyst là một nghề đòi hỏi sự kết hợp hoàn hảo giữa kĩ thuật sử dụng công nghệ, kĩ năng phân tích và tư duy giải quyết vấn đề. Trở thành một DA giỏi là cả một quá trình liên tục trải nghiệm, cập nhật xu hướng và không ngừng hoàn thiện năng lực chuyên môn. Đặc biệt, ở Việt Nam hiện nay rất ít trường đại học có chuyên ngành riêng cho Data Analyst nên con đường bước vào nghề phân tích dữ liệu gây không ít khó khăn cho những người muốn bắt đầu.

Với câu chuyện và trải nghiệm của riêng, mình đã từng chia sẻ các kĩ năng và kiến thức cần có của để trở thành một Data Analyst. Bài viết này mình muốn viết về việc xây dựng “tài sản định giá năng lực của một Data Analyst”, có thể gọi nó là Data Analytics Portfolio.

Xay-dung-Portfolio-cho-Data-Analyst-P1-Data-Preparation-voi-SQL

Data Analytics Portfolio là gì?

Là hồ sơ năng lực thể hiện kĩ năng và kinh nghiệm của người làm phân tích dữ liệu. Thật ra không có bất kì một quy định gì về nội dung và hình thức của một portfolio. Vì thế chúng ta có thể thoải mái xây dựng nội dung và trình bày theo nhiều phương tiện khác nhau. Tuy nhiên vẫn phải đảm bảo “show” đầy đủ để minh chứng cho các kĩ năng cần thiết trong công việc của của Data Analyst. Ở đây mình sẽ xây dựng portfolio theo các công việc của DA theo từng giai đoạn trong quá trình phân tích dữ liệu mà mình đã từng đề cập:

  1. Data Preparation: Dùng SQL hoặc Python để query, clean & transform data
  2. Data Exploratory:
    • Dùng Python tiến hành analyze và visualize data
    • Dùng BI tool phân tích và xây dựng dashboard
  3. Modeling & Evaluation: Áp dụng statistical techniques và machine learning để giải quyết các bài toán dự báo trong kinh doanh
  4. Communication & Insights: Thành thạo kĩ thuật Data Storytelling và trình bày thành một report hoàn chỉnh

Trong bài viết này, mình sẽ chia sẻ trước nội dung đầu tiên.

Thành thạo SQL với công cụ SQL Server Management Studio

Mình hoàn toàn tự học tất cả mọi thứ trong suốt quá trình làm Data Analyst, vì thế SQL chắc chắn cũng không phải là một ngoại lệ. Hiện nay có rất nhiều trang web học code miễn phí và bạn cũng dễ dàng thực hành trên nền tảng của họ. Lúc mình “trắng trơn” mình đã bắt đầu học syntax của SQL trên www.w3schools.com/sql/. Tuy nhiên, tutorial trên này chia theo từng câu lệnh riêng lẻ, học trước quên sau là điều mà mình cũng không tránh khỏi.

Cách tốt nhất để vừa học nhanh vừa nhớ lâu là hãy bắt tay vào việc dùng SQL giải quyết cho một yêu cầu cụ thể. Thay vì việc ngồi học từng câu lệnh riêng lẻ: select, from, where, join, union, having, group by, case-when,… thì việc code hoàn chỉnh giải quyết 1 yêu cầu, tạo ra kết quả có ý nghĩa giúp mình học dễ dàng hơn và cũng rèn luyện tư duy xử lý dữ liệu.

Hướng dẫn cài đặt: Download 2 files:

  • SQL Server: Tải bản Developer – Link
  • SQL Server Management Studio: Link.

Mình thích dùng SSMS ngoài việc để thực hành SQL nó còn giúp mình hiểu được một số kiến thức về cơ sở dữ liệu: database, table, view, … cách mình import data từ nhiều nguồn và lưu trữ khi tạo ra một bảng dữ liệu mới. Đây là ưu điểm mà các trang web học code SQL không có.

Trong case thực hành của mình, mình dùng dữ liệu có sẵn trong máy (mà lâu quá mình quên mất vì sao mình có luôn). Một vài bước cơ bản mọi người có thể follow, chi tiết hơn thì mình khuyến khích search thêm Google cách dùng SSMS nha:

  • Sau khi connect vào SSMS, mình tạo một database cho riêng project (mình đặt tên là “MAZ_PORTFOLIO”)
  • Mở “SQL Server Import and Export data” tiến hành import các file dữ liệu vào database mình mới tạo ở trên.
  • Sau khi import xong các file mình sẽ nhìn thấy các tables trong database như này:
  • Hoàn tất công đoạn import data, mình bắt tay vào code thôi. Trong ví dụ này, mình đặt ra câu hỏi: Tính Return Rate của từng sản phẩm. Chỉ câu hỏi đơn giản vậy thôi nhưng mình cũng thực hành được kha khá các câu lệnh:
    • Bước 1: View sales data của các năm 2016, 2017 có format giống nhau không? Giống thì gộp lại thành 1 table bằng lệnh UNION
    • Bước 2: Tính number of orders bằng lệnh Group by và SUM số lượng đơn hàng theo Product_key
    • Bước 3: Tính number of returns bằng lệnh Group by và SUM số lượng hoàn trả theo Product_key
    • Bước 4: Join 2 kết quả ở bước 2, 3 để có được số sales và return theo từng sản phẩm
    • Bước 5: Join với bảng product để lấy được các thông tin sản phẩm
    • Bước 6: Tính return rate = number of returns/ number of orders. Tạo ra bảng tạm, lưu thành file CSV để dùng visualize bằng excel hoặc BI tool.
  • Sau khi code xong, mình lưu file .sql lại và dùng để publish lên portfolio.

Tạo Portfolio trên GitHub

GitHub là một hệ thống quản lý dự án và phiên bản code, được xây dựng giống như mạng xã hội của dân IT. Mọi người có thể tạo tài khoản để lưu trữ các dự án của mình.

Sau khi tạo tài khoản, mình tiến hành tạo repositories –> project –> upload các file code SQL, Python của mình lên. Thế là mọi người đều có thể xem các sản phẩm của mình trên GitHub.

Trong tuần vừa rồi mình cũng dành một ít thời gian để thực hành, và đây là sản phẩm của mình trên GitHub: https://github.com/MazNguyen/portfolio_project

Data sample mình dùng cho project này, bạn có thể download ở đây

Mình khép lại phần 1 tại đây và chuẩn bị tiếp các phần sau cho các project Data Exploratory với Python, cũng như các BI tools (PowerBI và Tableau).

Follow Maz tại đây để cùng cập nhật thông báo mỗi khi có bài viết mới nhé:

Cám ơn bạn đã ghé xem ^_^

Maz.

** Mọi thông tin trên blog đều thuộc bản quyền của blog Maz Nguyen. Vui lòng đọc kĩ Copyright Notice trước khi copy hoặc đăng tải lại nội dung/hình ảnh của bài viết **

error: Content is protected !!
13
0
Would love your thoughts, please comment.x
()
x