Data Analyst là một nghề đòi hỏi sự kết hợp hoàn hảo giữa kĩ thuật sử dụng công nghệ, kĩ năng phân tích và tư duy giải quyết vấn đề. Trở thành một DA giỏi là cả một quá trình liên tục trải nghiệm, cập nhật xu hướng và không ngừng hoàn thiện năng lực chuyên môn. Đặc biệt, ở Việt Nam hiện nay rất ít trường đại học có chuyên ngành riêng cho Data Analyst nên con đường bước vào nghề phân tích dữ liệu gây không ít khó khăn cho những người muốn bắt đầu.
Với câu chuyện và trải nghiệm của riêng, mình đã từng chia sẻ các kĩ năng và kiến thức cần có của để trở thành một Data Analyst. Bài viết này mình muốn viết về việc xây dựng “tài sản định giá năng lực của một Data Analyst”, có thể gọi nó là Data Analytics Portfolio.
Data Analytics Portfolio là gì?
Là hồ sơ năng lực thể hiện kĩ năng và kinh nghiệm của người làm phân tích dữ liệu. Thật ra không có bất kì một quy định gì về nội dung và hình thức của một portfolio. Vì thế chúng ta có thể thoải mái xây dựng nội dung và trình bày theo nhiều phương tiện khác nhau. Tuy nhiên vẫn phải đảm bảo “show” đầy đủ để minh chứng cho các kĩ năng cần thiết trong công việc của của Data Analyst. Ở đây mình sẽ xây dựng portfolio theo các công việc của DA theo từng giai đoạn trong quá trình phân tích dữ liệu mà mình đã từng đề cập:
- Data Preparation: Dùng SQL hoặc Python để query, clean & transform data
- Data Exploratory:
- Dùng Python tiến hành analyze và visualize data
- Dùng BI tool phân tích và xây dựng dashboard
- Modeling & Evaluation: Áp dụng statistical techniques và machine learning để giải quyết các bài toán dự báo trong kinh doanh
- Communication & Insights: Thành thạo kĩ thuật Data Storytelling và trình bày thành một report hoàn chỉnh
Trong bài viết này, mình sẽ chia sẻ trước nội dung đầu tiên.
Thành thạo SQL với công cụ SQL Server Management Studio
Mình hoàn toàn tự học tất cả mọi thứ trong suốt quá trình làm Data Analyst, vì thế SQL chắc chắn cũng không phải là một ngoại lệ. Hiện nay có rất nhiều trang web học code miễn phí và bạn cũng dễ dàng thực hành trên nền tảng của họ. Lúc mình “trắng trơn” mình đã bắt đầu học syntax của SQL trên www.w3schools.com/sql/. Tuy nhiên, tutorial trên này chia theo từng câu lệnh riêng lẻ, học trước quên sau là điều mà mình cũng không tránh khỏi.
Cách tốt nhất để vừa học nhanh vừa nhớ lâu là hãy bắt tay vào việc dùng SQL giải quyết cho một yêu cầu cụ thể. Thay vì việc ngồi học từng câu lệnh riêng lẻ: select, from, where, join, union, having, group by, case-when,… thì việc code hoàn chỉnh giải quyết 1 yêu cầu, tạo ra kết quả có ý nghĩa giúp mình học dễ dàng hơn và cũng rèn luyện tư duy xử lý dữ liệu.
Hướng dẫn cài đặt: Download 2 files:
- SQL Server: Tải bản Developer – Link
- SQL Server Management Studio: Link.
Mình thích dùng SSMS ngoài việc để thực hành SQL nó còn giúp mình hiểu được một số kiến thức về cơ sở dữ liệu: database, table, view, … cách mình import data từ nhiều nguồn và lưu trữ khi tạo ra một bảng dữ liệu mới. Đây là ưu điểm mà các trang web học code SQL không có.
Trong case thực hành của mình, mình dùng dữ liệu có sẵn trong máy (mà lâu quá mình quên mất vì sao mình có luôn). Một vài bước cơ bản mọi người có thể follow, chi tiết hơn thì mình khuyến khích search thêm Google cách dùng SSMS nha:
- Sau khi connect vào SSMS, mình tạo một database cho riêng project (mình đặt tên là “MAZ_PORTFOLIO”)
- Mở “SQL Server Import and Export data” tiến hành import các file dữ liệu vào database mình mới tạo ở trên.
- Sau khi import xong các file mình sẽ nhìn thấy các tables trong database như này:
- Hoàn tất công đoạn import data, mình bắt tay vào code thôi. Trong ví dụ này, mình đặt ra câu hỏi: Tính Return Rate của từng sản phẩm. Chỉ câu hỏi đơn giản vậy thôi nhưng mình cũng thực hành được kha khá các câu lệnh:
- Bước 1: View sales data của các năm 2016, 2017 có format giống nhau không? Giống thì gộp lại thành 1 table bằng lệnh UNION
- Bước 2: Tính number of orders bằng lệnh Group by và SUM số lượng đơn hàng theo Product_key
- Bước 3: Tính number of returns bằng lệnh Group by và SUM số lượng hoàn trả theo Product_key
- Bước 4: Join 2 kết quả ở bước 2, 3 để có được số sales và return theo từng sản phẩm
- Bước 5: Join với bảng product để lấy được các thông tin sản phẩm
- Bước 6: Tính return rate = number of returns/ number of orders. Tạo ra bảng tạm, lưu thành file CSV để dùng visualize bằng excel hoặc BI tool.
- Sau khi code xong, mình lưu file .sql lại và dùng để publish lên portfolio.
Tạo Portfolio trên GitHub
GitHub là một hệ thống quản lý dự án và phiên bản code, được xây dựng giống như mạng xã hội của dân IT. Mọi người có thể tạo tài khoản để lưu trữ các dự án của mình.
Sau khi tạo tài khoản, mình tiến hành tạo repositories –> project –> upload các file code SQL, Python của mình lên. Thế là mọi người đều có thể xem các sản phẩm của mình trên GitHub.
Trong tuần vừa rồi mình cũng dành một ít thời gian để thực hành, và đây là sản phẩm của mình trên GitHub: https://github.com/MazNguyen/portfolio_project
Data sample mình dùng cho project này, bạn có thể download ở đây
Mình khép lại phần 1 tại đây và chuẩn bị tiếp các phần sau cho các project Data Exploratory với Python, cũng như các BI tools (PowerBI và Tableau).
Follow Maz tại đây để cùng cập nhật thông báo mỗi khi có bài viết mới nhé:
- Fanpage: Maz học Data & Lucas học Product
- TikTok mới toanh :))
Cám ơn bạn đã ghé xem ^_^
Maz.
** Mọi thông tin trên blog đều thuộc bản quyền của blog Maz Nguyen. Vui lòng đọc kĩ Copyright Notice trước khi copy hoặc đăng tải lại nội dung/hình ảnh của bài viết **
cảm ơn bạn vì những chia sẻ rất giá trị. mình cũng là một người trái ngành và đang chập chững trên con đường để có được một công việc Data Analysis. Quá trình tự học dễ khiến mình nản hoặc nhiều khi “lạc lối” không biết mình đang học cái gì, để làm cái gì. Nhờ những chia sẻ của bạn, mình cảm thấy mình vẫn đang đi đúng hướng cũng như hiểu rõ hơn về lộ trình học và luyện tập để có được job trong ngành này. Hi vọng có dịp sẽ đc kết bạn và giao lưu thông tin nhiều hơn nhé.
keep up the good works !
Khép lại một tuần thật happy khi mình nhận được nhiều phản hồi tích cực từ mọi người và bạn. Kể về những câu chuyện, gửi gắm với tất cả sự chân thành là điều mà mình hướng đến. Bạn có thể connect với mình qua các links social media mình để trên blog hoặc qua email: hieuthuhai14@gmail.com
Have a wonderful new week bạn nha.
Những bài viết của bạn rất chi tiết và dễ hiểu. Cám ơn bạn đã chia sẻ nhé
Có lẽ ở phần Data Sample Bạn để nhầm file Tableau Essential Training đó ạ. Bạn có thể kiểm tra, nếu được mình xin Data Sample để luyện tập nhé. Cảm ơn Maz nhiều
Mình đã edit lại link rồi nè, thanks bạn nha.
Cảm ơn anh vì những chia sẻ rất hữu ích ạ, em cũng có ý định tập tành viết blog, anh có thể chia sẻ thêm về nguồn anh dùng để tạo trang blog của mình không. Cảm ơn anh
Bài viết rất hữu ích ạ. Em cảm ơn anh rất nhiều 🍓🍓🍓
[…] 2 bài viết đầu tiên của mình về build portfolio với SQL và Tableau […]
mình đang gặp vấn đề về inport data, có một số lỗi không hiểu sao mình có thể contact với bạn qua email không?
Bạn nhắn cho mình qua FB cũng được nha
Hi anh,
E có thử tính return rate với data bên trên thì ra khác kết quả a ạ nên e muốn hỏi chút.
Btw, thanks a vì guide rất chi tiết và hữu ích, em đang học theo roadmap của a thì thấy học đc khá nhiều so với tự mày mò tự học. Không biết a có nguồn tự học tableau nào ngon có thể share vs mng luôn k ạ xD
Đây là code tính return_rate của em ạ, nếu có thời gian thì a ngó qua xem e làm vậy đúng k nhé ạ.
Thank you a
Hi Maz, bạn có thể ra bài cách upload các file .sql lên github và trình bày sao cho hợp lí nhất khi làm proforlio cv dc ko bạn. Mình nhìn file sql của bạn up lên github, nhưng chưa biết cách làm tương tự
search google đi bạn, cái đó cơ bản mà