Nếu mà phải xóa hết kí ức, khiến mình không còn 1 chút kiến thức nào về nghề Data thì chắc mình cũng sẽ bị các bạn sales khóa học ở các trung tâm ngoài kia làm cho hoang mang. Bởi rất nhiều lời quảng cáo có cánh:
- Bạn sẽ trở thành Data Analyst với lộ trình khóa học 15 buổi ở trung tâm A, B, C
- Bạn có thể thành thạo tất cả kỹ năng SQL, Power BI, Python để làm DA trong 2 tháng mà không cần background kinh nghiệm hay ngành nghề nào liên quan.
- Làm DA chỉ cần biết kéo thả bằng BI tools là đủ rồi, không cần phải code thậm chí là SQL.
Ồ wow, nghe thích và dễ quá mọi người nhỉ. Nhưng mà cái mà mọi người đang nghe chỉ là bức tranh màu hồng, mặt tối của vấn đề thì họ không nói cho bạn biết.
Trong series “Chuyện nghề Data” mình sẽ bắt đầu với nội dung “Top 5 khó khăn LỚN NHẤT mà bất kỳ người làm Data Analyst hay Data Scientist nào cũng gặp phải trong công việc hàng ngày”
Nếu bạn không muốn đọc bài viết thì có thể xem ở chiếc video sinh động này nha. Còn muốn đọc chữ thì kéo xuống phần dưới nè.
1. Kiến thức chuyên ngành về sản phẩm, business khó học hơn rất nhiều so với việc học code SQL hay Python
Mình cứ nhớ mãi những ngày đầu khi làm DA, mình đã vô cùng vất vã. Không phải dành nhiều thời gian cho việc đọc data, làm sạch data hay là tính toán, vẽ biểu đồ mà mình bị 5 lần 7 lượt sửa lại báo cáo cho sếp. Mình cần phải thay đổi hướng tiếp cận & phân tích bài toán vì chưa hiểu rõ nghiệp vụ sản phẩm, không rành về những mục tiêu mà business đang quan tâm.
Ban đầu, mình cứ tưởng khi sếp bảo mình phân tích “Product Performance”. Thế là mình liệt kê vài chỉ số đánh giá hiệu quả sản phẩm dựa trên những kiến thức mà mình biết, như:
- Revenue
- Conversion rate
- Success rate
- Cost
Sau đó mình đi lấy data, tính toán, phân tích và làm báo cáo mà không biết là bị thiếu rất nhiều tiêu chí khác: customer satisfaction rate, click through rate, user journey, … Trong đó cái mà sếp mình quan tâm nhất là trải nghiệm người dùng trên sản phẩm này có tốt không? Hoàn toàn không có phân tích khía cạnh này!
Mặc dù mình code rất đúng, vẽ chart rất đẹp nhưng kết quả của mình không mang lại giá trị cho business, không giúp giải quyết các vấn đề mà Product đang gặp phải. Mình cảm giấy vô giá trị. Chỉ vì một lý do là mình chưa đủ hiểu về sản phẩm. Mình nhận ra việc giỏi về domain knowledge không phải ngày 1, ngày 2 có thể đạt được mà cần nhiều thời gian. Nó không giống việc chúng ta học tool, cứ học nhiều sẽ quen tay. Không hiểu, không có mindset về business thì sẽ rất khó khăn để làm DA. Đó là sự thật!
2. Mất quá nhiều thời gian để làm DATA PREPARATION
Nói tới ý này mình phải nhắc lại quá trình phân tích dữ liệu đã từng đề cập, gồm 6 bước như thế này:
Thì trong bước số 2 (Data collection – Thu thập dữ liệu) và số 3 (Data preparation – Chuẩn bị dữ liệu) rất vất vã nếu bạn làm trong những công ty chưa có hệ thống data warehouse, data platform chuẩn chỉnh. Data sẽ được lưu ở rất nhiều nơi: từ trong cơ sở dữ liệu cho đến các hệ thống bên ngoài và cả Excel hay Google sheet!
Theo Forbes, chúng ta tạo ra 2,5 tỷ tỷ byte dữ liệu mỗi ngày – more data more problem!
Format data mỗi nơi mỗi kiểu, cái nào trong warehouse thì đỡ vất vả do đã được team IT cấu trúc lại rồi, data nào mà ở các nguồn bên ngoài thì như một nỗi ác mộng to lớn với mình. Mọi người biết mà đúng không: Ở trong excel, cùng 1 cột nhưng bạn được phép lưu nhiều loại dữ liệu khác nhau, dòng trên là số, dòng dưới lưu chữ, viết sai chính tả cũng được. Để xứ lý chuẩn lại format là cả 1 vấn đề, chắc mất cả ngày trời luôn ấy. Nếu là mình thì mình sẽ đầu hàng, trả file lại cho người tạo ra nó và bảo:
- Anh chị nào làm ra file này thì tự đi mà phân tích, em xin off vài ngày đi du lịch ạ!
3. Thiếu data specification , document bạn sẽ phải than trời!
Chuyện Data source đã vô cùng khó khăn như mình nói ở trên. Bây giờ có 1 vấn đề mệt mỏi hơn nữa là: Team không có document cho các bảng dữ liệu nào cả hoặc document không đủ, không đúng. Nếu như “cơn ác mộng” xử lý data sai format mất 1 ngày để sửa, thì “cơn bão” không có tài liệu định nghĩa, giải thích các trường dữ liệu nó đau đớn và kéo dài đến cả tháng trời để sửa chữa hoặc hơn.
Mình hay nói với mọi người rằng, document là tài sản, data không có document thì chỉ có người tạo ra nó hiểu và dùng được. Chứ người khác thì chỉ có dùng sai hoặc không dùng được thôi. Nếu bạn chỉ mất 3s để xem tên cột “customer_id” là hiểu ngay nghĩa là mã định danh khách hàng. Thì sẽ tốn 3 tiếng đồng hồ để tìm người owner của data này giải thích ý nghĩa các trường “extra_info_1”, “extra_info_2”, extra_info_3, … đôi khi chính họ cũng không nhớ nó là gì nữa.
OMG ét ô ét, thật sự mà !
4. Không có quyền truy cập Data mình cần
Có bao giờ bạn ở trong tình cảnh này.
- Sếp: “Em lấy cho anh data thống kê xem trong tuần vừa rồi, khách hàng thanh toán ở khu vực nào nhiều nhất (tỉnh thành, quận huyện, …) 2 tiếng nữa đưa anh số để anh đi họp nha em”
- Mình: “Okay dạ sếp, 10 phút là xong, 1 câu group BY với SQL dễ ẹt ấy mà”
Mình mở tool lên, bắt đầu gõ:
- SELECT …
- FROM …
Ủa FROM bảng nào ta? (Mình nghĩ)
Xem hết 1 lượt các tables mình có, đều không thấy trường thông tin về location mình cần. Đi hỏi Data Engineer hóa ra mới biết là mình chưa có quyền vào database chứa thông tin chi tiết này. Để truy cập được thì phải trải qua 7749 bước xin phê duyệt: từ điền form, sếp mình ký, gửi qua cho team data platform duyệt, data owner ký, vì data này có các thông tin nhạy cảm khác không phải ai cũng được phép. Kết quả. ít nhất 2 ngày sau mới có được data.
Sếp ơi em xin lỗi !!! “Depending on others for data is a drag.” Mình bị phụ thuộc vào người khác thì rất khó để control thời gian được.
Hậu quả này ai chịu, dù mình có bị trách hay là team DE bị la thì lớn nhất vẫn là ảnh hưởng đến business! Cho nên nếu mà 1 ngày nào đó bạn đang cần thêm data mà chưa có thể cũng đừng vội hoang mang. Không phải công ty không có data đó mà là nó ở một góc nào đó mà bạn chưa được phép truy cập đến mà thôi :))) Nên là trong công ty, ai có quyền access nhiều data thì người đó có power lắm nha :))
5. Làm mọi thứ 1 mình, giá như sếp biết mình đã làm bài phân tích này “khoai” đến cỡ nào.
Có những lời đồn mà chúng ta hay nghe là:
- DA dành 90% thời gian làm việc với data, 10% làm việc với con người.
- Trong cv phân tích thì 80% là để leaning dữ liệu, 20% mới dc làm phân tích tìm insights.
Ban đầu nghe thì thấy nhẹ nhàng, nhưng phải làm, phải trải qua thì mới thấu những cô đơn, nội tâm, hoa mắt, mù màu vì ôm máy tính cả tuần, cả tháng!
Mọi người phải chuẩn bị tinh thần là bản thân sẽ làm rất nhiều để đưa ra được một cái báo cáo. Nhưng khách hàng, business họ chỉ quan tâm đến kết quả, quá trình bạn làm cực khổ ra sao thì ít ai nghĩ đến. Suy cho cùng cũng là vị business, nếu lỡ có làm sai, không tốt, không tạo ra giá trị thì dễ dàng bị đánh giá thấp. Đây là sự thật, nhiều khi đến cả sếp nếu chưa đủ hiểu còn khó cảm thông cho DA chứ đừng nói là người ở ngoài kia.
Vậy nên, việc xử lý chuẩn chỉnh data rất vất vả, và bạn cũng không hề cô đơn. Trên thới giới Data Analyst, ai ai cũng đều phải trải qua muôn vàn khó khăn đó. Data không bao giờ ngăn nắp gọn gàng như các mẫu trên kaggle hay của các trung tâm ngoài kia cho phép bạn dùng Power BI kéo thả, bằng các cú click chuột là xong đâu. Đôi khi bạn phải minh mẫn, đừng bị họ thao túng tâm lý mấy câu quảng cáo: Làm Data Analyst chỉ cần dùng tools kéo thả là được nhé!
Kết
Mình có lời khuyên dành cho bạn là: Đừng làm việc thui thủi 1 mình.
Nếu bạn bí ý tưởng, không tìm ra lỗi kĩ thuật thì hãy hỏi Google, hỏi Chat-GPT để nhanh chóng có được lời giải. Nếu bạn không biết mình nên làm sao, hãy chia sẻ với đồng nghiệp, tập cách than vãn với sếp một chút. Để mọi người chia sẻ kinh nghiệm, giúp bạn giải quyết vấn đề nhanh hơn. Đôi khi, điều này cũng giúp sếp hiểu bạn đang làm gì mà thấu cảm cho chúng ta. Đúng không!
Cám ơn bạn đã dành thời gian đọc hết bài viết này.
Follow Maz tại đây để cùng cập nhật thông báo mỗi khi có bài viết mới nhé:
** Mọi thông tin trên blog đều thuộc bản quyền của blog Maz Nguyen. Vui lòng đọc kĩ Copyright Notice trước khi copy hoặc đăng tải lại nội dung/hình ảnh của bài viết **
—————————————————————————————————–
Maz có một dự án dạy học ở đây: Maz Học Data với SQL là course đầu tiên, bạn có thể tham khảo qua nếu thấy cần thiết nhé.
Có dịp Madzy chia sẻ về ngành data ở nước ngoài cho các bạn du học sinh nhé 🙂