Quy trình làm việc ngành Data Science – Nhiệm vụ của Data Scientist
Quy trình làm việc ngành Data Science
Dựa vào định nghĩa Data Science (Khoa học dữ liệu) có thể hiểu được phần nào công việc của một Data Scientist (Nhà khoa học dữ liệu). Nhưng trong thực tế, các Data Scientist thực hiện nhiều công việc hơn là chỉ nghiên cứu dữ liệu.
Khoa học dữ liệu là một lĩnh vực đa ngành, liên quan đến việc kết hợp có hệ thống của các phương pháp khoa học và thống kê, các quy trình, phát triển thuật toán, công nghệ để trích xuất các thông tin có ý nghĩa từ dữ liệu.
Và làm thế nào mà các lĩnh vực này có thể thực hiện cùng nhau, phải tìm hiểu qua quy trình làm việc ngành Data Science và công việc thường ngày của Data Scientist.
Quy trình làm việc ngành Data Science
Các bước liên quan đến quy trình làm việc ngành Data Science:
- Bước 1: Đặt ra các câu hỏi để định hình các vấn đề doanh nghiệp gặp phải
Để thấu hiểu nhu cầu của công ty và trích xuất dữ liệu dựa trên đó. Các Data Scientist bắt đầu quy trình làm việc ngành Data Science bằng cách đặt những câu hỏi để tìm ra vấn đề. Họ thường đưa ra câu hỏi phổ biến nhất, vấn đề túi tiền của công ty – vấn đề bán hàng.
Để phân tích vấn đề này họ thường đặt ra rất nhiều câu hỏi:
- Thị trường mục tiêu là gì? và ai là khách hàng của công ty?
- Công ty tiếp cận thị trường mục tiêu bằng cách nào?
- Những thông tin mà công ty đang có về thị trường mục tiêu?
- Làm thế nào để xác định những khách hàng thường mua hàng của công ty?
Sau khi làm việc với team Marketing, Data Scientist sẽ quyết định tập trung vào vấn đề: “Làm thế nào để nhận diện ra khách hàng thường mua sản phẩm của công ty?”
- Bước 2: Thu thập dữ liệu liên quan để phân tích vấn đề
Sau khi đã nhận diện được vấn đề, bước quan trọng tiếp theo của quy trình Data Science là thu thập dữ liệu để giải quyết vấn đề. Dữ liệu bắt buộc liên quan: tuổi, giới tính, lịch sử giao dịch trước đây của khách hàng… Hầu hết các dữ liệu liên quan đến khách hàng đều có sẵn trong phần mềm Quản lý khách hàng (CRM) của công ty.
Cơ sở dữ liệu SQL là công cụ phía sau cho phần mềm CRM. Hệ thống SQL lưu trữ thông tin nhận dạng, liên hệ và thông tin nhân khẩu học của khách hàng và quy trình bán hàng chi tiết.
Nếu dữ liệu có sẵn chưa đủ, các Data Scientist phải sắp xếp để thu thập dữ liệu thông qua phản hồi từ khách hàng từ các mẫu khảo sát. Các dữ liệu thu thập được thường là dữ liệu thô có chứa lỗi và thiếu giá trị. Vì vậy trước khi phân tích dữ liệu cần làm sạch.
- Bước 3: Thăm dò dữ liệu để làm sạch và sửa lỗi dữ liệu
Thăm dò dữ liệu là làm sạch và tổ chức lại dữ liệu. Hơn 70% thời gian của các Data Scientist dành cho quá trình này. Python, R, SQL là các công cụ thường được sử dụng để làm sạch và đảm bảo dữ liệu không bị lỗi.
Sau đó các Data Scientist phải trả lời câu hỏi:
- Có thiếu giá trị nào trong dữ liệu không?
- Có giá trị nào không hợp lệ không? Nếu có, làm thế nào để sửa chữa nó?
- Có nhiều bộ dữ liệu không? Gộp các bộ dữ liệu có phải là lựa chọn tốt? Nếu có, Làm thế nào để gộp dữ liệu lại.
Sau khi làm sạch, dữ liệu mới sẵn sàng để phân tích. Những insights sai còn tệ hơn là không có insight nào cả.
- Bước 4: Mô hình dữ liệu phân tích In – Depth
Sau khi thăm dò dữ liệu, các Data Scientist có đủ thông tin để tạo mô hình giải đáp câu hỏi: “Làm thế nào để xác định khách hàng tiềm năng, những người thường mua sản phẩm”.
Bước phân tích dữ liệu đòi hỏi áp dụng nhiều thuật toán khác nhau để rút ra ý nghĩa từ đó:
- Xây dựng mô hình dữ liệu để trả lời câu hỏi.
- Xác nhận mô hình dựa trên dữ liệu thu thập được
- Sử dụng công cụ trực quan hóa để trình bày dữ liệu
- Thực hiện các thuật toán cần thiết và phân tích thống kê
- So sánh kết quả với các kĩ thuật và nguồn khác
Tuy nhiên, trả lời các câu hỏi này chỉ cung cấp các giả thuyết và gợi ý. Mô hình hóa dữ liệu là một cách đơn giản để ước lượng dữ liệu theo phương trình phù hợp. Các nhà khoa học dữ liệu có thể đưa dự đoán trên mô hình hoặc họ phải tìm các mô hình phù hợp khác.
- Bước 5: Truyền đạt kết quả phân tích
Kỹ năng truyền đạt là một phần quan trọng trong công việc của các Data Scientist. Đây là một phần rất khó khăn trong công việc Data Science vì liên quan đến trình bày những phát hiện đến mọi người và thành viên trong nhóm một cách dễ hiểu.
Cần trình bày một cách hiệu quả các kết quả:
- Vẽ biểu đồ hoặc trình bày thông tin với các công cụ – R, Python, Tableau, Excel.
- Sử dụng “storytelling” để kết quả trở nên hợp lý dễ hiểu
- Trình bày dữ liệu ở nhiều dạng khác nhau – báo cáo, trang web
Kết luận
Tóm lại quy trình làm việc ngành Data Science – nhiệm vụ hằng ngày của một Data Scientist là:
- Xác định các vấn đề phân tích liên quan đến dữ liệu mang đến cơ hội lớn cho tổ chức.
- Thu thập các tập dữ liệu lớn có cấu trúc và phi cấu trúc từ nhiều nguồn khác nhau.
- Xác định chính xác tập dữ liệu và các biến
- Làm sạch và loại bỏ dữ liệu lỗi để đảm bảo tính đầy đủ và chính xác của dữ liệu
- Áp dụng các mô hình, thuật toán và kỹ thuật để khai thác các kho dữ liệu lớn
- Phân tích dữ liệu để khám phá các mô hình và xu hướng ẩn sau đó
- Giải thích dữ liệu để tìm ra các giải pháp cũng như các cơ hội, và đưa ra quyết định từ đó.