13 quyển sách về data science cần đọc: Từ cơ bản đến nâng cao
Những năm gần đây, sách về Data Science ngày càng trở nên phổ biến. Vì thế, nguồn tài liệu để bạn tham khảo không hề thiếu.
Đọc sách về Data Science giúp bạn từng bước nắm bắt vấn đề tốt hơn. Ngoài ra, Data Scientist cần phải có khả năng sử dụng ngôn ngữ và công cụ lập trình rất đa dạng. Thế nên tìm và nghiên cứu sách về Data Science cũng là một cách phát triển hiểu biết của mình theo nhiều hướng khác nhau. Cùng ISB tham khảo 13 quyển sách về Data Science mà bạn nên đọc.
Nội dung
#1: Head First Statistics: A Brain-Friendly Guide – Dawn Griffiths
Nếu bạn đang muốn có một cái nhìn khái quát và nhanh gọn về thống kê trong Data Science với vai trò là một người mới trong lĩnh vực, đây là quyển sách bạn nên “gối đầu giường”. Có rất nhiều sách về ngôn ngữ lập trình cũng như thống kê trong Data Science. Quyển sách này được đánh giá là dễ đọc và giải đáp khá đầy đủ những bài học ban đầu trong Data Science.
Nếu không có kiến thức về thống kê, bạn sẽ dễ dàng bị “ngộp” khi bắt đầu học Data Science. Quyển sách “Head First Statistics: A Brain-Friendly Guide” đưa ra khá nhiều ví dụ thực tiễn để bạn hiểu về thống kê mà không cần phải nhồi nhét quá nhiều thuật ngữ chuyên ngành.
#2: Naked Statistics – Charles Wheelan
Lại là một quyển sách nữa cho người bắt đầu. Những ví dụ trong sách giúp bạn hiểu hơn về thống kê dữ liệu. Với từ diễn đạt sáng nghĩa, quyển sách đề cập đến những chủ đề rất cơ bản trong Descriptive Statistics (Mean (giá trị trung bình), median (giá trị giữa), và mode (giá trị xuất hiện thường xuyên nhất trong tập hợp), xác suất cơ bản, hệ số tương quan, phân tích hồi quy v.v..)
#3: Introduction to Statistical Learning – Gareth James
Sau khi nắm hết những khái niệm cơ bản về thống kê, bạn đã sẵn sàng để tìm hiểu sâu hơn về Data Science. Trong khi nhiều quyển sách chỉ đề cập đến thống kê thì quyển sách này sẽ phối hợp giữa thống kê và Machine Learning sử dụng ngôn ngữ R. Qua đó, sách sẽ hướng dẫn bạn áp dụng những phương pháp thống kê đa dạng vào Machine Learning.
Quyển sách là cầu nối tuyệt vời giữa những khái niệm về thống kê với ứng dụng thực tiễn. Qua đó, nó giải thích rất nhiều khái niệm như hồi quy, phân loại, support vector machines… Không chỉ giúp bạn củng cố nền tảng kiến thức về thống kê mà sách còn cho phép người đọc ứng dụng lý thuyết vào thực tiễn bằng ngôn ngữ R.
#4: Practical Statistics for Data Scientists – Peter Bruce
Quyển sách này gợi cảm hứng cho các Data Scientist mà không cần phải quá thiên về nghiệp vụ thống kê chuyên sâu. Quyển sách đưa ra những khái niệm cần thiết và ứng dụng R.
#5: Introduction to Probability – Charles M. Grinstead
Quyển sách dành cho những người học Data Science mới bắt đầu tìm hiểu về ngôn ngữ lập trình Scratch. Những khái niệm về xác suất cơ bản cũng như chi tiết hơn về các loại xác suất như xác suất có điều kiện, xác suất rời rạc và liên tục, tổ hợp, định lý giới hạn trung tâm, chuỗi Markov v.v..
Nhờ đó, bạn sẽ có thể học được những khái niệm cốt lõi để giải quyết vấn đề. Hơn nữa, quyển sách rất dễ đọc và có bản online miễn phí mà bạn có thể download.
#6: Python Crash Course – Eric Matthes
Đây là quyển sách chắc chắn dành cho những người bắt đầu nghiên cứu về ngôn ngữ Python. Trong khi Python rất dễ học thì ngược lại nó thường khó nắm bắt hết. Quyển sách sẽ rất có ích cho những người muốn nhanh chóng học xong Python để tiếp cận Data Science.
Quyển sách được chia thành 2 phần. Phần đầu hướng dẫn về các khái niệm trong Python (điều kiện, vòng lặp, từ điển, danh sách…). Phần hai tập trung vào xây dựng những dự án bằng Python.
Ngoài ra, sách giúp bạn học cách giải quyết vấn đề bằng Python. Bạn sẽ học được bộ từ điển Python và ứng dụng nó trong phân tích, minh họa và thực hành. Tóm lại, quyển sách này rất lý tưởng cho những ai muốn học Python ngay và có góc nhìn thực tế nhất.
#7: Introduction to Machine Learning with Python: A Guide for Data Scientists – Andreas Muller
Đối với người học Python, những ai mong muốn ứng dụng nó vào Machine Learning, quyển sách trên đây sẽ đáp ứng mọi điều bạn cần. Sách xây dựng kiến thức về Python để giúp người đọc có thể ứng dụng chúng vào giải pháp Machine Learning mà họ muốn.
Hơn nữa, trong đây sẽ đề cập đến thư viện Scikit-learning – một trong những khái niệm phổ biến nhất khi đề cập đến Python. Nếu bạn chuẩn bị hành trang trở thành Data Scientist thì đừng quên quyển sách cơ bản và thiết yếu này nhé!
#8: Hands-On Programming with R – Garrett Grolemund
R là ngôn ngữ lập trình trong thống kê của Data Science. “Hands-On Programming with R” mang đến bài học sơ khai về R. Các khái niệm trong R đều được đề cập như đối tượng, môi trường…
Quyển sách giúp người đọc hình dung về những công việc mà Data Scientist sẽ làm khi sử dụng R và nhiều khái niệm chung khác.
#9: R for Data Science – Hadley Wickham and Garrett Grolemund
Ngay tựa đề sách cũng đã cho biết nội dung bên trong chỉ đề cập gắn liền với R. Những kỹ năng của một người Data Scientist không thể thiếu đi kỹ năng về lọc dữ liệu, minh họa cũng như sắp xếp dữ liệu. RStudio, một khái niệm có thể hơi mới lạ cũng giúp bạn hiểu hơn về R.
Sách về Data Science này cũng hữu ích để bạn hiểu cách tối ưu tài nguyên của R để sắp xếp và minh họa dữ liệu. Hiện nay quyển sách đã có phiên bản miễn phí trên Internet.
#10: Practical Data Science with R – Nina Zumel
Cuốn sách này dạy R một cách rất thực tế thông qua các ứng dụng của nó trong Data Science. Những kiến thức này rất hữu ích cho bạn khi nghiên cứu về quá trình ra quyết định bằng Machine Learning. Các tác giả của cuốn sách này biết các công cụ cơ bản khác nhau của Data Science và đã kết hợp tất cả chúng lại với nhau để mang đến cho người đọc cái nhìn toàn diện về Data Science.
Nếu bạn là một Data Scientist muốn tìm hiểu tất cả các kỹ năng cần thiết trong một quyển sách thì đây chính là lựa chọn lý tưởng. Cuốn sách này sẽ giúp bạn khám phá chiều sâu của Data Science mà không khiến bạn bối rối bởi các thuật ngữ phức tạp.
#11: Learning SQL – Alan Beaulieu
Đây là quyển sách giới thiệu về SQL và đề cập đến nhiều SQL queries, ứng dụng chúng vào thực tế nhanh chóng. Nó sẽ dạy bạn những SQL queries đơn giản và từ từ nâng cao hơn. Sách cũng đề cập đến những khái niệm nâng cao hơn như grouping và chuyển hóa dữ liệu.
#12: SQL Cookbook – Anthony Molinaro
Cuốn sách về Data Science này dành cho những người có kiến thức rất sơ khai về SQL và muốn khám phá các khái niệm nâng cao hơn. Cuốn sách này sẽ chỉ cho bạn các truy vấn và hàm SQL mà bạn có thể sử dụng trong cơ sở dữ liệu của mình. Bạn sẽ tìm hiểu Chức năng cửa sổ, Truy vấn phân cấp, kỹ thuật tìm kiếm nâng cao, v.v. Cuốn sách này sẽ phù hợp nhất cho những người có đam mê khám phá những phần sâu nhất của SQL và thành thạo nó.
#13: Hadoop: The Definitive Guide – Tom White
Hadoop là một công cụ Dữ liệu lớn được sử dụng để xử lý và lưu trữ lượng dữ liệu khổng lồ. Một Data Scientist phải biết Hadoop để đối phó với một lượng lớn dữ liệu. Cuốn sách này sẽ giúp người đọc xây dựng và duy trì các hệ thống phân tầng dữ liệu chính xác, đáng tin cậy bằng Hadoop. Bạn cũng sẽ tìm hiểu cách sử dụng Hadoop ngoài đời thực trong ngành chăm sóc sức khỏe và di truyền học. Bạn cũng sẽ tìm hiểu chức năng của Hadoop như Hive, Pig, HBase, v.v.
TÓM LẠI
Trong khi Data Science là một lĩnh vực rộng lớn. Người học phải biết các tài nguyên học tập phù hợp để tìm hiểu lĩnh vực này một cách sâu sắc. Những quyển sách về Data Science được đề xuất trên bao gồm 2 lĩnh vực Thống kê & Xác suất và Ngôn ngữ lập trình trong Data Science.
Ngôn ngữ và công cụ lập trình khác nhau là thành phần thiết yếu trong Data Science vì thế mà đọc sách về Data Science sẽ giúp bạn hiểu vấn đề tốt hơn, xây nền tảng vững chắc để phát triển khả năng của mình.