Trang chủ Thế giới nói gì 10 cuốn sách nên đọc về Khoa học dữ liệu

10 cuốn sách nên đọc về Khoa học dữ liệu

Theo Harvard Business Review, Data Scientist (Nhà Khoa học dữ liệu) được xem là ngành nghề “quyến rũ” nhất thế kỉ XXI. Nhu cầu nhân lực lớn, cơ hội nghề nghiệp rộng mở, tuy nhiên không phải không có thách thức. Bởi đây là ngành nghề mới phát triển tại Việt Nam, nên tự trang bị kiến thức, kỹ năng đạt chuẩn quốc tế là yếu tố tiên quyết. Viện Nghiên cứu Dữ liệu lớn VinBigdata mách bạn 10 cuốn sách không thể bỏ qua nếu muốn trở thành một nhà khoa học dữ liệu.

03 cuốn sách nền tảng

Nếu bạn là những newbies hoàn toàn trong lĩnh vực Khoa học dữ liệu, đừng bỏ qua những cuốn sách cơ bản sau:

“Data Science from Scratch: First Principles with Python”, Joel Grus.
  • “Data Science from Scratch: First Principles with Python”, Joel Grus. Đây là cuốn sách hoàn hảo cho người mới bắt đầu, ngay cả khi bạn chưa biết gì về Python. Cuốn sách cung cấp kiến ​​thức cơ bản về đại số tuyến tính, thống kê và xác suất; đồng thời đi sâu vào những nguyên tắc nền tảng của học máy, các mô hình Naive Bayes, hồi quy tuyến tính, cây quyết định, mạng nơ-ron và phân cụm. Trong cuốn sách, tác giả Joel Grus cũng đưa người đọc bước đầu khám phá hệ thống đề xuất, xử lý ngôn ngữ và tiếng nói, MapReduce và cơ sở dữ liệu.
  • “Introduction to Machine Learning with Python: A Guide for Data Scientists”: Cuốn sách này phù hợp với những newbies nhưng muốn tìm hiểu sâu hơn về Học máy. Tác giả sẽ đi từ những khái niệm, đến phân tích ưu điểm, hạn chế của các thuật toán học máy phổ biến. Một số phương pháp nâng cao để đánh giá mô hình và điều chỉnh tham số, các kỹ thuật xử lý văn bản cụ thể và những đề xuất để cải thiện chất lượng của học máy và cơ sở dữ liệu cũng được đề cập trong cuốn sách.
  • “Data Science Job: How to become a Data Scientist”: Data Scientist là gì? Công việc cụ thể của một nhà khoa học dữ liệu là gì? Cuốn sách sẽ cung cấp cho bạn một cái nhìn tổng quan, chân thực nhất.

04 cuốn sách trung cấp

Nếu đã nắm “kha khá” vốn và muốn nâng cấp kiến thức, hãy tìm hiểu sâu hơn về Data Science và Python qua những cuốn sách:

“Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2” – Một best-seller về Python Học máy
  • “Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython”: Được viết bởi Wes McKinney – tác giả của Python Pandas, cuốn sách sẽ cung cấp những kiến thức thực tế và mới nhất về các công cụ khoa học dữ liệu trong Python. 
  • “Python Data Science Handbook: Essential Tools for Working with Data”: Cuốn sách chính là bản hướng dẫn chi tiết nhất về các thư viện Python như NumPy, pandas, Matplotlib, Scikit-learn.
  • “Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2”: Đây là một best-seller về Python Học máy. Cuốn sách cung cấp lý giải rõ ràng và trực quan về lý thuyết và thực hành của học máy Python. Ngoài ra, những kiến thức cập nhật nhất về TensorFlow 2, Generative Adversarial Network models, Reinforcement learning cũng sẽ được tác giả đề cập đến trong cuốn sách.
  • “Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems”: Cuốn sách bao gồm tất cả các nguyên tắc cơ bản (phương pháp phân loại, giảm chiều dữ liệu) và sau đó đi sâu vào mạng thần kinh nhân tạo và học máy.

03 cuốn sách nâng cao

Để trở thành chuyên gia trong lĩnh vực Khoa học dữ liệu, bên cạnh các bài báo khoa học, thì những cuốn sách nâng cao sau đây sẽ giúp bạn:

Deep Learning (Adaptive Computation and Machine Learning series) - Cuốn sách được Elon Musk gợi ý.
Deep Learning (Adaptive Computation and Machine Learning series) – Cuốn sách được Elon Musk gợi ý.
  • “Deep Learning with Python”: Được viết bởi tác giả của Keras, đồng thời là chuyên gia của Google AI, cuốn sách giới thiệu chi tiết và trực quan về học sâu sử dụng ngôn ngữ Python và thư viện Keras.
  • “Deep Learning (Adaptive Computation and Machine Learning series)”: Cuốn sách cung cấp tri thức về các thuật toán học sâu. “Được viết bởi ba chuyên gia trong lĩnh vực, đây là cuốn sách duy nhất toàn diện về học sâu”, Elon Musk, CEO của Tesla và  SpaceX nhận xét.
  • “Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series)”. Nếu đam mê Toán học, chắc chắn bạn sẽ thích cuốn sách này. Đó là một chuyến du ngoạn bằng Toán học để tìm hiểu về tất cả các phương pháp học máy. Cuốn sách sẽ rất hữu ích đối với những nghiên cứu khoa học trong lĩnh vực này.

Bên cạnh kiến thức thì kĩ năng giải quyết các bài toán thực tế là yêu cầu bắt buộc đối với mỗi nhà khoa học dữ liệu. Với hơn 5 triệu tài khoản đăng kí, lưu trữ 50.000 bộ dữ liệu và 400.000 tài liệu, Kaggle hiện là cộng đồng quốc tế dành cho dân lập trình AI và Khoa học dữ liệu. Tranh tài trên Kaggle, người dùng có thể: Tìm và xuất bản các tập dữ liệu quy mô lớn; Khám phá và xây dựng các mô hình AI giải quyết bài toán thực tế liên quan đến Khoa học Dữ liệu của nhiều doanh nghiệp, tổ chức lớn trên thế giới; Làm việc và trao đổi với các nhà khoa học dữ liệu và kỹ sư học máy hàng đầu. Tìm hiểu thêm về các chiến thuật giải bài toán Khoa học dữ liệu tại đây.

(Tham khảo: Towards Data Science)

BÀI MỚI NHẤT

Newsletter nổi bật về khoa học dữ liệu và AI (2021)

Newsletter về khoa học dữ liệu và AI là giải pháp tuyệt vời cho việc quá tải thông tin khi nghiên cứu. Newsletter đã...

Dữ liệu tổng hợp: Tất cả những điều bạn nên biết

Synthetic Data (Dữ liệu tổng hợp) đang ngày càng được sử dụng phổ biến, bởi nó tiết kiệm chi phí sản xuất, đồng thời...

Khái quát về mô hình dữ liệu quan hệ

Phần lớn hệ thống cơ sở dữ liệu hiện nay đều được xây dựng bằng mô hình dữ liệu quan hệ. Vậy mô hình...

18 Dự án Khoa học Dữ liệu nguồn mở giúp bạn “nâng cấp” CV

Bạn có biết: Bên cạnh kiến thức chuyên môn, kỹ năng giải quyết các bài toán, dự án thực tế cũng là một điểm...

BÀI ĐỌC NHIỀU

Khái quát về mô hình dữ liệu quan hệ

Phần lớn hệ thống cơ sở dữ liệu hiện nay đều được xây dựng bằng mô hình dữ liệu quan hệ. Vậy mô hình...

Chiến thuật chinh phục các cuộc thi trên Kaggle

Với hơn 5 triệu tài khoản đăng ký, các cuộc thi trên Kaggle là sân chơi quốc tế dành cho cộng đồng trí tuệ...

18 Dự án Khoa học Dữ liệu nguồn mở giúp bạn “nâng cấp” CV

Bạn có biết: Bên cạnh kiến thức chuyên môn, kỹ năng giải quyết các bài toán, dự án thực tế cũng là một điểm...

Chuẩn bị dữ liệu: Tất cả những điều bạn nên biết

Theo nghiên cứu của Gartner, dữ liệu chất lượng kém khiến các tổ chức phải tiêu tốn trung bình 13,5 triệu USD mỗi năm....