Trang chủ Thế giới nói gì 10 cuốn sách nên đọc về Khoa học dữ liệu

10 cuốn sách nên đọc về Khoa học dữ liệu

Theo Harvard Business Review, Data Scientist (Nhà Khoa học dữ liệu) được xem là ngành nghề “quyến rũ” nhất thế kỉ XXI. Nhu cầu nhân lực lớn, cơ hội nghề nghiệp rộng mở, tuy nhiên không phải không có thách thức. Bởi đây là ngành nghề mới phát triển tại Việt Nam, nên tự trang bị kiến thức, kỹ năng đạt chuẩn quốc tế là yếu tố tiên quyết. Viện Nghiên cứu Dữ liệu lớn VinBigdata mách bạn 10 cuốn sách không thể bỏ qua nếu muốn trở thành một nhà khoa học dữ liệu.

03 cuốn sách nền tảng

Nếu bạn là những newbies hoàn toàn trong lĩnh vực Khoa học dữ liệu, đừng bỏ qua những cuốn sách cơ bản sau:

“Data Science from Scratch: First Principles with Python”, Joel Grus.
  • “Data Science from Scratch: First Principles with Python”, Joel Grus. Đây là cuốn sách hoàn hảo cho người mới bắt đầu, ngay cả khi bạn chưa biết gì về Python. Cuốn sách cung cấp kiến ​​thức cơ bản về đại số tuyến tính, thống kê và xác suất; đồng thời đi sâu vào những nguyên tắc nền tảng của học máy, các mô hình Naive Bayes, hồi quy tuyến tính, cây quyết định, mạng nơ-ron và phân cụm. Trong cuốn sách, tác giả Joel Grus cũng đưa người đọc bước đầu khám phá hệ thống đề xuất, xử lý ngôn ngữ và tiếng nói, MapReduce và cơ sở dữ liệu.
  • “Introduction to Machine Learning with Python: A Guide for Data Scientists”: Cuốn sách này phù hợp với những newbies nhưng muốn tìm hiểu sâu hơn về Học máy. Tác giả sẽ đi từ những khái niệm, đến phân tích ưu điểm, hạn chế của các thuật toán học máy phổ biến. Một số phương pháp nâng cao để đánh giá mô hình và điều chỉnh tham số, các kỹ thuật xử lý văn bản cụ thể và những đề xuất để cải thiện chất lượng của học máy và cơ sở dữ liệu cũng được đề cập trong cuốn sách.
  • “Data Science Job: How to become a Data Scientist”: Data Scientist là gì? Công việc cụ thể của một nhà khoa học dữ liệu là gì? Cuốn sách sẽ cung cấp cho bạn một cái nhìn tổng quan, chân thực nhất.

04 cuốn sách trung cấp

Nếu đã nắm “kha khá” vốn và muốn nâng cấp kiến thức, hãy tìm hiểu sâu hơn về Data Science và Python qua những cuốn sách:

“Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2” – Một best-seller về Python Học máy
  • “Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython”: Được viết bởi Wes McKinney – tác giả của Python Pandas, cuốn sách sẽ cung cấp những kiến thức thực tế và mới nhất về các công cụ khoa học dữ liệu trong Python. 
  • “Python Data Science Handbook: Essential Tools for Working with Data”: Cuốn sách chính là bản hướng dẫn chi tiết nhất về các thư viện Python như NumPy, pandas, Matplotlib, Scikit-learn.
  • “Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2”: Đây là một best-seller về Python Học máy. Cuốn sách cung cấp lý giải rõ ràng và trực quan về lý thuyết và thực hành của học máy Python. Ngoài ra, những kiến thức cập nhật nhất về TensorFlow 2, Generative Adversarial Network models, Reinforcement learning cũng sẽ được tác giả đề cập đến trong cuốn sách.
  • “Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems”: Cuốn sách bao gồm tất cả các nguyên tắc cơ bản (phương pháp phân loại, giảm chiều dữ liệu) và sau đó đi sâu vào mạng thần kinh nhân tạo và học máy.

03 cuốn sách nâng cao

Để trở thành chuyên gia trong lĩnh vực Khoa học dữ liệu, bên cạnh các bài báo khoa học, thì những cuốn sách nâng cao sau đây sẽ giúp bạn:

Deep Learning (Adaptive Computation and Machine Learning series) - Cuốn sách được Elon Musk gợi ý.
Deep Learning (Adaptive Computation and Machine Learning series) – Cuốn sách được Elon Musk gợi ý.
  • “Deep Learning with Python”: Được viết bởi tác giả của Keras, đồng thời là chuyên gia của Google AI, cuốn sách giới thiệu chi tiết và trực quan về học sâu sử dụng ngôn ngữ Python và thư viện Keras.
  • “Deep Learning (Adaptive Computation and Machine Learning series)”: Cuốn sách cung cấp tri thức về các thuật toán học sâu. “Được viết bởi ba chuyên gia trong lĩnh vực, đây là cuốn sách duy nhất toàn diện về học sâu”, Elon Musk, CEO của Tesla và  SpaceX nhận xét.
  • “Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series)”. Nếu đam mê Toán học, chắc chắn bạn sẽ thích cuốn sách này. Đó là một chuyến du ngoạn bằng Toán học để tìm hiểu về tất cả các phương pháp học máy. Cuốn sách sẽ rất hữu ích đối với những nghiên cứu khoa học trong lĩnh vực này.

Bên cạnh kiến thức thì kĩ năng giải quyết các bài toán thực tế là yêu cầu bắt buộc đối với mỗi nhà khoa học dữ liệu. Với hơn 5 triệu tài khoản đăng kí, lưu trữ 50.000 bộ dữ liệu và 400.000 tài liệu, Kaggle hiện là cộng đồng quốc tế dành cho dân lập trình AI và Khoa học dữ liệu. Tranh tài trên Kaggle, người dùng có thể: Tìm và xuất bản các tập dữ liệu quy mô lớn; Khám phá và xây dựng các mô hình AI giải quyết bài toán thực tế liên quan đến Khoa học Dữ liệu của nhiều doanh nghiệp, tổ chức lớn trên thế giới; Làm việc và trao đổi với các nhà khoa học dữ liệu và kỹ sư học máy hàng đầu. Tìm hiểu thêm về các chiến thuật giải bài toán Khoa học dữ liệu tại đây.

(Tham khảo: Towards Data Science)

BÀI ĐỌC NHIỀU

Giải mã Vaccine thế hệ mới chống COVID-19

Đại dịch COVID-19 diễn biến phức tạp ở quy mô toàn cầu suốt cả năm nay, với số ca nhiễm và tử vong không...

VinBigdata đứng số 01 cuộc thi Global Wheat Detection, CVPPP 2020

Sau 2 tháng tranh tài, vượt qua 2245 đội thi hùng mạnh của thế giới, ngày 28/08/2020, Phòng Xử lý ảnh y tế, Viện...

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...

Data Lake và Data Warehouse: Đâu là lựa chọn phù hợp?

Data Lake và Data Warehouse là hai khái niệm hay bị nhầm lẫn trong dữ liệu lớn, song thực tế, điểm chung duy nhất...

BÀI ĐƯỢC LỰA CHỌN

Tìm hiểu về một Mô hình dự báo dịch Covid-19 từ Vũ Hán

Chúng tôi trình bày và giải thích về một mô hình dự báo ngắn hạn và dài hạn (gọi tắt là mô hình SEIR-C19)...

Giải Nobel Hóa học 2020 vinh danh công nghệ chỉnh sửa gene

Giải Nobel Hóa học năm nay được trao cho thành tựu “viết lại bộ mã của sự sống” của hai nhà khoa học nữ:...

Giải Nobel Y học 2020 vinh danh thành tựu nghiên cứu virus viêm gan C

Giải Nobel Y học 2020 được trao cho Harvey J. Alter, Michael Houghton và Charles M. Rice. Ba nhà khoa học được trao giải vì đã có những...

Điều trị tự kỷ bằng ghép tế bào gốc phối hợp với can thiệp giáo dục

1. Giới thiệu chungTự kỷ (autism) hay rối loạn phổ tự kỷ (autism spectrum disorder) là thuật ngữ được dùng để chỉ một...

BÀI MỚI NHẤT

GS. Vũ Hà Văn: “Most mathematicians love what they do, because they can do what they love”.

Đây là câu trả lời của GS. Vũ Hà Văn, Giám đốc Khoa học Viện Nghiên cứu Dữ liệu lớn VinBigdata, Giáo sư ĐH...

Bộ gen tham chiếu đã được xây dựng như thế nào?

Thật khó để tưởng tượng các nghiên cứu Sinh học, Tin sinh học ngày nay sẽ được thực hiện như thế nào nếu bộ...

Một vũ trụ hài hòa khơi nguồn bao sáng tạo!

Năm 2021, Quỹ VINIF đã gửi gắm mong ước về một vũ trũ hài hòa và sáng tạo trong Khối lịch 12 mặt của...

10 cuốn sách nên đọc về Khoa học dữ liệu

Theo Harvard Business Review, Data Scientist (Nhà Khoa học dữ liệu) được xem là ngành nghề “quyến rũ” nhất thế kỉ XXI. Nhu cầu...