Trang chủ Thế giới nói gì 18 Dự án Khoa học Dữ liệu nguồn mở giúp bạn "nâng...

18 Dự án Khoa học Dữ liệu nguồn mở giúp bạn “nâng cấp” CV

Bạn có biết: Bên cạnh kiến thức chuyên môn, kỹ năng giải quyết các bài toán, dự án thực tế cũng là một điểm cộng không nhỏ giúp bạn “làm đẹp” CV, ghi điểm trong mắt nhà tuyển dụng và chứng minh năng lực trong lĩnh vực Khoa học Dữ liệu? Hãy bắt đầu luyện tập với các dự án nguồn mở. Lưu lại ngay 18 dự án dưới đây và thử sức trải nghiệm công việc thực tế của các nhà khoa học dữ liệu! Danh sách các dự án được phân chia theo độ khó, giúp bạn thuận tiện hơn trong việc lựa chọn các dự án phù hợp để tham gia thực chiến.

07 Dự án sơ cấp dành cho các bạn mới bắt đầu

  1. Phân loại chữ số viết tay mnist classification: Bộ dữ liệu MNIST gồm các chữ số viết tay được phổ biến rộng rãi trong cộng đồng khoa học dữ liệu và học máy. Đây sẽ là một khởi đầu tuyệt vời để bạn làm quen với khoa học dữ liệu và hiểu các quy trình liên quan của một dự án thực tế như: cách phát triển, đánh giá và sử dụng mạng thần kinh học sâu tích chập để phân loại hình ảnh; cách ước tính hiệu suất của mô hình, khám phá các cải tiến mới,…
  2. Dự án phát hiện tin giả với Python: Dự án sử dụng Python để xây dựng một mô hình có khả năng xác định chính xác tính xác thực của thông tin, thông qua TfidfVectorizer, thuật toán Passive Aggressive Classifier và tập dữ liệu có kích thước 7796 × 4.
  3. Dự án phát hiện làn đường theo thời gian thực bằng Python: Dự án xây dựng ứng dụng xác định làn đường dựa trên dữ liệu hình ảnh hoặc video đầu vào. Đây là một trong những cơ sở phát triển của xe tự hành.
  4. Dự án Phân tích Cảm xúc bằng ngôn ngữ R: Dự án sử dụng ngôn ngữ R và tập dữ liệu ‘janeaustenR’ để phân tích từ ngữ nhằm xác định thái độ, cảm xúc, tình cảm của người nói. Kết quả của dự án được hiển thị bằng Word Cloud.
  5. Dự án Phát hiện Bệnh Parkinson với XGBoost: Ứng dụng Khoa học Dữ liệu vào lĩnh vực y tế, dự án có mục tiêu sử dụng ngôn ngữ Python và bộ dữ liệu UCI ML Parkinsons để dự đoán sớm bệnh Parkinson – bệnh thoái hoá mạn tính tiến triển, thường thấy ở người cao tuổi, gây run, cứng khớp hoặc sa sút trí tuệ,…
  6. Dự án phát hiện bệnh trên lá cây: Nhằm cung cấp giao diện kiểm tra tự động dựa trên hình ảnh, dự án sử dụng các kỹ thuật học sâu để phân loại lá cây khỏe mạnh hay bị nhiễm bệnh, hướng tới phục vụ ứng dụng trong nông nghiệp.
  7. Dự án phát hiện màu sắc với OpenCV: Thực tế có thể có tới 16 triệu màu dựa trên Mô hình màu RGB. Do đó, để phân biệt chính xác các màu sắc này, dự án sử dụng Python và tệp dữ liệu tên màu Codebrainz nhằm xây dựng một ứng dụng nhận diện chính xác màu sắc trên mọi hình ảnh.
project in python on color detection
Dự án phát hiện màu sắc với OpenCV. (Nguồn ảnh: Data Flair)

05 Dự án trung cấp dành cho các bạn đã được trang bị kiến thức và kĩ năng cơ bản

  1. Dự án nhận diện khuôn mặt: Dự án sử dụng dữ liệu đào tạo bao gồm MS1M, VGG2 và CASIA-Webface đã được làm sạch và ở định dạng nhị phân MXNet. Các network backbones (phần lõi) bao gồm ResNet, MobilefaceNet, MobileNet, InceptionResNet_v2, DenseNet, v.v. Với dự án nguồn mở này, các nhà nghiên cứu/kỹ sư có thể phát triển các thuật toán nhận dạng khuôn mặt một cách nhanh chóng chỉ bằng hai bước: tải xuống bộ dữ liệu nhị phân và chạy tập lệnh đào tạo.
  2. Dự án nhận dạng cảm xúc giọng nói với Librosa: Ứng dụng các tính năng mfcc, chroma, mel và sử dụng tập dữ liệu RAVDESS, dự án xây dựng và phát triển MLPClassifier cho mô hình nhận biết cảm xúc qua giọng nói.
  3. Dự án Phát hiện Giới tính và Tuổi với OpenCV: Thông qua dự án này, bạn có thể học hỏi về Computer Vision (Thị giác máy tính) và các nguyên tắc của nó. Chỉ sử dụng một hình ảnh duy nhất của mỗi cá nhân, dự án hướng tới phát triển khả năng dự đoán giới tính và độ tuổi của người dùng, nhờ việc xây dựng hệ thống mạng thần kinh tích chập và ứng dụng các mô hình của Tal Hassner và Gil Levi.
  4. Dự án phát triển phương pháp tự động tầm soát bệnh võng mạc tiểu đường: Bệnh lý võng mạc đái tháo đường hiện là một trong những nguyên nhân hàng đầu gây mù lòa. Nhằm tăng cường khả năng chẩn đoán, tầm soát nguy cơ của bệnh, dự án hướng tới đào tạo một mạng lưới thần kinh về hình ảnh võng mạc của những người bệnh và người khỏe, thông qua đó, phân loại bệnh nhân có bệnh lý võng mạc hay không.
  5. Dự án xây dựng Hệ thống Phát hiện buồn ngủ với OpenCV & Keras: Được thực hiện bằng Keras (phân loại trạng thái của mắt: mở hay nhắm) và OpenCV (phát hiện khuôn mặt và mắt), dự án xây dựng một hệ thống có khả năng phát hiện và đưa ra cảnh báo an toàn nếu tài xế rơi vào trạng thái buồn ngủ.
Data Science Project Ideas - Driver Drowsiness Detection System
Dự án xây dựng Hệ thống Phát hiện buồn ngủ với OpenCV & Keras (Nguồn ảnh: Data Flair)

06 Dự án nâng cao dành cho các bạn muốn “lên trình” khoa học dữ liệu

  1. Dự án làm giả khuôn mặt với deepfake: DeepFaceLab là một hệ thống deepfake mã nguồn mở được chia sẻ qua Github. DeepFaceLab cung cấp một tiện ích đồ họa và thiết kế cho phép người dùng hoán đổi khuôn mặt trên bất kỳ hình ảnh hoặc video nào. Hình ảnh được tạo ra có thể vượt qua nhiều phương pháp phát hiện giả mạo chính thống.
  2. Dự án phát triển Trình tạo phụ đề hình ảnh bằng Python: Mô tả nội dung của hình ảnh là một nhiệm vụ dễ dàng đối với con người, nhưng với máy tính, hình ảnh chỉ là một loạt các con số thể hiện giá trị màu sắc của mỗi pixel. Vì vậy, máy tính gặp phải thách thức không nhỏ trong việc hiểu nội dung hình ảnh và sau đó viết các mô tả bằng ngôn ngữ tự nhiên. Dự án này sử dụng các kỹ thuật học sâu, trong đó triển khai mạng thần kinh tích chập (CNN) với Mạng thần kinh hồi quy (LSTM) để xây dựng trình tạo phụ đề hình ảnh.
  3. Dự án Phát hiện gian lận thẻ tín dụng với Học máy: Dự án sử dụng R với các thuật toán như Cây quyết định, Hồi quy logistic, Mạng thần kinh nhân tạo và Gradient Boosting Classifier để phân loại các giao dịch thẻ tín dụng thành 02 nhóm gian lận hay xác thực.
  4. Dự án Phân khúc khách hàng với Học máy: Phân khúc khách hàng là một ứng dụng phổ biến của học không giám sát (unsupervised learning). Dự án sử dụng K-means clustering và trực quan hóa phân bổ giới tính và độ tuổi của khách hàng, tiến hành phân tích thu nhập hàng năm và mức chi tiêu của họ.
  5. Dự án Phân loại ung thư vú bằng Học sâu: Dự án sử dụng tập dữ liệu IDC_regular để phát hiện sự hiện diện của Ung thư biểu mô tuyến xâm lấn, dạng ung thư vú phổ biến nhất hiện nay, qua đó, tiến hành phân loại dựa trên ứng dụng Học sâu và thư viện Keras.
  6. Dự án phát hiện khối u não dựa trên ảnh MRI. Dự án sử dụng mô hình Transfer learning (Học chuyển giao) trên bộ dữ liệu MRI, kết hợp với mạng thần kinh tích chập để phát hiện khối u não.

Cộng đồng quan tâm tới các dự án Khoa học Dữ liệu trong lĩnh vực y tế cũng có thể tham khảo VinDr Lab – phần mềm mã nguồn mở cho phép quản lý và gán nhãn dữ liệu ảnh y tế. Phần mềm được VinBigdata phát triển để lược bỏ những khó khăn mà các kỹ sư, tổ chức gặp phải trong quá trình xây dựng các giải pháp y tế ứng dụng Trí tuệ nhân tạo. Người dùng hoàn toàn có thể tùy chỉnh mã nguồn để phục vụ các mục đích riêng của tổ chức, cá nhân.

Truy cập VinDr Lab tại

Project github chính cũng như các project thành viên có file hướng dẫn (README.md) để người dùng tham khảo. 

(Nguồn: Data Flair)

BÀI MỚI NHẤT

Newsletter nổi bật về khoa học dữ liệu và AI (2021)

Newsletter về khoa học dữ liệu và AI là giải pháp tuyệt vời cho việc quá tải thông tin khi nghiên cứu. Newsletter đã...

Dữ liệu tổng hợp: Tất cả những điều bạn nên biết

Synthetic Data (Dữ liệu tổng hợp) đang ngày càng được sử dụng phổ biến, bởi nó tiết kiệm chi phí sản xuất, đồng thời...

Khái quát về mô hình dữ liệu quan hệ

Phần lớn hệ thống cơ sở dữ liệu hiện nay đều được xây dựng bằng mô hình dữ liệu quan hệ. Vậy mô hình...

08 trang blog dân Khoa học Dữ liệu nên đọc

08 trang blog dưới đây sẽ cung cấp cho bạn kho tri thức nền tảng về Khoa học Dữ liệu, cùng những thông tin...

BÀI ĐỌC NHIỀU

Khái quát về mô hình dữ liệu quan hệ

Phần lớn hệ thống cơ sở dữ liệu hiện nay đều được xây dựng bằng mô hình dữ liệu quan hệ. Vậy mô hình...

Chiến thuật chinh phục các cuộc thi trên Kaggle

Với hơn 5 triệu tài khoản đăng ký, các cuộc thi trên Kaggle là sân chơi quốc tế dành cho cộng đồng trí tuệ...

Chuẩn bị dữ liệu: Tất cả những điều bạn nên biết

Theo nghiên cứu của Gartner, dữ liệu chất lượng kém khiến các tổ chức phải tiêu tốn trung bình 13,5 triệu USD mỗi năm....

10 cuốn sách nên đọc về Khoa học dữ liệu

Theo Harvard Business Review, Data Scientist (Nhà Khoa học dữ liệu) được xem là ngành nghề “quyến rũ” nhất thế kỉ XXI. Nhu cầu...