Trang chủ Thế giới nói gì 10 kho dữ liệu mở dành cho cộng đồng Xử lý ảnh...

10 kho dữ liệu mở dành cho cộng đồng Xử lý ảnh y tế

Một trong những thử thách lớn nhất hiện nay đối với cộng đồng AI nói chung, Xử lý ảnh y tế nói riêng chính là việc thiếu các bộ dữ liệu quy mô lớn, được dán nhãn và chuẩn hóa. Nhằm tháo gỡ khó khăn này, bài viết dưới đây đã tổng hợp 10 kho dữ liệu mở trong lĩnh vực xử lý ảnh y tế, hy vọng sẽ là tiền đề giúp các bạn huấn luyện và đánh giá mô hình học máy thành công.

10 bộ dữ liệu mở về ảnh y tế
10 bộ dữ liệu mở về ảnh y tế

1, Cơ sở dữ liệu 100.000 ảnh X-quang lồng ngực của Viện Y tế Quốc gia Hoa Kỳ (NIH): Bao gồm hình ảnh, dữ liệu lâm sàng, nhãn dán và chẩn đoán, bộ dữ liệu được tổng hợp từ hơn 30.000 bệnh nhân tại Trung tâm Lâm sàng NIH, trong đó có nhiều bệnh nhân mắc các bệnh phổi tiến triển nặng.  

2, Cơ sở dữ liệu ảnh y tế về các bệnh ung thư – The Cancer Imaging Archive (TCIA): Trước là cơ quan Lưu trữ Hình ảnh Y sinh Quốc gia Hoa Kỳ (NBIA). Tại đây cung cấp bộ dữ liệu ảnh chụp X-quang phổi, MRI vú, PET/CT phổi, MRI thần kinh, nội soi đại tràng ảo,…Định dạng chủ yếu được sử dụng là DICOM. Một số dữ liệu hỗ trợ có liên quan đến hình ảnh y tế như kết quả của bệnh nhân, chi tiết điều trị, bộ gen và phân tích chuyên gia cũng được cung cấp khi có sẵn.

3, Cơ sở dữ liệu MedPix của Thư viện Y học Quốc gia Mỹ: Bộ dữ liệu bao gồm hơn 59.000 hình ảnh  y tế thu thập từ hơn 12.000 bệnh nhân. Tài liệu được sắp xếp theo vị trí tổn thương (hệ cơ quan); loại bệnh lý; hồ sơ bệnh nhân; hoặc theo phân loại hình ảnh và chú thích hình ảnh. 

4, OASIS: OASIS-3 là phiên bản mới nhất, cho phép truy cập miễn phí các bộ dữ liệu hình ảnh thần kinh cho cộng đồng khoa học. Hai bộ dữ liệu được phát hành trước đây là OASIS-Cross-sectional và OASIS-Longitudinal. Các bộ dữ liệu này đều cung cấp hình ảnh thần kinh đã xử lý trên phổ nhân khẩu học, nhận thức và di truyền, nhằm hỗ trợ các nghiên cứu về thần kinh, lâm sàng, tình trạng lão hóa thông thường và hiện tượng suy giảm nhận thức. 

5, Cơ sở dữ liệu hình ảnh về bệnh Alzheimer (ADNI): Bộ dữ liệu bao gồm hình ảnh MRI và PET, xét nghiệm gen và nhận thức, dịch não tủy (CSF), dấu ấn sinh học máu (blood biomarkers) từ các bệnh nhân mắc bệnh Alzheimer, đối tượng suy giảm nhận thức nhẹ và người cao tuổi.

6, Cơ sở dữ liệu về chấn thương não – FITBIR: Bộ dữ liệu cung cấp hình ảnh MRI, PET và các dữ liệu khác về một loạt các tình trạng chấn thương sọ não, được thu thập và thực hiện bởi Viện Y tế Quốc gia phối hợp với Bộ Quốc phòng Mỹ

7, Cơ sở dữ liệu từ Trung tâm Trí tuệ Nhân tạo trong Y học & Xử lý hình ảnh, ĐH Stanford: Đây là nơi đang lưu trữ và chia sẻ nhiều bộ dữ liệu quy mô lớn về ảnh X-quang, CT và MRI lồng ngực, não, xương khớp. Tính riêng bộ CheXpert đã cung cấp 224,316 ảnh X-quang lồng ngực từ 65,240 bệnh nhân. Bên cạnh đó, EchoNet-Dynamic là tập dữ liệu gồm hơn 10.000 siêu âm tim dạng hình ảnh tĩnh hoặc video được thực hiện bởi các chuyên gia tim mạch hàng đầu.

8, Cơ sở dữ liệu về nhũ ảnh tuyến vú: Mỗi hình ảnh đều có kích thước 1024 × 1024 pixel. Bộ dữ liệu cung cấp thông tin về đặc điểm của mô vú (như mô liên kết – mô vú đặc và mô mỡ – mô vú không đặc), các loại bất thường, mức độ nghiêm trọng của bất thường (lành tính hay ác tính), tọa độ và bán kính gần đúng (tính bằng pixel) của vùng tổn thương.

9, Cơ sở dữ liệu về thoái hóa khớp gối – Sáng kiến về xương khớp OAI: Thoái hóa khớp gối là một trong những nguyên nhân phổ biến nhất gây tàn tật ở người trưởng thành. Trên trang OAI, người dùng có thể truy cập dữ liệu lâm sàng, phân tích mẫu sinh học, phân tích hình ảnh định lượng, hình ảnh X quang và cộng hưởng từ (MRI) của bệnh nhân. OAI cũng cung cấp các đánh giá và đo lường theo chiều dọc từ 4.796 đối tượng, với dữ liệu từ hơn 431.000 lượt khám lâm sàng và gần 26.626.000 hình ảnh trong kho lưu trữ.

10, Bộ dữ liệu X-quang lồng ngực, X-quang cột sống và cung xương sườn đặc trưng của người Việt – VinDr: Thu thập từ các bệnh viện lớn, đồng thời dán nhãn bởi các bác sĩ đầu ngành tại Việt Nam, bộ dữ liệu cung cấp 18,000 ảnh X-quang lồng ngực và X-quang 20 cung xương sườn. Bên cạnh đó, VinBigdata cũng phát triển VinDr Lab – phần mềm mã nguồn mở cho phép quản lý và dán nhãn dữ liệu ảnh y tế. Hiện VinDr Lab đang hỗ trợ ảnh y khoa định dạng X-quang phổi, vú, xương.

Hy vọng với 10 bộ dữ liệu mở kể trên, các bạn quan tâm đến ứng dụng của AI trong chẩn đoán ảnh y tế có thể tự tin nghiên cứu, phát triển và hoàn thiện các giải pháp, sản phẩm có độ chính xác và hiệu quả cao, góp phần cải thiện chất lượng khám chữa bệnh, từ đó nâng cao sức khỏe cộng đồng.

(Nguồn tham khảo: aylward.org)

BÀI MỚI NHẤT

Transformer Neural Network – Mô hình học máy biến đổi thế giới NLP

Năm 2017, Google công bố bài báo “Attention Is All You Need” thông tin về Transformer như tạo ra bước ngoặt mới trong lĩnh...

Các biểu thức chính quy cần thiết (Regex) trong NLP

Khi xử lý văn bản, chúng ta thường mong muốn chuẩn hóa và trích xuất một số thông tin (như số, ngày tháng, v.v.)...

Giảm chiều dữ liệu để tăng hiệu quả của mô hình AI

Các tập dữ liệu đa chiều (high-dimensionality datasets) hiện là tài nguyên quý giúp tổ chức nghiên cứu giải quyết những vấn đề phức...

Newsletter nổi bật về khoa học dữ liệu và AI (2021)

Newsletter về khoa học dữ liệu và AI là giải pháp tuyệt vời cho việc quá tải thông tin khi nghiên cứu. Newsletter đã...

BÀI ĐỌC NHIỀU

Supervised Learning và Unsupervised Learning: Khác biệt là gì?

Supervised learning (Học có giám sát) và Unsupervised learning (Học không giám sát) là hai trong số những phương pháp kỹ thuật cơ bản...

Transformer Neural Network – Mô hình học máy biến đổi thế giới NLP

Năm 2017, Google công bố bài báo “Attention Is All You Need” thông tin về Transformer như tạo ra bước ngoặt mới trong lĩnh...

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...

Phần mềm mã nguồn mở là gì? Tất cả những điều bạn nên biết

Mã nguồn mở thường được lưu trữ trong kho lưu trữ công cộng và được chia sẻ công khai. Bất kỳ ai cũng có...