Sau 2 tháng tranh tài, vượt qua 2245 đội thi hùng mạnh của thế giới, ngày 28/08/2020, Phòng Xử lý ảnh y tế, Viện Nghiên cứu Dữ liệu lớn VinBigdata đã chinh phục thành công vị trí số 01 tại cuộc thi Global Wheat Detection, nằm trong khuôn khổ Hội nghị Châu Âu về Thị giác máy tính 2020 (ECCV 2020), được tổ chức trên nền tảng Kaggle – nền tảng thi đấu lớn nhất về học máy hiện nay.
Phát hiện đối tượng – bài toán cơ bản nhất của Thị giác máy tính
Theo nghiên cứu của MarketsandMarkets, thị trường nhận diện hình ảnh sẽ tăng từ 16,0 tỷ USD lên mức 38,9 tỷ USD năm 2021, với tốc độ tăng trưởng kép (CAGR) đạt 19.5% trong suốt giai đoạn dự đoán. Cùng với dữ liệu ngôn ngữ và tiếng nói, dữ liệu dạng hình ảnh đang ngày một đóng vai trò quan trọng hàng đầu trong cuộc sống hàng ngày, đặc biệt trong thời kỳ số hóa. Câu hỏi đặt ra: Liệu dữ liệu dạng hình ảnh đã được tận dụng triệt để và tối ưu, hay vẫn còn là mảnh đất màu mỡ đang chờ được khai thác?
Thị giác máy tính (Computer Vision) là giải pháp công nghệ mà con người tìm đến để trả lời câu hỏi trên. Là một trong những lĩnh vực ứng dụng quan trọng nhất của Trí tuệ Nhân tạo (AI), thị giác máy tính bao gồm phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích, nhận dạng hình ảnh, phát hiện đối tượng, tạo ảnh, siêu phân giải hình ảnh… Trong số đó, phát hiện đối tượng là bài toán cơ bản nhất, cho phép hệ thống máy tính và phần mềm định vị và xác định từng đối tượng trong ảnh, nhờ vậy, ứng dụng phổ biến nhằm phát hiện khuôn mặt, phương tiện giao thông, đếm lưu lượng di chuyển… trong các hệ thống bảo mật và xe tự hành.
Phát triển dựa trên ứng dụng quan trọng của phát hiện đối tượng trong ảnh, Global Wheat Detection là cuộc thi nằm trong khuôn khổ hội nghị Châu Âu về Thị giác máy tính (ECCV) được tổ chức hai năm một lần. Năm 2020, hội thảo nhắm tới mục tiêu tiếp tục giới thiệu những thách thức mới đang đặt ra và khả năng nâng cao trình độ tiên tiến của thị giác máy tính đối với việc xác định kiểu hình thực vật.
Thử thách tại Global Wheat Detection
Ứng dụng Thị giác máy tính trong một bài toán cụ thể là phát hiện đầu lúa mì từ các hình ảnh ngoài trời của cây lúa mì, Global Wheat Detection đặt mục tiêu xây dựng cơ sở dữ liệu để ước tính mật độ và kích thước của đầu lúa mì ở các giống khác nhau, từ đó đánh giá tốt hơn hiệu suất cho các kiểu gen, ảnh hưởng môi trường lên cây trồng.
Để cán được vạch đích này, các nhà khoa học gặp phải không ít thách thức. Thứ nhất, rất khó để xác định từng đầu lúa mì riêng lẻ, vì ảnh vật thể có thể bị làm mờ do mật độ dày đặc, chồng lên nhau của cây lúa mì và tác động của gió. Thứ hai, hình ảnh của đầu lúa mì sẽ thay đổi tùy theo mức độ trưởng thành của cây, màu sắc, kiểu gen, hướng trồng. Cuối cùng, các yếu tố ngoại cảnh tác động đến kết quả phát hiện hình ảnh bao gồm mật độ trồng, mô hình và điều kiện đồng ruộng. Hiện nay, đã có một số phương pháp được phát triển để giải bài toán này (chẳng hạn Yolo-V3 và Faster-RCNN), nhưng ngay cả khi được đào tạo với một tập dữ liệu lớn, sự sai lệch vẫn còn tồn tại. Do vậy, thực tế đòi hỏi cần phát triển những mô hình cân nhắc, bao quát tất cả các thành tố tác động trên để có thể cho ra kết quả chính xác hơn.
Tại Global Wheat Detection, nhằm cung cấp dữ liệu toàn diện nhất, tệp dữ liệu đầu vào được dẫn dắt bởi 09 viện nghiên cứu đến từ 07 quốc gia: Đại học Tokyo Nhật Bản, 03 viện nghiên cứu nông nghiệp quốc gia Pháp, Viện công nghệ liên bang Thụy Sĩ ETHZ, Đại học Saskatchewan Canada, Đại học Queensland Úc, Đại học Nông nghiệp Nam Kinh Trung Quốc và Viện nghiên cứu Rothamsted Anh, trong số đó có nhiều tổ chức đã kiên trì theo đuổi bài toán phát hiện chính xác đầu lúa mì trong một thời gian dài.
Dựa trên bộ dữ liệu về lúa mì từ khắp nơi trên thế giới, các nhà nghiên cứu phải tập trung vào một giải pháp tổng thể để ước tính số lượng và kích thước của đầu lúa mì. Tệp dữ liệu đào tạo bao gồm 3.000 hình ảnh từ Châu Âu (Pháp, Anh, Thụy Sĩ), Bắc Mỹ (Canada) và khoảng 1.000 hình ảnh từ Úc, Nhật Bản và Trung Quốc.
Lời giải tối ưu từ VinBigdata
Đại diện Phòng Xử lý ảnh Y tế, Viện Nghiên cứu Dữ liệu lớn VinBigdata tranh tài tại Global Wheat Detection năm nay, kỹ sư nghiên cứu AI Nguyễn Bá Dũng đã xuất sắc vượt qua 2245 đội từ khắp nơi trên thế giới để chinh phục vị trí số 01, với mô hình Thị giác máy tính tiên tiến.
Để giải được bài toán hóc búa, nhằm phát hiện chính xác đầu lúa mì từ các hình ảnh ngoài trời của cây lúa mì, mô hình của VinBigdata được phát triển dựa trên các giai đoạn:
- Thứ nhất, xử lý dữ liệu, bao gồm phân tích, xác định dữ liệu thuộc về bài toán nào, khử nhiễu, đồng thời thêm các phép biến đổi lên ảnh để tăng tính đa dạng cho dữ liệu
- Thứ hai, lựa chọn mô hình AI cho bài toán.
- Thứ ba, huấn luyện mô hình AI trên tập dữ liệu, điều chỉnh thông số để mô hình cho kết quả tốt nhất.
Trực tiếp cùng đồng đội tham gia phát triển giải pháp VinDr, ứng dụng AI trong chẩn đoán hình ảnh y tế, nghiên cứu bài toán phát hiện đối tượng trong ảnh như phát hiện và phân loại tổn thương trong ảnh X-quang phổi, X-quang Vú, CT phổi, CT não, CT gan, cộng hưởng từ não, anh Nguyễn Bá Dũng đã có nhiều kinh nghiệm trong việc chọn mô hình AI và cách xử lý dữ liệu phù hợp, tối ưu từ trước.
Về trải nghiệm tại cuộc thi, anh Dũng chia sẻ: “Vì tham dự cuộc thi chậm hơn 01 tháng nên khối lượng công việc rất nhiều, bao gồm xử lý dữ liệu, nghiên cứu tài liệu, tìm mô hình phù hợp, song học hỏi được kinh nghiệm từ các đội khác trong việc xây dựng các mô hình phát hiện đối tượng trong ảnh là niềm vui và động lực thôi thúc mình hoàn thành.” Bài học thực tế đúc rút ra từ cuộc thi cũng là dữ liệu quý báu để anh Dũng cùng đồng đội hoàn thiện các mô hình xử lý ảnh y tế, giúp sản phẩm VinDr tối đa hóa độ chính xác.
Thông qua cuộc thi và hội thảo ECCV, hình ảnh VinBigdata, với những sản phẩm khoa học – công nghệ hiệu quả và thiết thực như VinDr, một lần nữa tới gần hơn với bạn bè quốc tế. Trước đó, VinDr – Giải pháp AI toàn diện trong chẩn đoán hình ảnh y tế đã nhiều lần chinh phục những đấu trường khoa học – công nghệ uy tín thế giới, bao gồm:
- Số 01 cuộc thi Chexpert chẩn đoán 12 bệnh phổi X quang lồng ngực (ĐH Stanford). [2019]
- Số 01 cuộc thi khoanh vùng bệnh trên ảnh nội soi ISBI 2020.
- Số 01 trong cuộc thi phân loại thảo mộc Herbarium, thuộc workshop FGVC7, ở hội thảo hàng đầu thế giới về Thị giác máy tính CVPR 2020.
- Số 3 cuộc thi phát hiện và phân loại thuyên tắc phổi bằng ảnh CT phổi của hiệp hội X-quang Bắc Mỹ (RSNA) và hiệp hội X-quang lồng ngực (STR) 2020.
- Số 01 (giai đoạn I) chẩn đoán tràn khí màng phổi SIIM (Hiệp hội Tin học Hình ảnh Y tế Hoa Kỳ). [2019]
- Top 10 tại cuộc thi chẩn đoán chảy máu não trên ảnh CT do hiệp hội X-quang Bắc Mỹ (RSNA) tổ chức. [2019]
Đặc biệt tính riêng sân chơi Kaggle, anh Nguyễn Bá Dũng là 01 trong 05 thành viên trẻ xuất sắc xếp hạng Master/Grand Master trong phòng Xử lý ảnh y tế. Bảng xếp hạng này không chỉ là sự công nhận đối với thành tích xuất sắc của cá nhân, mà qua đó còn thể hiện năng lực của đội ngũ nghiên cứu trẻ của Việt Nam nói chung và VinBigdata nói riêng trên đấu trường quốc tế.
Kaggle là công ty con của Google từ năm 2017. Được thành lập với mục tiêu trở thành cộng đồng dành cho các nhà khoa học dữ liệu và học máy hàng đầu trên thế giới. Hiện nay, Kaggle có hơn 5 triệu tài khoản đăng kí, trong đó 150 nghìn nhà khoa học dữ liệu hoạt động tích cực trong các cuộc thi. Với Kaggle, người dùng có thể tìm và xuất bản các tập dữ liệu, khám phá và xây dựng các mô hình AI, làm việc với các nhà khoa học dữ liệu và kỹ sư học máy hàng đầu, đồng thời tham gia các cuộc thi để giải quyết các thách thức về khoa học dữ liệu.
Suốt thời gian qua, các cuộc thi được tổ chức trên Kaggle đã có những tác động sâu rộng tới cộng đồng Khoa học – Công nghệ thế giới, như nâng cao và tạo điều kiện cho các nghiên cứu hiện đại về y tế, thị giác máy tính, xử lý ngôn ngữ… Một số bài báo học thuật đã được viết và xuất bản trên cơ sở những phát hiện được tạo ra từ những đóng góp của Kaggle. Tháng 12 tới đây, trên nền tảng Kaggle, VinBigdata sẽ triển khai cuộc thi ảnh do Phòng Xử lý ảnh y tế tổ chức.