Trang chủ Các hoạt động VinBigdata đứng số 01 cuộc thi Global Wheat Detection, CVPPP 2020

VinBigdata đứng số 01 cuộc thi Global Wheat Detection, CVPPP 2020

Sau 2 tháng tranh tài, vượt qua 2245 đội thi hùng mạnh của thế giới, ngày 28/08/2020, Phòng Xử lý ảnh y tế, Viện Nghiên cứu Dữ liệu lớn VinBigdata đã chinh phục thành công vị trí số 01 tại cuộc thi Global Wheat Detection, nằm trong khuôn khổ Hội nghị Châu Âu về Thị giác máy tính 2020 (ECCV 2020), được tổ chức trên nền tảng Kaggle –  nền tảng thi đấu lớn nhất về học máy hiện nay.

Phát hiện đối tượng – bài toán cơ bản nhất của Thị giác máy tính

Theo nghiên cứu của MarketsandMarkets, thị trường nhận diện hình ảnh sẽ tăng từ 16,0 tỷ USD lên mức 38,9 tỷ USD năm 2021, với tốc độ tăng trưởng kép (CAGR) đạt 19.5% trong suốt giai đoạn dự đoán. Cùng với dữ liệu ngôn ngữ và tiếng nói, dữ liệu dạng hình ảnh đang ngày một đóng vai trò quan trọng hàng đầu trong cuộc sống hàng ngày, đặc biệt trong thời kỳ số hóa. Câu hỏi đặt ra: Liệu dữ liệu dạng hình ảnh đã được tận dụng triệt để và tối ưu, hay vẫn còn là mảnh đất màu mỡ đang chờ được khai thác? 

Thị giác máy tính (Computer Vision) là giải pháp công nghệ mà con người tìm đến để trả lời câu hỏi trên. Là một trong những lĩnh vực ứng dụng quan trọng nhất của Trí tuệ Nhân tạo (AI), thị giác máy tính bao gồm phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích, nhận dạng hình ảnh, phát hiện đối tượng, tạo ảnh, siêu phân giải hình ảnh… Trong số đó, phát hiện đối tượng là bài toán cơ bản nhất, cho phép hệ thống máy tính và phần mềm định vị và xác định từng đối tượng trong ảnh, nhờ vậy, ứng dụng phổ biến nhằm phát hiện khuôn mặt, phương tiện giao thông, đếm lưu lượng di chuyển… trong các hệ thống bảo mật và xe tự hành. 

Phát triển dựa trên ứng dụng quan trọng của phát hiện đối tượng trong ảnh, Global Wheat Detection là cuộc thi nằm trong khuôn khổ hội nghị Châu Âu về Thị giác máy tính (ECCV) được tổ chức hai năm một lần. Năm 2020, hội thảo nhắm tới mục tiêu tiếp tục giới thiệu những thách thức mới đang đặt ra và khả năng nâng cao trình độ tiên tiến của thị giác máy tính đối với việc xác định kiểu hình thực vật. 

VinBigdata xuất sắc giành vị trí số 01 tại cuộc thi Global Wheat Detection, nằm trong khuôn khổ Hội nghị Châu Âu về Thị giác máy tính 2020 (ECCV 2020)

Thử thách tại Global Wheat Detection

Ứng dụng Thị giác máy tính trong một bài toán cụ thể là phát hiện đầu lúa mì từ các hình ảnh ngoài trời của cây lúa mì, Global Wheat Detection đặt mục tiêu xây dựng cơ sở dữ liệu để ước tính mật độ và kích thước của đầu lúa mì ở các giống khác nhau, từ đó đánh giá tốt hơn hiệu suất cho các kiểu gen, ảnh hưởng môi trường lên cây trồng.

Để cán được vạch đích này, các nhà khoa học gặp phải không ít thách thức. Thứ nhất, rất khó để xác định từng đầu lúa mì riêng lẻ, vì ảnh vật thể có thể bị làm mờ do mật độ dày đặc, chồng lên nhau của cây lúa mì và tác động của gió. Thứ hai, hình ảnh của đầu lúa mì sẽ thay đổi tùy theo mức độ trưởng thành của cây, màu sắc, kiểu gen, hướng trồng. Cuối cùng, các yếu tố ngoại cảnh tác động đến kết quả phát hiện hình ảnh bao gồm mật độ trồng, mô hình và điều kiện đồng ruộng. Hiện nay, đã có một số phương pháp được phát triển để giải bài toán này (chẳng hạn Yolo-V3 và Faster-RCNN), nhưng ngay cả khi được đào tạo với một tập dữ liệu lớn, sự sai lệch vẫn còn tồn tại. Do vậy, thực tế đòi hỏi cần phát triển những mô hình cân nhắc, bao quát tất cả các thành tố tác động trên để có thể cho ra kết quả chính xác hơn.

Tại Global Wheat Detection, nhằm cung cấp dữ liệu toàn diện nhất, tệp dữ liệu đầu vào được dẫn dắt bởi 09 viện nghiên cứu đến từ 07 quốc gia: Đại học Tokyo Nhật Bản, 03 viện nghiên cứu nông nghiệp quốc gia Pháp, Viện công nghệ liên bang Thụy Sĩ ETHZ, Đại học Saskatchewan Canada, Đại học Queensland Úc, Đại học Nông nghiệp Nam Kinh Trung Quốc và Viện nghiên cứu Rothamsted Anh, trong số đó có nhiều tổ chức đã kiên trì theo đuổi bài toán phát hiện chính xác đầu lúa mì trong một thời gian dài.

Dựa trên bộ dữ liệu về lúa mì từ khắp nơi trên thế giới, các nhà nghiên cứu phải tập trung vào một giải pháp tổng thể để ước tính số lượng và kích thước của đầu lúa mì. Tệp dữ liệu đào tạo bao gồm 3.000 hình ảnh từ Châu Âu (Pháp, Anh, Thụy Sĩ), Bắc Mỹ (Canada) và khoảng 1.000 hình ảnh từ Úc, Nhật Bản và Trung Quốc.

Lời giải tối ưu từ VinBigdata

Đại diện Phòng Xử lý ảnh Y tế, Viện Nghiên cứu Dữ liệu lớn VinBigdata tranh tài tại Global Wheat Detection năm nay, kỹ sư nghiên cứu AI Nguyễn Bá Dũng đã xuất sắc vượt qua 2245 đội từ khắp nơi trên thế giới để chinh phục vị trí số 01, với mô hình Thị giác máy tính tiên tiến.

Để giải được bài toán hóc búa, nhằm phát hiện chính xác đầu lúa mì từ các hình ảnh ngoài trời của cây lúa mì, mô hình của VinBigdata được phát triển dựa trên các giai đoạn:

  • Thứ nhất, xử lý dữ liệu, bao gồm phân tích, xác định dữ liệu thuộc về bài toán nào, khử nhiễu, đồng thời thêm các phép biến đổi lên ảnh để tăng tính đa dạng cho dữ liệu
  • Thứ hai, lựa chọn mô hình AI cho bài toán.
  • Thứ ba, huấn luyện mô hình AI trên tập dữ liệu, điều chỉnh thông số để mô hình cho kết quả tốt nhất.

Trực tiếp cùng đồng đội tham gia phát triển giải pháp VinDr, ứng dụng AI trong chẩn đoán hình ảnh y tế, nghiên cứu bài toán phát hiện đối tượng trong ảnh như phát hiện và phân loại tổn thương trong ảnh X-quang phổi, X-quang Vú, CT phổi, CT não, CT gan, cộng hưởng từ não, anh Nguyễn Bá Dũng đã có nhiều kinh nghiệm trong việc chọn mô hình AI và cách xử lý dữ liệu phù hợp, tối ưu từ trước.

Nguyễn Bá Dũng – Chàng trai solo giật giải Nhất 8.000 USD tại CVPPP 2020

Về trải nghiệm tại cuộc thi, anh Dũng chia sẻ: “Vì tham dự cuộc thi chậm hơn 01 tháng nên khối lượng công việc rất nhiều, bao gồm xử lý dữ liệu, nghiên cứu tài liệu, tìm mô hình phù hợp, song học hỏi được kinh nghiệm từ các đội khác trong việc xây dựng các mô hình phát hiện đối tượng trong ảnh là niềm vui và động lực thôi thúc mình hoàn thành.” Bài học thực tế đúc rút ra từ cuộc thi cũng là dữ liệu quý báu để anh Dũng cùng đồng đội hoàn thiện các mô hình xử lý ảnh y tế, giúp sản phẩm VinDr tối đa hóa độ chính xác. 

Thông qua cuộc thi và hội thảo ECCV, hình ảnh VinBigdata, với những sản phẩm khoa học – công nghệ hiệu quả và thiết thực như VinDr, một lần nữa tới gần hơn với bạn bè quốc tế. Trước đó, VinDr – Giải pháp AI toàn diện trong chẩn đoán hình ảnh y tế đã nhiều lần chinh phục những đấu trường khoa học – công nghệ uy tín thế giới, bao gồm:

  • Số 01 cuộc thi Chexpert chẩn đoán 12 bệnh phổi X quang lồng ngực (ĐH Stanford). [2019]
  • Số 01 cuộc thi khoanh vùng bệnh trên ảnh nội soi ISBI 2020.
  • Số 01 trong cuộc thi phân loại thảo mộc Herbarium, thuộc workshop FGVC7, ở hội thảo hàng đầu thế giới về Thị giác máy tính CVPR 2020.
  • Số 3 cuộc thi phát hiện và phân loại thuyên tắc phổi bằng ảnh CT phổi của hiệp hội X-quang Bắc Mỹ (RSNA) và hiệp hội X-quang lồng ngực (STR) 2020.
  • Số 01 (giai đoạn I) chẩn đoán tràn khí màng phổi SIIM (Hiệp hội Tin học Hình ảnh Y tế Hoa Kỳ). [2019]
  • Top 10 tại cuộc thi chẩn đoán chảy máu não trên ảnh CT do hiệp hội X-quang Bắc Mỹ (RSNA) tổ chức. [2019]

Đặc biệt tính riêng sân chơi Kaggle, anh Nguyễn Bá Dũng là 01 trong 05 thành viên trẻ xuất sắc xếp hạng Master/Grand Master trong phòng Xử lý ảnh y tế. Bảng xếp hạng này không chỉ là sự công nhận đối với thành tích xuất sắc của cá nhân, mà qua đó còn thể hiện năng lực của đội ngũ nghiên cứu trẻ của Việt Nam nói chung và VinBigdata nói riêng trên đấu trường quốc tế. 

Kaggle là công ty con của Google từ năm 2017. Được thành lập với mục tiêu trở thành cộng đồng dành cho các nhà khoa học dữ liệu và học máy hàng đầu trên thế giới. Hiện nay, Kaggle có hơn 5 triệu tài khoản đăng kí, trong đó 150 nghìn nhà khoa học dữ liệu hoạt động tích cực trong các cuộc thi. Với Kaggle, người dùng có thể tìm và xuất bản các tập dữ liệu, khám phá và xây dựng các mô hình AI, làm việc với các nhà khoa học dữ liệu và kỹ sư học máy hàng đầu, đồng thời tham gia các cuộc thi để giải quyết các thách thức về khoa học dữ liệu. 

Suốt thời gian qua, các cuộc thi được tổ chức trên Kaggle đã có những tác động sâu rộng tới cộng đồng Khoa học – Công nghệ thế giới, như nâng cao và tạo điều kiện cho các nghiên cứu hiện đại về y tế, thị giác máy tính, xử lý ngôn ngữ… Một số bài báo học thuật đã được viết và xuất bản trên cơ sở những phát hiện được tạo ra từ những đóng góp của Kaggle. Tháng 12 tới đây, trên nền tảng Kaggle, VinBigdata sẽ triển khai cuộc thi ảnh do Phòng Xử lý ảnh y tế tổ chức.

BÀI MỚI NHẤT

Phát triển phương tiện tự hành dưới nước AUV phục vụ hỗ trợ các tác vụ ngầm và nghiên cứu khoa học biển

Tiềm năng kinh tế biển Việt Nam Việt Nam có hơn 3.260 km bờ biển với hơn 4.000 hòn đảo, bãi đá ngầm lớn nhỏ,...

Mạng nơ-ron tăng vọt trong hệ thống Neuromorphic hiện đại (Phần 3): Phần cứng

Hệ thống phần cứng ở mức caoHệ thống phần cứng ở mức cao được chia thành các triển khai mạch tương tự, mạch số...

Mạng nơ-ron tăng vọt trong hệ thống Neuromorphic hiện đại (Phần 2)

Một trong những câu hỏi quan trọng liên quan đến tính toán neuromorphic là sử dụng mô hình mạng nơ-ron nào? Mô hình mạng nơ-ron xác định những thành phần nào tạo nên mạng, cách các thành phần đó hoạt động và tương tác. Ví dụ, các thành phần phổ biến của mô hình mạng nơ-ron là các nơ-ron và khớp thần kinh (synapse), lấy cảm hứng từ các mạng nơ-ron sinh học. Khi xác định mô hình mạng nơ-ron, người ta cũng phải xác định các mô hình cho từng thành phần (ví dụ: mô hình nơ-ron và mô hình synapse); các mô hình thành phần chi phối cách thành phần đó hoạt động.

Mạng nơ-ron tăng vọt trong hệ thống Neuromorphic hiện đại (Phần 1)

Mạng nơ-ron tăng vọt (Spiking Neural Network – SNN) được giới thiệu bởi các nhà nghiên cứu tại Đại học Heidelberg và Đại học Bern. Mạng nơ-ron tăng vọt bắt chước gần giống mạng nơ-ron tự nhiên, có khả năng xử lý thông tin theo thời gian thực và tiết kiệm năng lượng. SNN sử dụng các xung điện (spikes) để truyền thông tin giữa các nơ-ron. Thay vì truyền tín hiệu liên tục như các mạng nơ-ron truyền thống, SNN truyền các xung điện rời rạc tại các thời điểm cụ thể khi điện thế màng của nơ-ron vượt qua một ngưỡng nhất định. SNN lấy một tập hợp các xung tăng vọt làm ngõ vào và tạo ra một tập hợp các xung tăng vọt làm ngõ ra (một loạt các xung tăng vọt thường được gọi là các chuỗi xung tăng vọt). Tế bào thần kinh kích hoạt khi điện thế màng chạm ngưỡng, gửi tín hiệu đến các tế bào thần kinh lân cận, làm tăng hoặc giảm điện thế của chúng để đáp lại tín hiệu. Các thành phần quan trọng của mạng SNN là mô hình nơ-ron thần kinh, khớp thần kinh (synapse), STDP (spike-timing-dependent plasticity), v.v.

BÀI ĐỌC NHIỀU

Khái quát về mô hình dữ liệu quan hệ

Phần lớn hệ thống cơ sở dữ liệu hiện nay đều được xây dựng bằng mô hình dữ liệu quan hệ. Vậy mô hình...

Supervised Learning và Unsupervised Learning: Khác biệt là gì?

Supervised learning (Học có giám sát) và Unsupervised learning (Học không giám sát) là hai trong số những phương pháp kỹ thuật cơ bản...

Transformer Neural Network – Mô hình học máy biến đổi thế giới NLP

Năm 2017, Google công bố bài báo “Attention Is All You Need” thông tin về Transformer như tạo ra bước ngoặt mới trong lĩnh...

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...