Trang chủ Các hoạt động VinBigdata “ươm mầm” để không bỏ phí tài năng toán học

VinBigdata “ươm mầm” để không bỏ phí tài năng toán học

Từ khi còn là sinh viên Đại học, các thực tập sinh VinBigdata đã đứng tên những công bố quốc tế về ứng dụng trí tuệ nhân tạo trong chẩn đoán hình ảnh y khoa. Khởi điểm bằng niềm đam mê với Toán học, được phát triển trong môi trường công nghệ hiện đại và dẫn dắt bởi những chuyên gia hàng đầu, một thế hệ mới của AI Việt Nam đang dần trưởng thành, hứa hẹn sẽ nâng tầm vị thế quốc gia trên bản đồ khoa học thế giới.

Năm 2020, Việt Nam đứng thứ 17/105 quốc gia và vùng lãnh thổ tham dự Olympic Toán học Quốc tế. Trong vòng 10 năm, tính từ năm 2011, thành tích của những tài năng Toán học trẻ nước ta trung bình ở vị trí 12 thế giới. Tuy nhiên, nhiều người vẫn đặt câu hỏi: vì sao Việt Nam sở hữu nhiều nhân tài trong lĩnh vực Khoa học tự nhiên, song dấu ấn công nghệ Việt trên trường quốc tế còn chưa đậm nét. Dẫn chứng là ngay trong năm 2020, sản phẩm tri thức và công nghệ Việt mới xếp thứ 37 toàn cầu (theo nghiên cứu của Tổ chức Sở hữu trí tuệ thế giới Liên Hợp Quốc).

Rõ ràng, để phát huy hết tiềm năng, những nhân tài Toán học của Việt Nam, sau khi chinh phục thành công những đấu trường học thuật quốc gia, quốc tế, cần được tiếp tục đào tạo, trao cơ hội tiếp cận và giải quyết những bài toán thực tế, tại các môi trường đẳng cấp và chuyên nghiệp ngay trong nước. Đây cũng chính là động lực để Viện Nghiên cứu Dữ liệu lớn VinBigdata (tập đoàn Vingroup) tập trung đầu tư, phát triển nhân lực AI từ chính những tài năng trong lĩnh vực toán học nói riêng, khoa học tự nhiên nói chung.

02 năm tích lũy, đào sâu vào sở trường

Dưới sự dẫn dắt của đội ngũ chuyên gia Trung tâm Xử lý ảnh y tế, Nguyễn Trung Hiếu (thực tập sinh VinBigdata) vừa hoàn thành nghiên cứu về ứng dụng AI trong phát hiện các bất thường trên hình ảnh X-quang cột sống: VinDr-SpineXR. Với thành quả này, tháng 9 tới đây, Trung Hiếu sẽ vinh dự tham gia MICCAI 2021 (hội thảo số 01 thế giới về tin học y tế). Đây là công bố quốc tế thứ hai của Hiếu. Trước đó một năm, Hiếu đã sở hữu nghiên cứu về mô hình chẩn đoán u não trên ảnh cộng hưởng từ (Enhancing MRI Brain Tumor Segmentation with an Additional Classification Network) được trình bày tại hội thảo MICCAI BrainLesion 2020.

Nguyễn Trung Hiếu, thực tập sinh VinBigdata, vừa hoàn thành nghiên cứu về VinDr-SpineXR
Nguyễn Trung Hiếu, thực tập sinh VinBigdata, vừa hoàn thành nghiên cứu về VinDr-SpineXR

Việc đứng tên hai công bố tại những hội thảo uy tín thế giới về trí tuệ nhân tạo chính là sự công nhận đối với những nỗ lực không ngừng nghỉ của chàng sinh viên trường ĐH Bách Khoa Hà Nội trong suốt hai năm thực tập tại VinBigdata. Từng đạt giải Nhì kỳ thi HSGQG môn Toán năm 2016 và Huy chương vàng Olympic Toán học sinh viên toàn quốc năm 2018, Trung Hiếu sớm xác định rõ sở trường của mình là hình học. Mong muốn đào sâu, phát huy lợi thế của bản thân, đồng thời tiếp tục trau dồi kiến thức và kỹ năng về Học máy, ngay từ năm 2 đại học, Hiếu đã chọn thực tập tại Trung tâm Xử lý ảnh y tế, VinBigdata. Hai năm gắn bó, Trung Hiếu đã hỗ trợ đội ngũ chuyên gia nghiên cứu, kỹ sư công nghệ suốt hành trình phát triển giải pháp VinDr hỗ trợ các bác sĩ chẩn đoán ảnh y tế.

Khởi điểm từ niềm đam mê với toán học, gia nhập VinBigdata, chàng cựu học sinh THPT chuyên Hà Nội Amsterdam mới bắt đầu học nhiều về lập trình và nghiên cứu các bài báo khoa học. Lúc này, Hiếu nhận ra khoảng cách nhất định từ toán học đến thực tế công nghệ. “Khi bắt tay vào làm sản phẩm, mình mong muốn xây dựng những giải pháp hữu ích, có tính ứng dụng cao và thực sự hỗ trợ được cho các bác sĩ. Một khác biệt lớn nữa là về cách tư duy. Nếu lúc làm toán, mọi thứ luôn rõ ràng và chặt chẽ, thì trong thực tế, dù đã dựa trên các đánh giá tiêu chuẩn, thì đôi lúc vẫn không thể tin tưởng hoàn toàn vào những con số hiển thị. Ví dụ như khi đào tạo mô hình, các chỉ số tăng lên chưa chắc đồng nghĩa với hiệu quả cao hơn trong việc xác định các bất thường và chẩn đoán bệnh lý.” 

Vừa đi học, vừa đi làm trong suốt hai năm, bên cạnh tham gia nghiên cứu, phát triển VinDr, Hiếu cũng thực hiện một số dự án khác ở trường để trải nghiệm nhiều lĩnh vực, từ đó, mở rộng và đa dạng hóa các góc nhìn về học máy. Tuy nhiên, Hiếu chia sẻ “thú vị nhất vẫn là xử lý ảnh y tế”. Ngoài việc bị thu hút bởi các bài toán thực tiễn, ứng dụng AI vào chẩn đoán hình ảnh, sở dĩ, chàng thực tập sinh lựa chọn gắn bó với VinBigdata là bởi môi trường và con người ở Viện. “Các anh ở Trung tâm Xử lý ảnh y tế rất giỏi và nhiệt tình. Trong suốt hai năm, mình được học hỏi và hướng dẫn bởi nhiều chuyên gia, là những tiến sĩ ở các trường đại học danh tiếng như John Hopkins, Illinois (Mỹ), Toulouse (Pháp),… và đội ngũ kỹ sư giàu kinh nghiệm. Bản thân cảm thấy đây là môi trường tốt để phát triển trong và sau đại học.”

Tương lai, Nguyễn Trung Hiếu dự định sẽ tiếp tục theo học cao học ở nước ngoài. Việc chinh phục thành công hội thảo số 01 thế giới về tin học y tế khi mới ngoài 20, cùng kinh nghiệm tích lũy trong thời gian thực tập tại VinBigdata sẽ là những dấu ấn đặc biệt trong hồ sơ của chàng trai này.

Thay đổi quan điểm về phát triển mô hình AI

Cùng với Trung Hiếu, Nguyễn Cảnh Hoàng (sinh viên năm 3, Viện Khoa học và Công nghệ Tiên tiến Hàn Quốc – KAIST) và Lê Thanh Tùng (sinh viên năm 4, Trường ĐH Công nghệ, ĐHQGHN) cũng là những thực tập sinh VinBigdata đứng tên công bố quốc tế đợt này. Nghiên cứu về “Mô hình trí tuệ nhân tạo phân đoạn và ghi nhãn các cung xương sườn từ hình ảnh X-quang lồng ngực – VinDr-RibCXR” được Cảnh Hoàng và Thanh Tùng thực hiện, dưới sự hướng dẫn của TS. Nguyễn Quý Hà (Giám đốc Trung tâm Xử lý ảnh y tế, tiến sĩ ĐH Illinois, Mỹ) và TS. Phạm Huy Hiệu (Chuyên gia nghiên cứu, tiến sĩ ĐH Toulouse, Pháp). Tháng 7 tới đây, bài báo khoa học sẽ được công bố tại hội thảo Medical Imaging with Deep Learning – MIDL 2021 (hội thảo uy tín thế giới về xử lý ảnh y tế). Đặc biệt, từ công trình này, Hoàng, Tùng và nhóm dự án sẽ chính thức chia sẻ bộ dữ liệu dán nhãn cung xương sườn đầu tiên trên thế giới để cộng đồng cùng truy cập. 

Sau 09 tháng thực tập tại VinBigdata, Nguyễn Cảnh Hoàng
Sau 09 tháng thực tập tại VinBigdata, Nguyễn Cảnh Hoàng “gặt hái” được kinh nghiệm phát triển mô hình AI, và đặc biệt là nghiên cứu quốc tế đầu tiên trong sự nghiệp.

Để hoàn thiện công trình, và đặc biệt là bộ dữ liệu quy chuẩn, Cảnh Hoàng và Thanh Tùng phải bắt tay vào nghiên cứu từ tháng 12/2020 và gần như làm việc xuyên Tết. “Lúc đầu, nhóm tiến hành thử nghiệm trên 20-30 ca chụp X-quang lồng ngực, sau đó, thấy hiệu quả và có tiềm năng mới nâng lên 245 ca. Trong suốt thời gian 04 tháng của dự án, mình và Tùng được anh Hà, anh Hiệu chỉ bảo tận tình, chi tiết về lộ trình từng bước. Bên cạnh đó, đối với bộ dữ liệu, đội ngũ bác sĩ cũng trực tiếp tham gia dán nhãn. VinDr-RibCXR được xây dựng và thực hiện bằng chính phần mềm mã nguồn mở VinDr Lab do Trung tâm Xử lý ảnh y tế phát triển. Nhóm vừa làm, vừa phát hiện sai sót đến đâu, đội ngũ kỹ thuật ngay lập tức khắc phục đến đó, nhiệt tình, nhanh gọn và ngay trong ngày.” – Cảnh Hoàng chia sẻ.

Đối với chàng sinh viên KAIST, thành quả này đã vượt quá kỳ vọng ban đầu khi quyết định tận dụng thời gian nghỉ hè và học trực tuyến để gia nhập VinBigdata với vai trò thực tập sinh. Đặt mục tiêu là ứng dụng kiến thức lập trình đã được học ở trường vào giải quyết các bài toán thực tiễn, tới nay, sau khi hoàn tất 09 tháng thực tập, Cảnh Hoàng còn thu nhận được nhiều kinh nghiệm quý báu trong quy trình làm ra một sản phẩm AI hoàn thiện, từ khâu thu thập dữ liệu, đến huấn luyện mạng nơ-ron và đánh giá mô hình. 

Hơn cả, chủ nhân Huy chương vàng Olympic Toán học Quốc tế 2017 đã thay đổi rất nhiều về quan niệm phát triển mô hình AI. “Không chỉ là nghiên cứu thuật toán và dùng cảm giác để đánh giá mức độ hiệu quả, thực tế, để làm AI, phải tham khảo nhiều và thử nghiệm nhiều. Toán học là nền tảng, tuy nhiên, cần không ngừng tìm tòi và tích lũy kinh nghiệm.”

Dưới sự hướng dẫn của các chuyên gia Trung tâm Xử lý ảnh y tế, trong gần 02 năm thực tập, Lê Thanh Tùng đứng tên 04 nghiên cứu tại các tạp chí, hội thảo uy tín như Neurocomputing, MIDL và MICCAI.
Dưới sự hướng dẫn của các chuyên gia Trung tâm Xử lý ảnh y tế, trong gần 02 năm thực tập, Lê Thanh Tùng đứng tên 04 nghiên cứu tại các tạp chí, hội thảo uy tín như Neurocomputing, MIDL và MICCAI.

Sự thay đổi, trưởng thành vượt bậc này chính là thành quả đến từ quá trình xử lý dữ liệu và giải quyết bài toán thực. “Không những được hướng dẫn bởi các chuyên gia, kỹ sư giàu kinh nghiệm, mình còn được làm việc với các bộ dữ liệu thực tế thu từ các bệnh viện. Từ một người chỉ sử dụng dữ liệu sạch trong các cuộc thi, tới nay, mình đã tiến bộ rõ rệt về khả năng phân tích và nhìn nhận những bộ dữ liệu phức tạp.” – Thanh Tùng, chàng trai vừa bảo vệ xuất sắc khóa luận tốt nghiệp với số điểm 9.8/10 chia sẻ.

Nói thêm về quá trình phát triển thuật toán, Tùng cho biết: “Trước đây, mình không có cơ hội tiếp xúc với nhiều tài nguyên và máy móc như ở Viện, do đó, mình chỉ huấn luyện và thử nghiệm được những mô hình nhỏ trên các nền tảng miễn phí. Còn tại Trung tâm Xử lý ảnh y tế VinBigdata, mình có thể làm việc với nhiều mô hình, biết được nhiều phương pháp và do đó, phát triển thuật toán hiệu quả hơn.”

Đáng nói, trước đó, Tùng từng có thời gian thực tập trong lĩnh vực Xử lý ngôn ngữ tự nhiên tại Nhật Bản. Trở về Việt Nam, gia nhập VinBigdata, đồng hành cùng đội ngũ chuyên gia Trung tâm Xử lý ảnh y tế, Tùng đã đứng tên 04 nghiên cứu quốc tế về ứng dụng AI trong chẩn đoán X-quang lồng ngực và MRI sọ não. Trải qua gần 02 năm, Thanh Tùng từng bước chinh phục những bài toán khó hơn, từ xử lý dữ liệu ảnh 2D lên 3D, từ phát hiện đến khoanh vùng tổn thương.

Sau cùng, bên cạnh việc sở hữu các bài báo quốc tế đầu tiên trong sự nghiệp, quá trình thực tập tại VinBigdata đã mang tới cho Cảnh Hoàng và Thanh Tùng những kiến thức, kỹ năng thiết thực mà theo Tùng là “bắt buộc phải trải nghiệm mới thấm được, học được”. Còn với chàng du học sinh Hàn Quốc, “09 tháng ở VinBigdata có thể coi là một kỳ học thành công”.

VinBigdata đồng hành cùng thế hệ khoa học trẻ

Trung Hiếu, Thanh Tùng và Cảnh Hoàng là ba trong số 45 thực tập sinh, cộng tác viên đang tham gia nghiên cứu tại các phòng ban chuyên môn của Viện VinBigdata. Một phần ba số thực tập sinh kể trên sở hữu giải thưởng tại các cuộc thi học thuật quốc gia và quốc tế. Dưới sự đào tạo của các nhà khoa học, chuyên gia hàng đầu trở về từ những trường đại học danh tiếng thế giới như Yale, Johns Hopkins, Illinois…, một đội ngũ khoa học trẻ và tài năng đang góp phần giải quyết những bài toán cấp bách của người Việt trên đa lĩnh vực như Xử lý ngôn ngữ và tiếng nói, Thị giác máy tính, Xử lý ảnh y tế và Tin y sinh ứng dụng.

“Thay vì tốn chi phí mua các sản phẩm của nước ngoài với giá cao, Việt Nam cần có một nguồn nhân lực chất lượng để đưa khoa học công nghệ Việt tiến xa và bền vững hơn”. – GS. Vũ Hà Văn (Giám đốc Khoa học Viện Nghiên cứu Dữ liệu lớn VinBigdata) khẳng định.

Tại Trung tâm Xử lý ảnh y tế, VinBigdata, những tài năng trẻ được hướng dẫn bởi đội ngũ chuyên gia, kỹ sư hàng đầu
Tại Trung tâm Xử lý ảnh y tế, VinBigdata, những tài năng trẻ được hướng dẫn bởi đội ngũ chuyên gia, kỹ sư hàng đầu

Để làm được như vậy, cách nhanh chóng và hiệu quả nhất là “khai phá” tiềm năng công nghệ từ chính những người Việt trẻ có thành tích trong lĩnh vực Khoa học tự nhiên. Đây sẽ là lời giải cho việc nâng cao thứ hạng của AI Việt Nam, sao cho xứng tầm với vị trí của nước ta trên các đấu trường học thuật thế giới.

Với đội ngũ chuyên gia, kỹ sư công nghệ giàu kinh nghiệm, cùng chất lượng nghiên cứu được khẳng định qua gần 40 công bố, giải thưởng quốc tế, VinBigdata đang xây dựng môi trường đẳng cấp thế giới để nhân tài AI Việt Nam được phát huy tối đa năng lực, từ đó từng bước nâng cao vị thế của Khoa học – Công nghệ nước nhà.

BÀI MỚI NHẤT

Transformer Neural Network – Mô hình học máy biến đổi thế giới NLP

Năm 2017, Google công bố bài báo “Attention Is All You Need” thông tin về Transformer như tạo ra bước ngoặt mới trong lĩnh...

Tác động của Gene di truyền đối với hiệu quả điều trị bệnh COVID-19

Trong quá trình điều trị COVID-19, có một thực tế đó là cùng một phác đồ điều trị có người khỏi hẳn, nhưng có...

Các biểu thức chính quy cần thiết (Regex) trong NLP

Khi xử lý văn bản, chúng ta thường mong muốn chuẩn hóa và trích xuất một số thông tin (như số, ngày tháng, v.v.)...

Giảm chiều dữ liệu để tăng hiệu quả của mô hình AI

Các tập dữ liệu đa chiều (high-dimensionality datasets) hiện là tài nguyên quý giúp tổ chức nghiên cứu giải quyết những vấn đề phức...

BÀI ĐỌC NHIỀU

Supervised Learning và Unsupervised Learning: Khác biệt là gì?

Supervised learning (Học có giám sát) và Unsupervised learning (Học không giám sát) là hai trong số những phương pháp kỹ thuật cơ bản...

Transformer Neural Network – Mô hình học máy biến đổi thế giới NLP

Năm 2017, Google công bố bài báo “Attention Is All You Need” thông tin về Transformer như tạo ra bước ngoặt mới trong lĩnh...

Phần mềm mã nguồn mở là gì? Tất cả những điều bạn nên biết

Mã nguồn mở thường được lưu trữ trong kho lưu trữ công cộng và được chia sẻ công khai. Bất kỳ ai cũng có...

03 bài toán kinh điển trong Xử lý ngôn ngữ tự nhiên

Các bài toán trong Xử lý ngôn ngữ tự nhiên (NLP) từ cơ bản đến nâng cao bao gồm part-of-speech tagging, chunking, dependency parsing,...