Trang chủ Các hoạt động Giám đốc Khoa học VinBigdata chia sẻ cách khai thác dữ liệu...

Giám đốc Khoa học VinBigdata chia sẻ cách khai thác dữ liệu trong kỷ nguyên số

Ngày 08/01/2021, GS. Vũ Hà Văn, Giám đốc Khoa học Viện Nghiên cứu Dữ liệu lớn VinBigdata đã có bài giảng đại chúng về tăng tốc giải quyết ma trận khổng lồ: “Fast computation – The magic of Sampling”.

Trong thế kỉ XXI, dữ liệu là “dầu mỏ” của thế giới số. Tuy nhiên, để phát triển các ứng dụng từ nguồn “dầu mỏ” này, việc tính toán và giải quyết các ma trận khổng lồ, với dữ liệu đầu vào đạt đến hàng triệu, trở thành một thách thức lớn. Thực tế, nhiều thuật toán chạy thời gian đa thức vẫn không thể áp dụng khi kích thước của ma trận vượt quá ngưỡng giới hạn. Do đó, bài toán mà GS. Vũ Hà Văn đặt ra là: Làm thế nào để tăng tốc độ giải quyết các ma trận lớn?

Đi tìm lời giải, Giám đốc Khoa học VinBigdata đã đề cập đến một hướng tiếp cận thịnh hành ở Mỹ trong khoảng 5-10 năm trở lại đây – lấy mẫu ngẫu nhiên (random sampling). Đây là một kĩ thuật cho phép mỗi mẫu có xác suất được chọn bằng nhau, vì thế, đảm bảo tính khách quan và không thiên kiến. Phương pháp này cũng giúp các nhà nghiên cứu thực hiện phân tích dữ liệu được thu thập với biên độ sai số thấp hơn và tốc độ nhanh hơn.

Theo GS. Vũ Hà Văn, bài toán lấy mẫu ngẫu nhiên để tăng tốc giải quyết các ma trận khổng lồ chính là tiền đề cho những ứng dụng quan trọng của dữ liệu lớn trong cuộc sống. Đơn cử là công nghệ nhận diện khuôn mặt. Thay vì phải đợi một thời gian dài để xử lý dữ liệu hình ảnh, nếu giải được bài toán này, hệ thống sẽ chỉ mất dưới 01 giây để xác thực nhận diện. Điều này sẽ giúp tăng trải nghiệm của người dùng và đẩy nhanh tốc độ ứng dụng công nghệ vào mọi mặt của đời sống.

Với nội dung thực tế và phương pháp tiếp cận hiện đại, bài giảng đại chúng của GS. Vũ Hà Văn đã thu hút được hàng trăm người đăng kí tham dự trực tiếp tại Viện Toán học và hơn 63.000 lượt theo dõi trực tiếp trên trang fanpage của Viện Nghiên cứu Dữ liệu lớn VinBigdata.

GS. Vũ Hà Văn hiện là Giám đốc Khoa học Viện Nghiên cứu Dữ liệu lớn VinBigdata, đồng thời đảm nhiệm vị trí giáo sư Toán học ĐH Yale, Hoa Kỳ. GS Văn từng đoạt giải Pólya (SIAM) năm 2008 của Hội toán công nghiêp (SIAM) dành cho công trình nghiên cứu về tập trung độ đo. Năm 2012, anh đoạt giải thưởng Fulkerson của Hội toán học Mỹ về lời giải cho bài toán Shamir trong lý thuyết đồ thị. Cùng năm, anh trở thành thành viên danh dự của hội toán học Mỹ. Năm 2020, GS. vũ Hà Văn vinh dự được bầu chọn trở thành Hội viên danh dự (Fellow) của hiệp hội Toán thống kê (Institute of Mathematical Statistics).

BÀI MỚI NHẤT

Giảm chiều dữ liệu để tăng hiệu quả của mô hình AI

Các tập dữ liệu đa chiều (high-dimensionality datasets) hiện là tài nguyên quý giúp tổ chức nghiên cứu giải quyết những vấn đề phức...

Dữ liệu tổng hợp: Tất cả những điều bạn nên biết

Synthetic Data (Dữ liệu tổng hợp) đang ngày càng được sử dụng phổ biến, bởi nó tiết kiệm chi phí sản xuất, đồng thời...

10 kho dữ liệu mở dành cho cộng đồng Xử lý ảnh y tế

Một trong những thử thách lớn nhất hiện nay đối với cộng đồng AI nói chung, Xử lý ảnh y tế nói riêng chính...

Dữ liệu lớn: phao cứu sinh trong cuộc chiến với biến đổi khí hậu

WHO tuyên bố, hàng năm, thiên tai giết chết khoảng 90 000 người và gây hại cho gần 160 triệu dân trên toàn thế...

BÀI ĐỌC NHIỀU

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...

Giảm chiều dữ liệu để tăng hiệu quả của mô hình AI

Các tập dữ liệu đa chiều (high-dimensionality datasets) hiện là tài nguyên quý giúp tổ chức nghiên cứu giải quyết những vấn đề phức...

Data Lake và Data Warehouse: Đâu là lựa chọn phù hợp?

Data Lake và Data Warehouse là hai khái niệm hay bị nhầm lẫn trong dữ liệu lớn, song thực tế, điểm chung duy nhất...

Ảo hóa dữ liệu: bước đột phá của hồ dữ liệu

Khác với Kho dữ liệu (Data Warehouse) - nơi phát triển các lược đồ và phân cấp trước khi  lưu trữ dữ liệu, hồ...