Trang chủ Thế giới nói gì Supervised Learning và Unsupervised Learning: Khác biệt là gì?

Supervised Learning và Unsupervised Learning: Khác biệt là gì?

Supervised learning (Học có giám sát) và Unsupervised learning (Học không giám sát) là hai trong số những phương pháp kỹ thuật cơ bản của Machine Learning (Học máy). Vậy cụ thể hai phương pháp này là gì và khác nhau như thế nào? 

Supervised Learning là gì?

Cách thức học của mô hình Supervised Learning
Cách thức học của mô hình Supervised Learning. Ảnh: Big Data made simple

Supervised Learning (Học có giám sát) là một nhóm thuật toán sử dụng dữ liệu được gán nhãn nhằm mô hình hóa mối quan hệ giữa biến đầu vào (x) và biến đầu ra (y). Hai nhóm bài toán cơ bản trong học có giám sát là classification (phân loại) và regression (hồi quy), trong đó biến đầu ra của bài toán phân loại có các giá trị rời rạc trong khi biến đầu ra của bài toán hồi quy có các giá trị liên tục. Với Supervised Learning, bên cạnh xây dựng các mô hình mạnh, việc thu thập và gán nhãn dữ liệu tốt và hợp lý cũng đóng vai trò then chốt để giải quyết các bài toán trong thực tế.

Unsupervised Learning là gì?

Cách thức học của mô hình Unsupervised Learning
Cách thức học của mô hình Unsupervised Learning. Ảnh: Big Data made simple

Ngược lại, Unsupervised Learning (Học không giám sát) là một nhóm thuật toán sử dụng dữ liệu không có nhãn. Các thuật toán theo cách tiếp cận này hướng đến việc mô hình hóa được cấu trúc hay thông tin ẩn trong dữ liệu. Hay nói cách khác, sử dụng các phương pháp này thiên về việc mô tả tính chất hay đặc tính của dữ liệu. Thông thường, các thuật toán này dựa trên những thông tin sau:

  • Mối quan hệ tương tự (similarity) giữa các ví dụ (được gọi là instance) trong dữ liệu như trong các thuật toán clustering (phân cụm)
  • Xác suất đồng xuất hiện của các đối tượng như trong Association mining
  • Các phép biến đổi ma trận để trích xuất các đặc trưng như PCA, SVD.

So sánh Supervised Learning và Unsupervised Learning

Những khác biệt cơ bản của phương pháp Supervised Learning và Unsupervised Learning được chỉ ra tại bảng so sánh dưới đây:

Tiêu chíSupervised LearningUnsupervised Learning
Dữ liệu để huấn luyện mô hìnhDữ liệu có nhãnDữ liệu không có nhãn
Cách thức học của mô hìnhMô hình hóa mối quan hệ giữa biến đầu vào và biến đầu raHọc dựa trên các quan hệ tương tự, sự đồng xuất hiện, hay các phép biến đổi ma trận
Thuật toánSupport vector machine, Neural network, Hồi quy tuyến tính, Hồi quy logistics, Random forest và Classification trees.– Các thuật toán clustering như K-mean, DBSCAN, Spectral Clustering, Hierarchical clustering- Apriori (Association Rule Mining)- PCA, SVD
Kết quảĐộ chính xác và tin cậy caoÍt chính xác hơn
Bảng so sánh Supervised Learning và Unsupervised Learning

BÀI ĐỌC NHIỀU

Bài phỏng vấn Giáo sư Vũ Hà Văn

Toufik Mansour(**)(*) Giáo sư Vũ Hà Văn sinh ra và học tập đến hết trung học phổ thông tại Việt Nam. Năm 1994, ông...

Giải mã Vaccine thế hệ mới chống COVID-19

Đại dịch COVID-19 diễn biến phức tạp ở quy mô toàn cầu suốt cả năm nay, với số ca nhiễm và tử vong không...

VinBigdata đứng số 01 cuộc thi Global Wheat Detection, CVPPP 2020

Sau 2 tháng tranh tài, vượt qua 2245 đội thi hùng mạnh của thế giới, ngày 28/08/2020, Phòng Xử lý ảnh y tế, Viện...

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...

BÀI ĐƯỢC LỰA CHỌN

Tìm hiểu về một Mô hình dự báo dịch Covid-19 từ Vũ Hán

Chúng tôi trình bày và giải thích về một mô hình dự báo ngắn hạn và dài hạn (gọi tắt là mô hình SEIR-C19)...

Giải Nobel Hóa học 2020 vinh danh công nghệ chỉnh sửa gene

Giải Nobel Hóa học năm nay được trao cho thành tựu “viết lại bộ mã của sự sống” của hai nhà khoa học nữ:...

Giải Nobel Y học 2020 vinh danh thành tựu nghiên cứu virus viêm gan C

Giải Nobel Y học 2020 được trao cho Harvey J. Alter, Michael Houghton và Charles M. Rice. Ba nhà khoa học được trao giải vì đã có những...

Điều trị tự kỷ bằng ghép tế bào gốc phối hợp với can thiệp giáo dục

1. Giới thiệu chungTự kỷ (autism) hay rối loạn phổ tự kỷ (autism spectrum disorder) là thuật ngữ được dùng để chỉ một...

BÀI MỚI NHẤT

Phần mềm mã nguồn mở là gì? Tất cả những điều bạn nên biết.

Mã nguồn mở thường được lưu trữ trong kho lưu trữ công cộng và được chia sẻ công khai. Bất kỳ ai cũng có...

Các khối đa diện đều và những bí ẩn toán học

LTS: Ngày 17.3.2021 vừa qua, Viện Hàn lâm Khoa học và Văn chương Na Uy đã quyết định trao giải thưởng Abel (được ví...

Hydro làm vàng co lại

Nước ở quanh chúng ta và nuôi sống chúng ta. Trong mỗi giọt nước luôn có một lượng rất nhỏ nguyên tử hydro tách...

Chuẩn bị dữ liệu: Tất cả những điều bạn nên biết

Theo nghiên cứu của Gartner, dữ liệu chất lượng kém khiến các tổ chức phải tiêu tốn trung bình 13,5 triệu USD mỗi năm....