Trang chủ Thế giới nói gì Garbage in garbage out: Từ góc độ gán nhãn dữ liệu

Garbage in garbage out: Từ góc độ gán nhãn dữ liệu

Để có dữ liệu sạch và có giá trị đối với các thuật toán thì dữ liệu cần được gán nhãn và chú giải bởi con người. Dưới đây là gợi ý về một số loại chú giải cho dữ liệu hình ảnh và các định dạng khác nhau của nhãn.

Tầm quan trọng của gán nhãn dữ liệu

Nếu bạn đưa cho đứa trẻ một quả cà chua và nói rằng đây là củ khoai tây, thì những lần sau đó, khi nhìn thấy cà chua, rất có thể đứa trẻ sẽ phân loại đó là khoai tây. Điều này tương tự đối với việc gán nhãn dữ liệu trong học máy có giám sát. Bởi mô hình học máy cũng học theo cách như vậy, bằng cách xem xét các ví dụ, kết quả của mô hình phụ thuộc vào các nhãn dữ liệu được cung cấp trong giai đoạn đào tạo.

Garbage In Garbage Out là một cụm từ thường được sử dụng trong cộng đồng học máy, có nghĩa là chất lượng của dữ liệu đào tạo quyết định đến chất lượng của mô hình, do đó, cũng phụ thuộc vào các chú thích được sử dụng để gán nhãn dữ liệu. Đây là một công việc đòi hỏi nhiều thao tác thủ công. Để có dữ liệu sạch và có giá trị đối với các thuật toán thì dữ liệu cần được gán nhãn và chú giải bởi con người. Dưới đây là gợi ý về một số loại chú giải cho dữ liệu hình ảnh, các định dạng khác nhau của nhãn, nhằm giúp bạn có được lựa chọn phù hợp và hoàn thành tốt tác vụ gán nhãn dữ liệu.

Các loại chú giải cho dữ liệu ảnh

1. Bounding boxes: là loại chú thích được sử dụng phổ biến nhất trong thị giác máy tính. Bounding boxes là các hộp hình chữ nhật dùng để xác định vị trí của đối tượng mục tiêu. Chúng có thể được xác định bằng tọa độ trục 𝑥 và 𝑦 ở góc trên bên trái và  góc dưới bên phải của hình chữ nhật. Hộp giới hạn thường được sử dụng trong các nhiệm vụ phát hiện và khoanh vùng đối tượng. 

Biểu diễn bounding boxes.
Biểu diễn bounding boxes.

Bounding boxes thường được biểu diễn bằng hai tọa độ (x1, y1) và (x2, y2) hoặc bởi một tọa độ (x1, y1) và chiều rộng (w) và chiều cao (h) của hộp.

2. Polygonal Segmentation (Phân đoạn đa giác): Các đối tượng không phải lúc nào cũng có dạng hình chữ nhật. Với ý tưởng này, phân đoạn đa giác là một loại chú thích dữ liệu khác trong đó các đa giác phức tạp được sử dụng thay vì hình chữ nhật để xác định hình dạng và vị trí của đối tượng một cách chính xác.

Polygonal Segmentation (Phân đoạn đa giác)
Polygonal Segmentation (Phân đoạn đa giác)

3. Semantic Segmentation (Phân đoạn theo ngữ nghĩa): là một chú thích pixel, trong đó mỗi pixel trong hình ảnh được gán cho một lớp. Mỗi pixel mang một ý nghĩa khác nhau. Phân đoạn ngữ nghĩa chủ yếu được sử dụng trong trường hợp bối cảnh môi trường là rất quan trọng. Ví dụ, nó được sử dụng trong ô tô tự lái và robot để giúp các mô hình hiểu rõ được môi trường mà chúng đang hoạt động. 

Semantic Segmentation (Phân đoạn theo ngữ nghĩa)
Semantic Segmentation (Phân đoạn theo ngữ nghĩa)

4. Instance segmentation: khác với Semantic Segmentation (phân đoạn theo từng lớp), instance segmentation là cách phân đoạn các vùng ảnh chi tiết đến từng đối tượng trong mỗi nhãn. Ví dụ, nếu trong ảnh có 5 người, thì với cách phân đoạn này, sẽ có 5 vùng khác nhau cho mỗi người. 

5. Hình khối 3D: Hình khối 3D tương tự như các hộp giới hạn với thông tin sâu hơn về đối tượng. Do đó, với hình khối 3D, bạn có thể có được hình ảnh đại diện 3D của đối tượng, cho phép hệ thống phân biệt các tính năng như thể tích và vị trí trong không gian 3D. Một trường hợp sử dụng của hình khối 3D là trong ô tô tự lái, nơi sử dụng thông tin về độ sâu để đo khoảng cách của các vật thể từ ô tô. 

Chú giải 3D cho dữ liệu ảnh
Chú giải 3D cho dữ liệu ảnh

6. Key-Point and Landmark: Chú thích Key-Point and Landmark được sử dụng để phát hiện các đối tượng nhỏ và các biến thể hình dạng bằng cách tạo các chấm trên hình ảnh. Loại chú thích này rất hữu ích để phát hiện các đặc điểm khuôn mặt, nét mặt, cảm xúc, các bộ phận cơ thể người và tư thế.

Chú thích Key-Point and Landmark
Chú thích Key-Point and Landmark

7. Lines and Splines: là chú thích được tạo ra bằng cách sử dụng các lines và splines. Nó thường được sử dụng trong các phương tiện tự hành để phát hiện và nhận dạng làn đường.

Chú thích Lines and Splines
Chú thích Lines and Splines

Các định dạng gán nhãn cho dữ liệu ảnh

  • COCO: COCO có năm loại chú thích: phát hiện đối tượng, phát hiện điểm chính, phân đoạn nội dung, phân đoạn toàn cảnh và chú thích hình ảnh. Các chú thích được lưu trữ bằng JSON.
  • Pascal VOC: Pascal VOC lưu trữ chú thích trong tệp XML. 
  • YOLO: Ở định dạng ghi nhãn YOLO, một tệp .txt có cùng tên được tạo cho mỗi tệp hình ảnh trong cùng một thư mục. Mỗi tệp .txt chứa các chú thích cho tệp hình ảnh tương ứng, đó là lớp đối tượng, tọa độ đối tượng, chiều cao và chiều rộng (<object-class> <x> <y> <width> <height>).

(Nguồn tham khảo: Towards Data Science)

BÀI MỚI NHẤT

Transformer Neural Network – Mô hình học máy biến đổi thế giới NLP

Năm 2017, Google công bố bài báo “Attention Is All You Need” thông tin về Transformer như tạo ra bước ngoặt mới trong lĩnh...

Dự báo chuỗi thời gian cùng công nghệ Học sâu

Dự báo chuỗi thời gian (Time series forecasting) hiện là lĩnh vực nghiên cứu rất phổ biến. Dễ dàng tìm thấy nhiều loại dữ...

08 khóa học Machine Learning miễn phí

Những khóa học Machine Learning dưới đây đều được triển khai bởi những trường đại học, viện nghiên cứu hay công ty công nghệ...

Newsletter nổi bật về khoa học dữ liệu và AI (2021)

Newsletter về khoa học dữ liệu và AI là giải pháp tuyệt vời cho việc quá tải thông tin khi nghiên cứu. Newsletter đã...

BÀI ĐỌC NHIỀU

10 cuốn sách nên đọc về Khoa học dữ liệu

Theo Harvard Business Review, Data Scientist (Nhà Khoa học dữ liệu) được xem là ngành nghề “quyến rũ” nhất thế kỉ XXI. Nhu cầu...

Chiến thuật chinh phục các cuộc thi trên Kaggle

Với hơn 5 triệu tài khoản đăng ký, các cuộc thi trên Kaggle là sân chơi quốc tế dành cho cộng đồng trí tuệ...

Khái quát về mô hình dữ liệu quan hệ

Phần lớn hệ thống cơ sở dữ liệu hiện nay đều được xây dựng bằng mô hình dữ liệu quan hệ. Vậy mô hình...

Supervised Learning và Unsupervised Learning: Khác biệt là gì?

Supervised learning (Học có giám sát) và Unsupervised learning (Học không giám sát) là hai trong số những phương pháp kỹ thuật cơ bản...