Để có dữ liệu sạch và có giá trị đối với các thuật toán thì dữ liệu cần được gán nhãn và chú giải bởi con người. Dưới đây là gợi ý về một số loại chú giải cho dữ liệu hình ảnh và các định dạng khác nhau của nhãn.
Tầm quan trọng của gán nhãn dữ liệu
Nếu bạn đưa cho đứa trẻ một quả cà chua và nói rằng đây là củ khoai tây, thì những lần sau đó, khi nhìn thấy cà chua, rất có thể đứa trẻ sẽ phân loại đó là khoai tây. Điều này tương tự đối với việc gán nhãn dữ liệu trong học máy có giám sát. Bởi mô hình học máy cũng học theo cách như vậy, bằng cách xem xét các ví dụ, kết quả của mô hình phụ thuộc vào các nhãn dữ liệu được cung cấp trong giai đoạn đào tạo.
Garbage In Garbage Out là một cụm từ thường được sử dụng trong cộng đồng học máy, có nghĩa là chất lượng của dữ liệu đào tạo quyết định đến chất lượng của mô hình, do đó, cũng phụ thuộc vào các chú thích được sử dụng để gán nhãn dữ liệu. Đây là một công việc đòi hỏi nhiều thao tác thủ công. Để có dữ liệu sạch và có giá trị đối với các thuật toán thì dữ liệu cần được gán nhãn và chú giải bởi con người. Dưới đây là gợi ý về một số loại chú giải cho dữ liệu hình ảnh, các định dạng khác nhau của nhãn, nhằm giúp bạn có được lựa chọn phù hợp và hoàn thành tốt tác vụ gán nhãn dữ liệu.
Các loại chú giải cho dữ liệu ảnh
1. Bounding boxes: là loại chú thích được sử dụng phổ biến nhất trong thị giác máy tính. Bounding boxes là các hộp hình chữ nhật dùng để xác định vị trí của đối tượng mục tiêu. Chúng có thể được xác định bằng tọa độ trục 𝑥 và 𝑦 ở góc trên bên trái và góc dưới bên phải của hình chữ nhật. Hộp giới hạn thường được sử dụng trong các nhiệm vụ phát hiện và khoanh vùng đối tượng.
Bounding boxes thường được biểu diễn bằng hai tọa độ (x1, y1) và (x2, y2) hoặc bởi một tọa độ (x1, y1) và chiều rộng (w) và chiều cao (h) của hộp.
2. Polygonal Segmentation (Phân đoạn đa giác): Các đối tượng không phải lúc nào cũng có dạng hình chữ nhật. Với ý tưởng này, phân đoạn đa giác là một loại chú thích dữ liệu khác trong đó các đa giác phức tạp được sử dụng thay vì hình chữ nhật để xác định hình dạng và vị trí của đối tượng một cách chính xác.
3. Semantic Segmentation (Phân đoạn theo ngữ nghĩa): là một chú thích pixel, trong đó mỗi pixel trong hình ảnh được gán cho một lớp. Mỗi pixel mang một ý nghĩa khác nhau. Phân đoạn ngữ nghĩa chủ yếu được sử dụng trong trường hợp bối cảnh môi trường là rất quan trọng. Ví dụ, nó được sử dụng trong ô tô tự lái và robot để giúp các mô hình hiểu rõ được môi trường mà chúng đang hoạt động.
4. Instance segmentation: khác với Semantic Segmentation (phân đoạn theo từng lớp), instance segmentation là cách phân đoạn các vùng ảnh chi tiết đến từng đối tượng trong mỗi nhãn. Ví dụ, nếu trong ảnh có 5 người, thì với cách phân đoạn này, sẽ có 5 vùng khác nhau cho mỗi người.
5. Hình khối 3D: Hình khối 3D tương tự như các hộp giới hạn với thông tin sâu hơn về đối tượng. Do đó, với hình khối 3D, bạn có thể có được hình ảnh đại diện 3D của đối tượng, cho phép hệ thống phân biệt các tính năng như thể tích và vị trí trong không gian 3D. Một trường hợp sử dụng của hình khối 3D là trong ô tô tự lái, nơi sử dụng thông tin về độ sâu để đo khoảng cách của các vật thể từ ô tô.
6. Key-Point and Landmark: Chú thích Key-Point and Landmark được sử dụng để phát hiện các đối tượng nhỏ và các biến thể hình dạng bằng cách tạo các chấm trên hình ảnh. Loại chú thích này rất hữu ích để phát hiện các đặc điểm khuôn mặt, nét mặt, cảm xúc, các bộ phận cơ thể người và tư thế.
7. Lines and Splines: là chú thích được tạo ra bằng cách sử dụng các lines và splines. Nó thường được sử dụng trong các phương tiện tự hành để phát hiện và nhận dạng làn đường.
Các định dạng gán nhãn cho dữ liệu ảnh
- COCO: COCO có năm loại chú thích: phát hiện đối tượng, phát hiện điểm chính, phân đoạn nội dung, phân đoạn toàn cảnh và chú thích hình ảnh. Các chú thích được lưu trữ bằng JSON.
- Pascal VOC: Pascal VOC lưu trữ chú thích trong tệp XML.
- YOLO: Ở định dạng ghi nhãn YOLO, một tệp .txt có cùng tên được tạo cho mỗi tệp hình ảnh trong cùng một thư mục. Mỗi tệp .txt chứa các chú thích cho tệp hình ảnh tương ứng, đó là lớp đối tượng, tọa độ đối tượng, chiều cao và chiều rộng (<object-class> <x> <y> <width> <height>).
(Nguồn tham khảo: Towards Data Science)