Các tập dữ liệu đa chiều (high-dimensionality datasets) hiện là tài nguyên quý giúp tổ chức nghiên cứu giải quyết những vấn đề phức tạp trong thế giới thực như dự đoán cấu trúc protein liên quan đến COVID-19; phân tích điện não đồ,…. Tuy nhiên, mặt khác, các bộ dữ liệu lớn đôi khi có thể chứa một số cột dữ liệu chất lượng kém, làm giảm hiệu suất của mô hình. Do đó, cần thiết sử dụng các kỹ thuật giảm chiều dữ liệu nhằm làm tăng hiệu quả của mô hình AI.
Lợi ích của giảm chiều dữ liệu
- Cải thiện độ chính xác của mô hình
- Đẩy nhanh tốc độ đào tạo mô hình
- Mô hình trở nên đơn giản hơn
Các kỹ thuật giảm chiều dữ liệu
Trích lọc đặc trưng
Giai đoạn đầu tiên trong quá trình giảm chiều dữ liệu là trích chọn và loại bỏ các đặc trưng để sử dụng cho mô hình AI. Một số kĩ thuật trích lọc phổ biến có thể kể đến:
- Missing values ratio: Khi một cột vượt quá ngưỡng nhất định đối với các giá trị bị thiếu, cột đó có thể bị loại khỏi tập huấn luyện.
- Low-variance filter: Loại bỏ khỏi tập huấn luyện những cột rơi xuống dưới ngưỡng phương sai nhất định.
- High-correlation filter: Nếu nhiều cột khác nhau đều chứa các xu hướng tương tự thì chỉ cần giữ một trong các cột để cung cấp cho thuật toán học máy. Có thể xác định cột này bằng cách sử dụng Hệ số tương quan Pearson.
- Random forest: Random forests cung cấp chỉ báo về tầm quan trọng của tính năng. Nó tạo ra cây quyết định (Decision tree) trên các mẫu dữ liệu được chọn ngẫu nhiên, và xác định giải pháp tốt nhất bằng cách bỏ phiếu.
- Backwards-feature elimination: Kỹ thuật này bắt đầu với tất cả các tính năng trong tập dữ liệu, loại bỏ dần dần từng tính năng cho đến khi thuật toán chạm đến số lỗi tối đa có thể chấp nhận được.
- Forward-feature construction: Trái với Backwards-feature elimination, kỹ thuật Forward-feature construction bắt đầu với một tính năng, dần dần thêm tính năng tiếp theo cho đến khi đạt mức hiệu suất cao nhất.
Đại số tuyến tính
Đại số tuyến tính cũng là nhóm phương pháp nổi tiếng nhất, bao gồm các kỹ thuật:
- Principal component analysis (PCA): Đây là thuật toán học máy không giám sát, làm giảm kích thước của tập dữ liệu trong khi vẫn giữ lại nhiều thông tin nhất có thể. Để làm điều này, thuật toán tạo một tập hợp các tính năng mới từ tập hợp các tính năng hiện có. Lưu ý: để đảm bảo tất cả các biến phải có cùng thang đo, bạn có thể sử dụng hàm ‘StandardScaler’ (tham khảo thêm Python’s scikit-learning).
- Linear Discriminatory Analysis (LDA): LDA là kỹ thuật học máy có giám sát, tìm cách giữ lại khả năng phân biệt cho các biến phụ thuộc. Để làm điều này, đầu tiên, thuật toán LDA tính toán khả năng phân tách giữa các lớp. Thứ hai, nó tính toán khoảng cách giữa mẫu của mỗi lớp và giá trị trung bình. Cuối cùng, LDA tạo ra tập dữ liệu trong không gian có kích thước thấp hơn.
- Singular Value Composition (SVD): SVD trích xuất các tính năng quan trọng nhất từ tập dữ liệu. Phương pháp này đặc biệt phổ biến vì nó dựa trên các mô hình đại số tuyến tính đơn giản, dễ hiểu.
Đa tạp
Nói một cách đơn giản, học đa tạp (manifold) sử dụng các tính chất hình học, chiếu các điểm vào một không gian có chiều thấp hơn trong khi vẫn bảo toàn cấu trúc của nó. Một số kỹ thuật đa tạp phổ biến bao gồm:
- Isomap embedding: Kỹ thuật này duy trì các mối quan hệ trong tập dữ liệu bằng cách tạo ra một tập dữ liệu nhúng. Để đạt được điều này, isomaps bắt đầu với việc tạo ra mạng lân cận. Tiếp theo, nó ước tính khoảng cách trắc địa, đường đi ngắn nhất giữa hai điểm trên bề mặt cong, giữa tất cả các cặp điểm. Cuối cùng, bằng cách sử dụng phân rã eigenvalue của ma trận khoảng cách trắc địa, Isomap xác định việc nhúng chiều thấp của tập dữ liệu.
- Locally linear embedding (LLE): Giống như isomap, LLE tạo ra một tập dữ liệu nhúng. Để làm điều này, đầu tiên, LLE tìm k-nearest neighbours (kNN) của các điểm. Thứ hai, nó ước tính từng vectơ dữ liệu dưới dạng kết hợp của kNN. Cuối cùng, nó tạo ra các vectơ chiều thấp để tái tạo các trọng số này. Có hai lợi ích của thuật toán LLE, bao gồm: LLE có thể phát hiện thêm các tính năng mà phương pháp đại số tuyến tính mang lại; và LLE hiệu quả hơn so với các thuật toán khác.
- t-Distributed Stochastic Neighbour: t-SNE đặc biệt nhạy với các cấu trúc cục bộ. Nó cũng là một trong những cách tiếp cận tốt nhất đối với việc trực quan hóa và giúp hiểu các thuộc tính lý thuyết của tập dữ liệu. Tuy nhiên, lưu ý t-SNE hiện là một trong những phương pháp tính toán tốn kém nhất. Các kỹ thuật khác, chẳng hạn như missing values ratio, nên được sử dụng trước khi áp dụng t-SNE. Ngoài ra, tất cả các tính năng nên được thu nhỏ trước khi áp dụng kỹ thuật này.
Kết lại, không có kỹ thuật giảm chiều dữ liệu nào là hoàn hảo nếu nó được sử dụng độc lập. Các bạn nên trải nghiệm nhiều kỹ thuật khác nhau và sử dụng kết hợp chúng một cách khéo léo, để sao cho mô hình ngày càng tiệm cận tới tối ưu.
(Nguồn tham khảo: Towards Data Science)