Trang chủ Thế giới nói gì Dữ liệu tổng hợp: Tất cả những điều bạn nên biết

Dữ liệu tổng hợp: Tất cả những điều bạn nên biết

Synthetic Data (Dữ liệu tổng hợp) đang ngày càng được sử dụng phổ biến, bởi nó tiết kiệm chi phí sản xuất, đồng thời có thể hỗ trợ phát triển mô hình AI/học sâu, hay thử nghiệm phần mềm. Tính bảo mật (Synthetic data privacy) là một trong những lợi ích quan trọng nhất của dữ liệu tổng hợp. Nó cho phép các doanh nghiệp tiến hành xây dựng phần mềm mà không để lộ dữ liệu người dùng cho các lập trình viên hoặc các công cụ lập trình khác.

Khái quát chung về Dữ liệu tổng hợp

Dữ liệu tổng hợp là gì?

Dữ liệu tổng hợp là dữ liệu được tạo ra một cách nhân tạo, với sự trợ giúp của các thuật toán, chứ không phải bởi các sự kiện thực tế. Dữ liệu tổng hợp có thể ứng dụng cho nhiều hoạt động, bao gồm thử nghiệm dữ liệu cho các sản phẩm và công cụ mới, phát triển và đánh giá hiệu năng của các mô hình AI. Dữ liệu tổng hợp là một dạng của tăng cường dữ liệu (data augmentation).

Lợi ích của dữ liệu tổng hợp

Mặc dù được đưa vào sử dụng bắt đầu từ những năm 90, song, phải đến những năm 2010, khi sức mạnh tính toán và không gian lưu trữ phát triển nhanh chóng thì dữ liệu tổng hợp mới thực sự được ứng dụng rộng rãi. Dữ liệu tổng hợp giúp đáp ứng các nhu cầu hoặc điều kiện cụ thể mà dữ liệu thực không thể làm được. Điều này hữu ích trong nhiều trường hợp như:

  • Tính khả dụng của dữ liệu bị giới hạn bởi các yêu cầu về quyền riêng tư: Dữ liệu thực có thể bị hạn chế bởi các quy định về quyền riêng tư. Trong khi đó, dữ liệu tổng hợp giúp loại bỏ vấn đề này bằng cách sao chép tất cả các thuộc tính thống kê quan trọng mà không làm lộ dữ liệu thực.
  • Không có sẵn dữ liệu để thử nghiệm sản phẩm mới: Trường hợp dữ liệu thực không tồn tại, dữ liệu tổng hợp là giải pháp duy nhất.
  • Cần sử dụng dữ liệu để đào tạo các thuật toán học máy. Trong một số trường hợp như xe tự hành, để tạo ra dữ liệu như vậy trong thực tế là rất tốn kém, do đó, các nhà phát triển thường sử dụng dữ liệu tổng hợp. Ngoài ra, dữ liệu tổng hợp còn có lợi ích trong việc duy trì mối quan hệ đa biến giữa các biến, thay vì chỉ thống kê một cách cụ thể.

Hạn chế của dữ liệu tổng hợp

  • Các dữ liệu ngoại lai có thể bị thiếu: Dữ liệu tổng hợp chỉ bắt chước dữ liệu thực tế chứ không phải là bản sao chính xác của nó. Do đó, dữ liệu tổng hợp có thể không bao gồm một số ngoại lệ mà dữ liệu gốc có.
  • Chất lượng của mô hình phụ thuộc vào nguồn dữ liệu: Chất lượng của dữ liệu tổng hợp có mối tương quan lớn với chất lượng của dữ liệu đầu vào và mô hình tạo dữ liệu. Dữ liệu tổng hợp có thể phản ánh một số sai lệch trong dữ liệu nguồn.
  • Cần kiểm soát đầu ra: Dữ liệu tổng hợp có thể gặp phải một số sai lệch khi cố gắng sao chép tập dữ liệu gốc vốn rất phức tạp. Do đó, đặc biệt đối với các bộ dữ liệu quy mô lớn, cách tốt nhất để đảm bảo sự chính xác của đầu ra là so sánh dữ liệu tổng hợp với dữ liệu xác thực hoặc dữ liệu được chú giải bởi chính con người.
  • Đặc biệt, một số loại hình dữ liệu khó có thể tổng hợp được, ví dụ dữ liệu y sinh…

Cách thức tạo ra dữ liệu tổng hợp

Để xác định phương thức phù hợp, trước tiên cần xem xét đâu là loại dữ liệu tổng hợp mà bạn cần. Hiện có 02 loại của dữ liệu tổng hợp, bao gồm:

  • Tổng hợp hoàn toàn: Dạng dữ liệu này không chứa bất kỳ dữ liệu gốc nào. Như vậy, việc xác định lại một đơn vị đơn lẻ trong tập dữ liệu gần như là không thể và tất cả các biến vẫn có đầy đủ.
  • Tổng hợp một phần: Chỉ dữ liệu nhạy cảm mới được thay thế bằng dữ liệu tổng hợp. Song, điều này không có nghĩa là các giá trị thực còn lại trong tập dữ liệu sẽ bị tiết lộ.

Từ đó, có thể kể đến một số chiến lược chung để xây dựng dữ liệu tổng hợp bao gồm:

  • Tái tạo từ một phân bố: Phương pháp này hoạt động bằng cách quan sát các phân bố thống kê thực và tái tạo dữ liệu giả. Điều này cũng có thể bao gồm việc tạo ra các mô hình tổng hợp.
  • Mô hình dựa trên agent (Agent-based modeling): Đối với phương pháp này, mô hình được tạo ra để mô phỏng và giải thích hành động, cũng như tương tác của các tác nhân, từ đó tái tạo dữ liệu một cách ngẫu nhiên.
  • Mô hình học sâu: Mô hình tự mã hóa và GAN (generative adversarial network) là các kỹ thuật tạo dữ liệu tổng hợp nhằm cải thiện tiện ích dữ liệu bằng cách cung cấp cho các mô hình nhiều dữ liệu hơn.

(Nguồn tham khảo: AI Multiple)

BÀI MỚI NHẤT

Newsletter nổi bật về khoa học dữ liệu và AI (2021)

Newsletter về khoa học dữ liệu và AI là giải pháp tuyệt vời cho việc quá tải thông tin khi nghiên cứu. Newsletter đã...

10 kho dữ liệu mở dành cho cộng đồng Xử lý ảnh y tế

Một trong những thử thách lớn nhất hiện nay đối với cộng đồng AI nói chung, Xử lý ảnh y tế nói riêng chính...

Khái quát về mô hình dữ liệu quan hệ

Phần lớn hệ thống cơ sở dữ liệu hiện nay đều được xây dựng bằng mô hình dữ liệu quan hệ. Vậy mô hình...

18 Dự án Khoa học Dữ liệu nguồn mở giúp bạn “nâng cấp” CV

Bạn có biết: Bên cạnh kiến thức chuyên môn, kỹ năng giải quyết các bài toán, dự án thực tế cũng là một điểm...

BÀI ĐỌC NHIỀU

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...

Data Lake và Data Warehouse: Đâu là lựa chọn phù hợp?

Data Lake và Data Warehouse là hai khái niệm hay bị nhầm lẫn trong dữ liệu lớn, song thực tế, điểm chung duy nhất...

10 cuốn sách nên đọc về Khoa học dữ liệu

Theo Harvard Business Review, Data Scientist (Nhà Khoa học dữ liệu) được xem là ngành nghề “quyến rũ” nhất thế kỉ XXI. Nhu cầu...

Chiến thuật chinh phục các cuộc thi trên Kaggle

Với hơn 5 triệu tài khoản đăng ký, các cuộc thi trên Kaggle là sân chơi quốc tế dành cho cộng đồng trí tuệ...