Trang chủ Thế giới nói gì Ảo hóa dữ liệu: bước đột phá của hồ dữ liệu

Ảo hóa dữ liệu: bước đột phá của hồ dữ liệu

Khác với Kho dữ liệu (Data Warehouse) – nơi phát triển các lược đồ và phân cấp trước khi  lưu trữ dữ liệu, hồ dữ liệu (Data Lake) không có hệ thống phân cấp và cấu trúc chặt chẽ. Đây chính là tiền đề để Ảo hóa dữ liệu ra đời và được coi là một giải pháp khắc phục những hạn chế của mô hình hồ dữ liệu truyền thống.

Nhược điểm của hồ dữ liệu

Việc hợp nhất tất cả các nguồn dữ liệu vào một kho lưu trữ chung đã gây ra không ít thách thức cho các tổ chức, đặc biệt, phải liên tục thực hiện sao chép dữ liệu. Để đảm bảo kho lưu trữ chính đồng bộ với các nguồn dữ liệu cục bộ, nhiều quy trình ETL (Extract – Transformation – Load hay Trích xuất – Biến đổi – Truyền tải) trở thành yêu cầu bắt buộc. Điều này, khả năng rất lớn, làm nảy sinh mâu thuẫn về mặt dữ liệu.

Hơn nữa, sự phát triển của hồ dữ liệu dẫn đến việc trùng lặp dữ liệu không cần thiết, gây tốn kém về không gian và chi phí lưu trữ.

Thách thức thứ ba (và lớn nhất) là vấn đề quản trị và bảo mật dữ liệu, bao gồm các quy định GDPR mới hạn chế vị trí dữ liệu. Theo đó, dữ liệu nhạy cảm không được chuyển vào đám mây hoặc các kho lưu trữ tập trung, gây khó khăn trong việc sử dụng dữ liệu để phân tích.

Ảo hóa dữ liệu – giải pháp cho hồ dữ liệu

Ảo hóa dữ liệu (Data Virtualization) (Ảnh: Datamation)

Ảo hóa dữ liệu là phương pháp quản lý dữ liệu cho phép ứng dụng truy xuất và thực hiện các thao tác mà không yêu cầu thông tin kỹ thuật chi tiết như định dạng hay vị trí của dữ liệu. Ảo hóa dữ liệu hướng đến tạo ra một đại diện dữ liệu duy nhất từ nhiều nguồn độc lập khác nhau mà không phải sao chép hoặc di chuyển dữ liệu. Đây được xem như giải pháp khắc phục những thiếu sót của kho lưu trữ tập trung. Ưu điểm của ảo hóa dữ liệu bao gồm:

  • Gia tăng độ chính xác của dữ liệu
  • Tiết kiệm tài nguyên dành cho quy trình ETL
  • Phân loại dữ liệu
  • Thực thi các quy tắc quản trị
  • Dễ dàng chia sẻ dữ liệu giữa các tổ chức

Ảo hóa dữ liệu và Liên kết dữ liệu

Liên kết dữ liệu là công nghệ cho phép bản đồ hóa các nguồn dữ liệu từ xa và thực hiện truy vấn phân tán đối với các nguồn đó từ một điểm truy cập duy nhất.

Mặt khác, ảo hóa dữ liệu là một nền tảng cung cấp trải nghiệm người dùng cuối, cho phép người dùng truy xuất và thao tác dữ liệu mà không yêu cầu họ biết bất kỳ chi tiết kỹ thuật nào (như định dạng hay vị trí thực tế của dữ liệu). Với ảo hóa dữ liệu, thông tin kỹ thuật đã bị ẩn đi và người dùng cuối được cung cấp một kho dữ liệu tự phục vụ gồm nhiều nguồn dữ liệu có thể được kết hợp vào một chế độ xem duy nhất.

Tuy Ảo hóa và Liên kết dữ liệu thường bị nhầm lẫn và sử dụng thay thế cho nhau, song thực tế, đối với các nhà phát triển, đây vẫn là hai khái niệm tách biệt.

(Nguồn: IBM)

BÀI MỚI NHẤT

Giảm chiều dữ liệu để tăng hiệu quả của mô hình AI

Các tập dữ liệu đa chiều (high-dimensionality datasets) hiện là tài nguyên quý giúp tổ chức nghiên cứu giải quyết những vấn đề phức...

Dữ liệu tổng hợp: Tất cả những điều bạn nên biết

Synthetic Data (Dữ liệu tổng hợp) đang ngày càng được sử dụng phổ biến, bởi nó tiết kiệm chi phí sản xuất, đồng thời...

10 kho dữ liệu mở dành cho cộng đồng Xử lý ảnh y tế

Một trong những thử thách lớn nhất hiện nay đối với cộng đồng AI nói chung, Xử lý ảnh y tế nói riêng chính...

Giám đốc Khoa học VinBigdata chia sẻ cách khai thác dữ liệu trong kỷ nguyên số

Ngày 08/01/2021, GS. Vũ Hà Văn, Giám đốc Khoa học Viện Nghiên cứu Dữ liệu lớn VinBigdata đã có bài giảng đại chúng về...

BÀI ĐỌC NHIỀU

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...

Giảm chiều dữ liệu để tăng hiệu quả của mô hình AI

Các tập dữ liệu đa chiều (high-dimensionality datasets) hiện là tài nguyên quý giúp tổ chức nghiên cứu giải quyết những vấn đề phức...

Data Lake và Data Warehouse: Đâu là lựa chọn phù hợp?

Data Lake và Data Warehouse là hai khái niệm hay bị nhầm lẫn trong dữ liệu lớn, song thực tế, điểm chung duy nhất...

10 kho dữ liệu mở dành cho cộng đồng Xử lý ảnh y tế

Một trong những thử thách lớn nhất hiện nay đối với cộng đồng AI nói chung, Xử lý ảnh y tế nói riêng chính...