Trang chủ Thế giới nói gì Ảo hóa dữ liệu: bước đột phá của hồ dữ liệu

Ảo hóa dữ liệu: bước đột phá của hồ dữ liệu

Khác với Kho dữ liệu (Data Warehouse) – nơi phát triển các lược đồ và phân cấp trước khi  lưu trữ dữ liệu, hồ dữ liệu (Data Lake) không có hệ thống phân cấp và cấu trúc chặt chẽ. Đây chính là tiền đề để Ảo hóa dữ liệu ra đời và được coi là một giải pháp khắc phục những hạn chế của mô hình hồ dữ liệu truyền thống.

Nhược điểm của hồ dữ liệu

Việc hợp nhất tất cả các nguồn dữ liệu vào một kho lưu trữ chung đã gây ra không ít thách thức cho các tổ chức, đặc biệt, phải liên tục thực hiện sao chép dữ liệu. Để đảm bảo kho lưu trữ chính đồng bộ với các nguồn dữ liệu cục bộ, nhiều quy trình ETL (Extract – Transformation – Load hay Trích xuất – Biến đổi – Truyền tải) trở thành yêu cầu bắt buộc. Điều này, khả năng rất lớn, làm nảy sinh mâu thuẫn về mặt dữ liệu.

Hơn nữa, sự phát triển của hồ dữ liệu dẫn đến việc trùng lặp dữ liệu không cần thiết, gây tốn kém về không gian và chi phí lưu trữ.

Thách thức thứ ba (và lớn nhất) là vấn đề quản trị và bảo mật dữ liệu, bao gồm các quy định GDPR mới hạn chế vị trí dữ liệu. Theo đó, dữ liệu nhạy cảm không được chuyển vào đám mây hoặc các kho lưu trữ tập trung, gây khó khăn trong việc sử dụng dữ liệu để phân tích.

Ảo hóa dữ liệu – giải pháp cho hồ dữ liệu

Ảo hóa dữ liệu (Data Virtualization) (Ảnh: Datamation)

Ảo hóa dữ liệu là phương pháp quản lý dữ liệu cho phép ứng dụng truy xuất và thực hiện các thao tác mà không yêu cầu thông tin kỹ thuật chi tiết như định dạng hay vị trí của dữ liệu. Ảo hóa dữ liệu hướng đến tạo ra một đại diện dữ liệu duy nhất từ nhiều nguồn độc lập khác nhau mà không phải sao chép hoặc di chuyển dữ liệu. Đây được xem như giải pháp khắc phục những thiếu sót của kho lưu trữ tập trung. Ưu điểm của ảo hóa dữ liệu bao gồm:

  • Gia tăng độ chính xác của dữ liệu
  • Tiết kiệm tài nguyên dành cho quy trình ETL
  • Phân loại dữ liệu
  • Thực thi các quy tắc quản trị
  • Dễ dàng chia sẻ dữ liệu giữa các tổ chức

Ảo hóa dữ liệu và Liên kết dữ liệu

Liên kết dữ liệu là công nghệ cho phép bản đồ hóa các nguồn dữ liệu từ xa và thực hiện truy vấn phân tán đối với các nguồn đó từ một điểm truy cập duy nhất.

Mặt khác, ảo hóa dữ liệu là một nền tảng cung cấp trải nghiệm người dùng cuối, cho phép người dùng truy xuất và thao tác dữ liệu mà không yêu cầu họ biết bất kỳ chi tiết kỹ thuật nào (như định dạng hay vị trí thực tế của dữ liệu). Với ảo hóa dữ liệu, thông tin kỹ thuật đã bị ẩn đi và người dùng cuối được cung cấp một kho dữ liệu tự phục vụ gồm nhiều nguồn dữ liệu có thể được kết hợp vào một chế độ xem duy nhất.

Tuy Ảo hóa và Liên kết dữ liệu thường bị nhầm lẫn và sử dụng thay thế cho nhau, song thực tế, đối với các nhà phát triển, đây vẫn là hai khái niệm tách biệt.

(Nguồn: IBM)

BÀI ĐỌC NHIỀU

Giải mã Vaccine thế hệ mới chống COVID-19

Đại dịch COVID-19 diễn biến phức tạp ở quy mô toàn cầu suốt cả năm nay, với số ca nhiễm và tử vong không...

VinBigdata đứng số 01 cuộc thi Global Wheat Detection, CVPPP 2020

Sau 2 tháng tranh tài, vượt qua 2245 đội thi hùng mạnh của thế giới, ngày 28/08/2020, Phòng Xử lý ảnh y tế, Viện...

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...

Data Lake và Data Warehouse: Đâu là lựa chọn phù hợp?

Data Lake và Data Warehouse là hai khái niệm hay bị nhầm lẫn trong dữ liệu lớn, song thực tế, điểm chung duy nhất...

BÀI ĐƯỢC LỰA CHỌN

Tìm hiểu về một Mô hình dự báo dịch Covid-19 từ Vũ Hán

Chúng tôi trình bày và giải thích về một mô hình dự báo ngắn hạn và dài hạn (gọi tắt là mô hình SEIR-C19)...

Giải Nobel Hóa học 2020 vinh danh công nghệ chỉnh sửa gene

Giải Nobel Hóa học năm nay được trao cho thành tựu “viết lại bộ mã của sự sống” của hai nhà khoa học nữ:...

Giải Nobel Y học 2020 vinh danh thành tựu nghiên cứu virus viêm gan C

Giải Nobel Y học 2020 được trao cho Harvey J. Alter, Michael Houghton và Charles M. Rice. Ba nhà khoa học được trao giải vì đã có những...

Điều trị tự kỷ bằng ghép tế bào gốc phối hợp với can thiệp giáo dục

1. Giới thiệu chungTự kỷ (autism) hay rối loạn phổ tự kỷ (autism spectrum disorder) là thuật ngữ được dùng để chỉ một...

BÀI MỚI NHẤT

GS. Vũ Hà Văn: “Most mathematicians love what they do, because they can do what they love”.

Đây là câu trả lời của GS. Vũ Hà Văn, Giám đốc Khoa học Viện Nghiên cứu Dữ liệu lớn VinBigdata, Giáo sư ĐH...

Bộ gen tham chiếu đã được xây dựng như thế nào?

Thật khó để tưởng tượng các nghiên cứu Sinh học, Tin sinh học ngày nay sẽ được thực hiện như thế nào nếu bộ...

Một vũ trụ hài hòa khơi nguồn bao sáng tạo!

Năm 2021, Quỹ VINIF đã gửi gắm mong ước về một vũ trũ hài hòa và sáng tạo trong Khối lịch 12 mặt của...

10 cuốn sách nên đọc về Khoa học dữ liệu

Theo Harvard Business Review, Data Scientist (Nhà Khoa học dữ liệu) được xem là ngành nghề “quyến rũ” nhất thế kỉ XXI. Nhu cầu...