Trang chủ Thế giới nói gì Lịch sử khai thác dữ liệu: từ kiểm đếm đến dữ liệu...

Lịch sử khai thác dữ liệu: từ kiểm đếm đến dữ liệu lớn

Thế kỉ III trước Công nguyên, Thư viện Alexandria được coi là nơi chứa đựng toàn bộ kiến thức của loài người. 2400 năm sau, nhân loại bước sang thời kì bùng nổ dữ liệu, với tổng lượng thông tin trên mỗi đầu người thậm chí lớn gấp 320 lần kho lưu trữ của thư viện Alexandria.

Lịch sử cổ đại của dữ liệu

Cây gậy kiểm đếm thời cổ đại

Bằng chứng sớm nhất cho việc lưu trữ dữ liệu thời tiền sử là những cây gậy kiểm đếm xuất hiện từ năm 18000 trước Công nguyên (TCN). Mãi đến năm 2400 TCN, bàn tính mới ra đời và được coi là thiết bị chuyên dụng đầu tiên để thực hiện các tính toán. Phát minh này đã đặt nền móng cho sự xuất hiện của Cơ chế Antikythera, máy tính cơ học được phát hiện sớm nhất, sản xuất bởi các nhà khoa học Hy Lạp vào khoảng năm 100 – 200 sau Công nguyên.

Sự xuất hiện của phương pháp thống kê

Năm 1663, phân tích dữ liệu thống kê được phát minh bởi John Graunt. 218 năm sau, Máy tạo bảng Hollerith ra đời, đánh dấu thời kì mới của phương pháp tính toán tự động trong lịch sử nhân loại.

Những ngày đầu của lưu trữ dữ liệu hiện đại

Tài liệu về Trung tâm dữ liệu đầu tiên của thế giới

Trải qua một thời kì dài, cuối cùng, lưu trữ dữ liệu cũng chính thức được cải tiến toàn diện, với sự ra đời của phương pháp lưu trữ thông tin từ tính trên băng năm 1928. Năm 1965, Trung tâm dữ liệu đầu tiên của thế giới, xây dựng bởi Hoa Kì, đã lưu trữ 742 triệu tờ khai thuế và 175 triệu bộ dấu vân tay trên băng từ. Không lâu sau, năm 1970, mô hình cơ sở dữ liệu lưu trữ thông tin theo định dạng phân cấp ra đời.

Internet – bước ngoặt trong lưu trữ dữ liệu

Năm 1991, Internet ra đời và là mạng dữ liệu kĩ thuật số được kết nối trên toàn thế giới. Sau đó 6 năm, kho dữ liệu khổng lồ mà chúng ta biết đến ngày nay – Google Search chính thức ra mắt.

Dữ liệu lớn – Cuộc cách mạng trong lịch sử nhân loại

Thuật ngữ Dữ liệu lớn chính thức được đề cập vào năm 1999, và phát triển nhanh với hàng loạt các sáng chế như Software-as-a-Service (Dịch vụ phần mềm), Cloud-based applications (nền tảng đám mây), Web 2.0… Năm 2005, Hadoop – khung nguồn mở được tạo riêng để lưu trữ và phân tích các tập hợp Dữ liệu lớn ra đời, cho phép quản lý dữ liệu phi cấu trúc (giọng nói, video, văn bản thô, v.v.).

Thế giới đang vận động với một lượng dữ liệu khổng lồ, với Trí tuệ nhân tạo, Học máy, Học sâu, Điện toán đám mây… ai làm chủ dữ liệu sẽ là người làm chủ tương lai.

(Nguồn: World Economic Forum)

BÀI MỚI NHẤT

Giảm chiều dữ liệu để tăng hiệu quả của mô hình AI

Các tập dữ liệu đa chiều (high-dimensionality datasets) hiện là tài nguyên quý giúp tổ chức nghiên cứu giải quyết những vấn đề phức...

Newsletter nổi bật về khoa học dữ liệu và AI (2021)

Newsletter về khoa học dữ liệu và AI là giải pháp tuyệt vời cho việc quá tải thông tin khi nghiên cứu. Newsletter đã...

Dữ liệu tổng hợp: Tất cả những điều bạn nên biết

Synthetic Data (Dữ liệu tổng hợp) đang ngày càng được sử dụng phổ biến, bởi nó tiết kiệm chi phí sản xuất, đồng thời...

10 kho dữ liệu mở dành cho cộng đồng Xử lý ảnh y tế

Một trong những thử thách lớn nhất hiện nay đối với cộng đồng AI nói chung, Xử lý ảnh y tế nói riêng chính...

BÀI ĐỌC NHIỀU

Khái quát về mô hình dữ liệu quan hệ

Phần lớn hệ thống cơ sở dữ liệu hiện nay đều được xây dựng bằng mô hình dữ liệu quan hệ. Vậy mô hình...

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...

18 Dự án Khoa học Dữ liệu nguồn mở giúp bạn “nâng cấp” CV

Bạn có biết: Bên cạnh kiến thức chuyên môn, kỹ năng giải quyết các bài toán, dự án thực tế cũng là một điểm...

Chiến thuật chinh phục các cuộc thi trên Kaggle

Với hơn 5 triệu tài khoản đăng ký, các cuộc thi trên Kaggle là sân chơi quốc tế dành cho cộng đồng trí tuệ...