Trang chủ Thế giới nói gì Lịch sử khai thác dữ liệu: từ kiểm đếm đến dữ liệu...

Lịch sử khai thác dữ liệu: từ kiểm đếm đến dữ liệu lớn

Thế kỉ III trước Công nguyên, Thư viện Alexandria được coi là nơi chứa đựng toàn bộ kiến thức của loài người. 2400 năm sau, nhân loại bước sang thời kì bùng nổ dữ liệu, với tổng lượng thông tin trên mỗi đầu người thậm chí lớn gấp 320 lần kho lưu trữ của thư viện Alexandria.

Lịch sử cổ đại của dữ liệu

Cây gậy kiểm đếm thời cổ đại

Bằng chứng sớm nhất cho việc lưu trữ dữ liệu thời tiền sử là những cây gậy kiểm đếm xuất hiện từ năm 18000 trước Công nguyên (TCN). Mãi đến năm 2400 TCN, bàn tính mới ra đời và được coi là thiết bị chuyên dụng đầu tiên để thực hiện các tính toán. Phát minh này đã đặt nền móng cho sự xuất hiện của Cơ chế Antikythera, máy tính cơ học được phát hiện sớm nhất, sản xuất bởi các nhà khoa học Hy Lạp vào khoảng năm 100 – 200 sau Công nguyên.

Sự xuất hiện của phương pháp thống kê

Năm 1663, phân tích dữ liệu thống kê được phát minh bởi John Graunt. 218 năm sau, Máy tạo bảng Hollerith ra đời, đánh dấu thời kì mới của phương pháp tính toán tự động trong lịch sử nhân loại.

Những ngày đầu của lưu trữ dữ liệu hiện đại

Tài liệu về Trung tâm dữ liệu đầu tiên của thế giới

Trải qua một thời kì dài, cuối cùng, lưu trữ dữ liệu cũng chính thức được cải tiến toàn diện, với sự ra đời của phương pháp lưu trữ thông tin từ tính trên băng năm 1928. Năm 1965, Trung tâm dữ liệu đầu tiên của thế giới, xây dựng bởi Hoa Kì, đã lưu trữ 742 triệu tờ khai thuế và 175 triệu bộ dấu vân tay trên băng từ. Không lâu sau, năm 1970, mô hình cơ sở dữ liệu lưu trữ thông tin theo định dạng phân cấp ra đời.

Internet – bước ngoặt trong lưu trữ dữ liệu

Năm 1991, Internet ra đời và là mạng dữ liệu kĩ thuật số được kết nối trên toàn thế giới. Sau đó 6 năm, kho dữ liệu khổng lồ mà chúng ta biết đến ngày nay – Google Search chính thức ra mắt.

Dữ liệu lớn – Cuộc cách mạng trong lịch sử nhân loại

Thuật ngữ Dữ liệu lớn chính thức được đề cập vào năm 1999, và phát triển nhanh với hàng loạt các sáng chế như Software-as-a-Service (Dịch vụ phần mềm), Cloud-based applications (nền tảng đám mây), Web 2.0… Năm 2005, Hadoop – khung nguồn mở được tạo riêng để lưu trữ và phân tích các tập hợp Dữ liệu lớn ra đời, cho phép quản lý dữ liệu phi cấu trúc (giọng nói, video, văn bản thô, v.v.).

Thế giới đang vận động với một lượng dữ liệu khổng lồ, với Trí tuệ nhân tạo, Học máy, Học sâu, Điện toán đám mây… ai làm chủ dữ liệu sẽ là người làm chủ tương lai.

(Nguồn: World Economic Forum)

BÀI MỚI NHẤT

Khái quát về mô hình dữ liệu quan hệ

Phần lớn hệ thống cơ sở dữ liệu hiện nay đều được xây dựng bằng mô hình dữ liệu quan hệ. Vậy mô hình...

18 Dự án Khoa học Dữ liệu nguồn mở giúp bạn “nâng cấp” CV

Bạn có biết: Bên cạnh kiến thức chuyên môn, kỹ năng giải quyết các bài toán, dự án thực tế cũng là một điểm...

08 trang blog dân Khoa học Dữ liệu nên đọc

08 trang blog dưới đây sẽ cung cấp cho bạn kho tri thức nền tảng về Khoa học Dữ liệu, cùng những thông tin...

Garbage in garbage out: Từ góc độ gán nhãn dữ liệu

Để có dữ liệu sạch và có giá trị đối với các thuật toán thì dữ liệu cần được gán nhãn và chú giải...

BÀI ĐỌC NHIỀU

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...

Data Lake và Data Warehouse: Đâu là lựa chọn phù hợp?

Data Lake và Data Warehouse là hai khái niệm hay bị nhầm lẫn trong dữ liệu lớn, song thực tế, điểm chung duy nhất...

Chiến thuật chinh phục các cuộc thi trên Kaggle

Với hơn 5 triệu tài khoản đăng ký, các cuộc thi trên Kaggle là sân chơi quốc tế dành cho cộng đồng trí tuệ...

10 cuốn sách nên đọc về Khoa học dữ liệu

Theo Harvard Business Review, Data Scientist (Nhà Khoa học dữ liệu) được xem là ngành nghề “quyến rũ” nhất thế kỉ XXI. Nhu cầu...