Trang chủ Thế giới nói gì Lịch sử công nghệ nhận dạng kí tự quang học

Lịch sử công nghệ nhận dạng kí tự quang học

Nhận dạng kí tự quang học (Optical Character Recognition - OCR) là phần mềm có chức năng chuyển đổi hình ảnh chữ viết tay hoặc đánh máy thành các văn bản tài liệu. Mặc dù thuật ngữ OCR mới trở nên phổ biến, song công nghệ này đã trải qua gần hai thế kỉ phát triển, để hiện thực hóa giấc mơ thuở hồng hoang của nhân loại.

Từ giấc mơ thuở hồng hoang

Tái tạo năng lực con Người chính là giấc mơ cổ xưa thúc đẩy các nhà khoa học sáng chế ra hàng loạt máy móc hiện đại. Và sự ra đời của công nghệ nhận dạng kí tự không nằm ngoài giấc mơ ấy. Nguồn gốc sơ khai nhất của nhận dạng kí tự được cho là vào năm 1870. Đây là thời điểm mà C.R.Carey của Boston Massachusetts đã phát minh ra máy quét võng mạc – một hệ thống truyền hình ảnh sử dụng khảm các tế bào quang điện. Hai thập kỷ sau, P. Nipkow – nhà khoa học Ba Lan đã phát minh ra máy quét tuần tự, đây là một bước đột phá lớn đối với cả máy đọc và truyền hình hiện đại. Trong những thập kỷ đầu tiên của thế kỷ 19, một số nỗ lực đã được thực hiện để phát triển các thiết bị hỗ trợ người mù thông qua các thí nghiệm với OCR. Tuy nhiên, mãi đến năm 1940, với sự phát triển của kĩ thuật số, công nghệ OCR hiện đại mới xuất hiện. Từ đó trở đi, ứng dụng trong kinh doanh trở thành động lực để OCR tiếp tục tiến xa hơn.

Đến những bước phát triển đầu tiên

Đến năm 1950, cách mạng công nghệ đã khiến cho xử lí dữ liệu điện tử trở thành một lĩnh vực quan trọng. Từ đó, các máy OCR chính thức có mặt trên thị trường. Thiết bị OCR đầu tiên được lắp đặt ở Reader’s Digest năm 1954 nhằm chuyển đổi các báo cáo bán hàng được đánh máy thành thẻ đục lỗ để nhập vào máy vi tính. 

Giai đoạn từ 1960 – 1965 đánh dấu sự ra đời của thế hệ OCR thương mại đầu tiên. Thế hệ máy OCR này được đặc trưng bởi một số hình dạng kí tự nhất định. Số lượng phông chữ tối đa là 10 và được giới hạn bởi phương pháp nhận dạng, so sánh kí tự quét với kho lưu trữ hình ảnh nguyên mẫu. 

Farrington Automatic Address Reader trong những năm 1960.

Thế hệ thứ hai của máy OCR ra đời khoảng 1960 – 1970. Máy OCR thế hệ này có thể nhận dạng các ký tự in máy thông thường và kí tự viết tay. Đối với kí tự viết tay, bộ ký tự bị giới hạn ở các chữ số và một vài chữ cái cũng như ký hiệu. Hệ thống máy đại diện cho thế hệ này là IBM 1287, được trưng bày tại Hội chợ Thế giới tại New York năm 1965. Ngoài ra, thời điểm đó, Toshiba cũng đã phát triển máy tự động đầu tiên phân loại chữ cái trong mã số bưu chính, và Hitachi không nằm ngoài cuộc chơi, đã tạo ra máy OCR đầu tiên cho hiệu suất cao và chi phí thấp. Công việc quan trọng nhất trong phát triển OCR thời kì này là chuẩn hóa. Năm 1966, một bộ ký tự OCR tiêu chuẩn của Mỹ được ra đời, chính là OCR-A. Phông chữ này mang tính cách điệu cao và được thiết kế để tạo điều kiện nhận dạng quang học. Song song, một phông chữ châu Âu cũng được thiết kế. OCR-B được cho là có phông chữ tự nhiên hơn tiêu chuẩn Mỹ. Một số nỗ lực đã được thực hiện để hợp nhất hai phông chữ thành một tiêu chuẩn chung, nhưng thay vào đó, kết quả cuối cùng là một chiếc máy có thể đọc cả hai phông chữ. 

Từ đó trở đi, giữa năm 1970, những tiến bộ mạnh mẽ trong công nghệ phần cứng đã tạo tiền đề giúp thế hệ thứ ba của OCR được ra đời, có thể vận hành với chi phí thấp và hiệu suất cao hơn trước.

Và đột phá của OCR thế kỉ XXI

Ngay từ đầu thế kỉ này, OCR đã được được phát triển như một loại dịch vụ trong môi trường điện toán đám mây. Thậm chí, OCR còn trở thành công nghệ hỗ trợ trong nhiều ứng dụng điện thoại, như dịch thuật thời gian thực. Ngày nay, công nghệ OCR có khả năng xử lí trên 200 ngôn ngữ. Đặc biệt, sự tích hợp của trí tuệ nhân tạo chính là nhân tố kiến tạo nên tương lai của OCR.

BÀI MỚI NHẤT

Transformer Neural Network – Mô hình học máy biến đổi thế giới NLP

Năm 2017, Google công bố bài báo “Attention Is All You Need” thông tin về Transformer như tạo ra bước ngoặt mới trong lĩnh...

Các biểu thức chính quy cần thiết (Regex) trong NLP

Khi xử lý văn bản, chúng ta thường mong muốn chuẩn hóa và trích xuất một số thông tin (như số, ngày tháng, v.v.)...

Giảm chiều dữ liệu để tăng hiệu quả của mô hình AI

Các tập dữ liệu đa chiều (high-dimensionality datasets) hiện là tài nguyên quý giúp tổ chức nghiên cứu giải quyết những vấn đề phức...

Newsletter nổi bật về khoa học dữ liệu và AI (2021)

Newsletter về khoa học dữ liệu và AI là giải pháp tuyệt vời cho việc quá tải thông tin khi nghiên cứu. Newsletter đã...

BÀI ĐỌC NHIỀU

Chiến thuật chinh phục các cuộc thi trên Kaggle

Với hơn 5 triệu tài khoản đăng ký, các cuộc thi trên Kaggle là sân chơi quốc tế dành cho cộng đồng trí tuệ...

Supervised Learning và Unsupervised Learning: Khác biệt là gì?

Supervised learning (Học có giám sát) và Unsupervised learning (Học không giám sát) là hai trong số những phương pháp kỹ thuật cơ bản...

03 bài toán kinh điển trong Xử lý ngôn ngữ tự nhiên

Các bài toán trong Xử lý ngôn ngữ tự nhiên (NLP) từ cơ bản đến nâng cao bao gồm part-of-speech tagging, chunking, dependency parsing,...

Phần mềm mã nguồn mở là gì? Tất cả những điều bạn nên biết

Mã nguồn mở thường được lưu trữ trong kho lưu trữ công cộng và được chia sẻ công khai. Bất kỳ ai cũng có...