Lịch sử công nghệ nhận dạng kí tự quang học

Nhận dạng kí tự quang học (Optical Character Recognition - OCR) là phần mềm có chức năng chuyển đổi hình ảnh chữ viết tay hoặc đánh máy thành các văn bản tài liệu. Mặc dù thuật ngữ OCR mới trở nên phổ biến, song công nghệ này đã trải qua gần hai thế kỉ phát triển, để hiện thực hóa giấc mơ thuở hồng hoang của nhân loại.

06/08/2020

2452

Từ giấc mơ thuở hồng hoang

Tái tạo năng lực con Người chính là giấc mơ cổ xưa thúc đẩy các nhà khoa học sáng chế ra hàng loạt máy móc hiện đại. Và sự ra đời của công nghệ nhận dạng kí tự không nằm ngoài giấc mơ ấy. Nguồn gốc sơ khai nhất của nhận dạng kí tự được cho là vào năm 1870. Đây là thời điểm mà C.R.Carey của Boston Massachusetts đã phát minh ra máy quét võng mạc – một hệ thống truyền hình ảnh sử dụng khảm các tế bào quang điện. Hai thập kỷ sau, P. Nipkow – nhà khoa học Ba Lan đã phát minh ra máy quét tuần tự, đây là một bước đột phá lớn đối với cả máy đọc và truyền hình hiện đại. Trong những thập kỷ đầu tiên của thế kỷ 19, một số nỗ lực đã được thực hiện để phát triển các thiết bị hỗ trợ người mù thông qua các thí nghiệm với OCR. Tuy nhiên, mãi đến năm 1940, với sự phát triển của kĩ thuật số, công nghệ OCR hiện đại mới xuất hiện. Từ đó trở đi, ứng dụng trong kinh doanh trở thành động lực để OCR tiếp tục tiến xa hơn.

Đến những bước phát triển đầu tiên

Đến năm 1950, cách mạng công nghệ đã khiến cho xử lí dữ liệu điện tử trở thành một lĩnh vực quan trọng. Từ đó, các máy OCR chính thức có mặt trên thị trường. Thiết bị OCR đầu tiên được lắp đặt ở Reader’s Digest năm 1954 nhằm chuyển đổi các báo cáo bán hàng được đánh máy thành thẻ đục lỗ để nhập vào máy vi tính.

Giai đoạn từ 1960 – 1965 đánh dấu sự ra đời của thế hệ OCR thương mại đầu tiên. Thế hệ máy OCR này được đặc trưng bởi một số hình dạng kí tự nhất định. Số lượng phông chữ tối đa là 10 và được giới hạn bởi phương pháp nhận dạng, so sánh kí tự quét với kho lưu trữ hình ảnh nguyên mẫu.

Farrington Automatic Address Reader trong những năm 1960.

Thế hệ thứ hai của máy OCR ra đời khoảng 1960 – 1970. Máy OCR thế hệ này có thể nhận dạng các ký tự in máy thông thường và kí tự viết tay. Đối với kí tự viết tay, bộ ký tự bị giới hạn ở các chữ số và một vài chữ cái cũng như ký hiệu. Hệ thống máy đại diện cho thế hệ này là IBM 1287, được trưng bày tại Hội chợ Thế giới tại New York năm 1965. Ngoài ra, thời điểm đó, Toshiba cũng đã phát triển máy tự động đầu tiên phân loại chữ cái trong mã số bưu chính, và Hitachi không nằm ngoài cuộc chơi, đã tạo ra máy OCR đầu tiên cho hiệu suất cao và chi phí thấp. Công việc quan trọng nhất trong phát triển OCR thời kì này là chuẩn hóa. Năm 1966, một bộ ký tự OCR tiêu chuẩn của Mỹ được ra đời, chính là OCR-A. Phông chữ này mang tính cách điệu cao và được thiết kế để tạo điều kiện nhận dạng quang học. Song song, một phông chữ châu Âu cũng được thiết kế. OCR-B được cho là có phông chữ tự nhiên hơn tiêu chuẩn Mỹ. Một số nỗ lực đã được thực hiện để hợp nhất hai phông chữ thành một tiêu chuẩn chung, nhưng thay vào đó, kết quả cuối cùng là một chiếc máy có thể đọc cả hai phông chữ.

Từ đó trở đi, giữa năm 1970, những tiến bộ mạnh mẽ trong công nghệ phần cứng đã tạo tiền đề giúp thế hệ thứ ba của OCR được ra đời, có thể vận hành với chi phí thấp và hiệu suất cao hơn trước.

Và đột phá của OCR thế kỉ XXI

Ngay từ đầu thế kỉ này, OCR đã được được phát triển như một loại dịch vụ trong môi trường điện toán đám mây. Thậm chí, OCR còn trở thành công nghệ hỗ trợ trong nhiều ứng dụng điện thoại, như dịch thuật thời gian thực. Ngày nay, công nghệ OCR có khả năng xử lí trên 200 ngôn ngữ. Đặc biệt, sự tích hợp của trí tuệ nhân tạo chính là nhân tố kiến tạo nên tương lai của OCR.

Tags
AI
OCR

Bài trướcXu hướng kết hợp Dữ liệu lớn và Trí tuệ nhân tạo

Bài sau10 xu hướng công nghệ thay đổi y học tương lai

Lịch sử công nghệ nhận dạng kí tự quang học

Từ giấc mơ thuở hồng hoang

Đến những bước phát triển đầu tiên

Và đột phá của OCR thế kỉ XXI

TIN LIÊN QUAN

BÀI MỚI NHẤT

BÀI ĐỌC NHIỀU

Nghiên cứu

Sản phẩm

Blog

Tin tức

Vingroup Big Data Institute

Đăng ký để nhận email