Trang chủ Chuyên gia viết Ứng dụng thuật toán Stereo Vision vào Mobile Mapping System

Ứng dụng thuật toán Stereo Vision vào Mobile Mapping System

Dữ liệu bản đồ là một trong những dữ liệu rất cần thiết cho nhiều ngành (quản lý đô thị, tài nguyên, điện lực, quảng cáo, du lịch, dịch vụ bản đồ số, dẫn đường, v.v.). Tuy nhiên, việc thu thập dữ liệu bản đồ hiện nay tại Việt Nam đang gặp phải nhiều rào cản do (1) năng suất thu thập dữ liệu thấp, tọa độ sai số lớn, hình ảnh không trực quan do dùng những thiết bị không chuyên dụng, rẻ tiền; nếu dùng những thiết bị chuyên dụng thì chi phí thiết bị rất đắt, chi phí vận hành và bảo trì cũng rất tốn kém; (2) đặc trưng của môi trường Việt Nam gây nhiều trở ngại ngay cả với hệ thống phần cứng chuyên dụng của nước ngoài như hạ tầng hệ thống định vị toàn cầu (Global Positioning System – GPS), nhiều đường hẹp và hẻm nhỏ. Do đó, cần tiến hành nghiên cứu và phát triển các giải pháp thu thập và số hóa dữ liệu với các ưu điểm như giá thành cạnh tranh, năng suất cao, dễ bảo trì, dữ liệu đầu ra chất lượng và tối ưu cho môi trường Việt Nam.

Thị trường mobile mapping (vẽ bản đồ di động)

Thị trường mobile mapping trên thế giới rất lớn. Theo dự đoán của Envision Inteligence, thị trường này sẽ đạt giá trị 68 tỷ đô vào năm 2024 (Hình 1). Hiện tại, thị trường này tập trung phần lớn ở Bắc Mỹ và Châu Âu, trong khi Châu Á, Châu Phi và Nam Mỹ chiếm tỉ trọng thấp. Tuy nhiên trong tương lai gần, tiềm năng tăng trưởng hứa hẹn sẽ rất lớn tại những khu vực đang phát triển.

Hình 1. Thị trường mobile mapping toàn cầu

Ngày nay, yêu cầu về dữ liệu GIS(***) ngày càng chi tiết và chính xác. Nhiều công ty trên thế giới phát triển các thiết bị chuyên dụng (Hình 2) đáp ứng rất tốt yêu cầu ngày cao của dữ liệu GIS. Tuy nhiên, chi phí cho thiết bị rất tốn kém và chiếm tỉ trọng lớn trong thị trường mobile mapping.

(a) TomTom
(b) Google
(c) Earthmine
Hình 2. Hệ thống mobile mapping

Ở Việt Nam, các công ty tư nhân thường sử dụng các thiết bị không chuyên dụng, chi phí thấp dẫn đến độ chính xác kém khi sai số tọa độ có thể lên tới vài chục mét, năng suất thu thập và chất lượng dữ liệu thô cũng thấp. Nếu sử dụng các thiết bị chuyên dụng và dịch vụ thu thập dữ liệu của nước ngoài sẽ rất tốn kém mà chỉ các dự án của nhà nước mới có thể thực hiện được.

Các thiết bị chuyên dụng của nước ngoài hầu hết đều dùng các hệ thống camera công nghiệp kết hợp với LiDAR (Light Detection and Ranging – công nghệ viễn thám chủ động dựa trên cảm biến laser) nên có độ chi tiết và chính xác rất cao nhưng giá thành và chi phí vận hành, bảo trì lớn. Mapdas – một công ty chuyên về mobile mapping, đã làm việc với nhiều đối tác ở Việt Nam như TrueTech, Vietmap, Vietbando, HCMGIS và một công ty ở Malaysia và đưa ra nhận xét rằng trong hầu hết nhu cầu thu thập dữ liệu GIS thực tế thì độ chính xác rất cao của của các thiết bị chuyên dụng nước ngoài không thực sự cần thiết. Một thiết bị chuyên dụng chất lượng ảnh chụp tốt, độ chính xác tốt (sai số < 1m), phần mềm số hóa chuyên dụng và giá cả hợp lý sẽ rất phù hợp cho thị trường Việt Nam và các nước Đông Nam Á, cũng như các nước đặt tiêu chí chi phí hợp lý là quan trọng hàng đầu. Việc chế tạo thiết bị và phần mềm số hóa hóa dữ liệu chuyên dụng, năng suất cao và giá hợp lý là vấn đề Mapdas muốn giải quyết. Để làm được điều đó, Mapdas sẽ hướng tới tự phát triển các công nghệ cốt lõi của phần cứng, thuật toán và phần mềm.

Cấu trúc của hệ thống MMS

Về tổng quát, phần cứng của một MMS thường bao gồm: (1) hệ thống tham chiếu địa lý trực tiếp (Direct Georeferencing System – DGS); các cảm biến được sử dụng trong hệ thống này là: hệ thống định vị vệ tinh (Global Navigation Satellite System – GNSS), cảm biến quán tính (Inertial measurement unit – IMU) và một số cảm biến chuyển động khác (ví dụ Odometer, la bàn số, v.v.); (2) hệ thống các cảm biến đo xa như LiDAR, camera, radar, v.v. Dữ liệu từ cả hai hệ thống phần cứng trên sau đó sẽ được đồng bộ hóa để lập mô hình không gian và gán tọa độ cho khung cảnh, vật thể mà hệ thống đã thu thập được. Hầu hết MMS của các công ty dữ liệu bản đồ lớn trên thế giới đều sử dụng cả camera và LiDAR, trong đó:

– Camera: thu thập hình ảnh hiện trường phục vụ cho việc trích xuất thông tin của các POI (Point of Interest), tạo ảnh Street View, v.v.

– LiDAR: lập mô hình 3D dưới dạng công nghệ điểm đám mây (Point Cloud) của môi trường xung quanh bằng cách dùng tia laser đo khoảng cách từ các vật thể đến thiết bị thu thập.

Cách sử dụng kết hợp như trên tối ưu hóa vai trò của camera (thu thập được hình ảnh nhưng không đo được khoảng cách) và LiDAR (đo được khoảng cách nhưng không thu được hình ảnh). Tuy nhiên, giá thành của cảm biến LiDAR rất cao đã khiến các hệ thống này trở nên đắt đỏ và vì thế chỉ các hãng có tiềm lực tài chính lớn mới có thể triển khai. Để giảm chi phí phần cứng mà vẫn đảm bảo thu thập được 2 loại dữ liệu là hình ảnh và khoảng cách, còn một cách khác là sử dụng thuật toán Stereo Vision. MMS sử dụng thuật toán Stereo Vision chỉ cần camera để thu thập hình ảnh, loại bỏ hoàn toàn LiDAR, nhờ đó sẽ có giá thành hợp lý hơn rất nhiều.

Thuật toán Stereo Vision

Thuật toán Stereo Vision giúp máy tính mô phỏng khả năng thị giác của con người (Binocular Vision – Hình 3). Theo đó, sự chồng lấn dữ liệu thị giác từ hai hoặc nhiều hướng khác nhau đem lại khả năng cảm nhận độ sâu. Đối với con người, khi quan sát một khung cảnh, dữ liệu thị giác đến từ hai mắt có một sự chồng lấn nhất định, chính sự chồng lấn này đem lại cho con người khả năng cảm nhận độ sâu.

Hình 3. Cấu trúc mô phỏng khả năng thị giác của con người

Đối với máy tính, khi chụp cùng một khung cảnh bởi hai hoặc nhiều camera, máy tính sẽ dựa vào những điểm tương đồng giữa hai hay nhiều bức ảnh và tương quan về hình học giữa các camera để tính toán tọa độ ba chiều của vật thể. Một hệ thống Stereo Vision thông thường bao gồm hai camera được gắn thẳng hàng theo chiều ngang và cách nhau một khoảng cố định. Hai camera trái và phải cung cấp hình ảnh từ hai góc nhìn khác nhau, thỏa mãn yêu cầu về dữ liệu để trích xuất bản đồ chênh lệch làm cơ sở để dựng mô hình ba chiều. Đây là cấu hình cơ bản để tiến hành lập mô hình toán cho hệ thống Stereo Vision.

Hình 4. Stereo Vision

Mục tiêu của Stereo Vision đó là lập được mô hình ba chiều dưới dạng tập hợp các điểm được gọi là Point Cloud. Mỗi điểm trong Point Cloud đều có tọa độ ba chiều (x,y,z). Trong đó, thành phần z (chiều sâu) sẽ được xác định trước, các thành phần x và y được suy ra sau đó. Quá trình xác định thành phần z được gọi là Kỹ thuật tam giác đạc (Triangulation). Các phép toán theo mô hình hệ thống Stereo Vision cho thấy việc tính độ sâu từ hai camera là khả thi. Tuy nhiên, mô hình này đang dựa trên một hệ thống Stereo Vision trong điều kiện hoàn hảo mà trong thực tế sẽ không có hệ thống nào đáp ứng đủ các điều kiện đó. Do đó, để có thể áp dụng mô hình toán trên cho hệ thống Stereo Vision thực tế, cần phải biến đổi ảnh chụp của hệ thống thực tế thành ảnh chụp của hệ thống hoàn hảo.

Hình 5. Ba bước để có hệ thống Stereo Vision hoàn hảo

Đầu ra của quá trình trên là một tập hợp các phép biến đổi dưới dạng ma trận dành riêng cho mỗi camera trong hệ thống. Các phép biến đổi này sẽ được áp dụng vào từng cặp ảnh chụp từ hai camera và cho ra hình ảnh giống như đang chụp từ hệ thống Stereo Vision hoàn hảo, đủ điều kiện áp dụng mô hình toán. Một điểm trong không gian khi được chụp bằng hai camera ở hai vị trí khác nhau sẽ có tọa độ pixel khác nhau trên hai ảnh, giá trị tuyệt đối của hiệu hai tọa độ này chính là độ chênh lệch. Như vậy, để tính toán độ lẹch, cần phải chỉ ra vị trí tương ứng của một điểm trong không gian trên hai ảnh. Cụ thể là, với mỗi pixel trong ảnh chụp bởi camera trái, cần tìm ra pixel tương ứng trong ảnh chụp bởi camera phải. Đây chính là bài toán tìm điểm tương đồng cho hệ Stereo Vision, cũng là một chủ đề lớn của thị giác máy tính (Computer Vision). Trong những ứng dụng cụ thể, không nhất thiết phải tìm ra độ sâu cho mọi pixel, ví dụ: khi muốn tìm khoảng cách đến một vật thể, không cần thiết phải tìm khoảng cách đến mọi pixel của vật thể mà chỉ cần tìm khoảng cách đến một pixel cụ thể trên vật thể đó.

Phương pháp cơ bản để tìm điểm tương đồng cho hệ thống Stereo Vision là thuật toán ánh xạ khối (Block-matching algorithm). Nguyên lý của thuật toán này là với mỗi pixel trong tấm hình bên trái, trượt một “cửa sổ” trên từng pixel trên tấm hình bên phải, đối với mỗi pixel sẽ dùng một hàm tính toán mức độ phù hợp (hàm ánh xạ – matching function) của pixel đó với pixel được chọn trong tấm hình bên trái, nếu pixel đó thỏa các điều kiện về mức độ phù hợp thì pixel đó là tương đồng với pixel trong hình bên trái.

Áp dụng Stereo Vision vào MMS của Mapdas

Trong quá trình thiết kế thiết bị thu thập dữ liệu cho MMS, Công ty Mapdas đã áp dụng Stereo Vision vào mẫu V1 (Prototype V1). Quá trình áp dụng Stereo Vision vào mẫu Prototype V1 (Hình 6) sẽ minh họa đầy đủ cho việc triển khai hệ thống Stereo Vision trong thực tế.

Hình 6. MMS của Mapdas cho xe hơi (Prototype V1)

a. Hiệu chỉnh camera

Quy trình hiệu chỉnh camera (camera calibration) được thực hiện theo các bước sau (Hình 7): (1) sử dụng bàn cờ tỷ lệ 5 x 3 với cạnh ô vuông dài 12,7 cm, di chuyển, xoay, nghiêng bàn cờ ở các vị trí khác nhau và chụp lại. Để đạt hiệu quả tốt, cần di chuyển và xoay bàn cờ để vị trí của bàn cờ trong các tấm hình không bị trùng lắp/đồng phẳng/song song; (2) tìm vị trí các giao điểm của các ô vuông trên bàn cờ; (3) quá trình hiệu chỉnh sẽ dựa vào các thông tin như tọa độ pixel của các giao điểm, độ dài cạnh ô vuông, tính chất đồng phẳng của các giao điểm để lập hệ phương trình và giải ra thông số camera.

Hình 7. Dùng bàn cờ để hiệu chỉnh camera

b. Hiệu chỉnh Stereo

Quy trình hiệu chỉnh Stereo được thực hiện theo các bước sau (Hình 8): (1) Sử dụng bàn cờ tỷ lệ 10 x 15 với cạnh ô vuông dài 5 cm và chụp hình bàn cờ tại các vị trí, tư thế khác nhau giống như bước hiệu chỉnh camera. Điểm khác biệt là bàn cờ phải xuất hiện đầy đủ trong hình chụp của cả hai camera. Nói cách khác, bàn cờ phải nằm trong vùng che phủ giữa hai camera; (2) hiệu chỉnh cũng sẽ dựa trên các giao điểm và thông tin về bàn cờ để tính toán các thông số liên quan đến sắp xếp hình học của hệ camera. Ngoài ra, có thể đưa vào các thông số đã tính được trong bước hiệu chỉnh camera để tăng tốc độ tính toán.

Hình 8. Hiệu chỉnh Stereo cho một cụm Stereo Vision

c. Tìm điểm tương đồng sử dụng thuật toán ánh xạ khối

Quy trình tìm điểm tương đồng sử dụng thuật toán ánh xạ khối được thực hiện như sau (Hình 9): (1) áp dụng thuật toán ánh xạ khối để tìm tương đồng và tính độ sâu Z (khoảng cách từ hệ thống đến vật thể). Để dễ quan sát, độ sâu Z tính được tại mỗi pixel sẽ tương ứng với một mã màu trong bản đồ màu Jet và được lồng vào hình ảnh thật; (2) khi di chuyển bàn cờ xa dần hệ thống từ vị trí 1 – 6 thì màu sắc sẽ thay đổi dần từ màu vàng sang màu xanh thẫm tương ứng với khoảng cách từ gần đến xa; (3) một số pixel có độ lệch bị sai sẽ có màu khác so với đa số pixel trên bàn cờ; các pixel ở các vùng ảnh ít chi tiết, ví dụ như mặt đường, tường, trần, v.v., đều không tính được độ sâu Z. Đây là điểm yếu của hầu hết các phương pháp tìm tương đồng.

Hình 9. Quy trình tìm điểm tương đồng sử dụng thuật toán ánh xạ khối

Kết luận

Qua những phần trên, có thể thấy khả năng triển khai Stereo Vision cho các MMS là khả thi, thay thế được cảm biến LiDAR đắt tiền. Các bước triển khai một hệ thống Stereo Vision cũng không phức tạp do phần cứng chỉ cần camera, phần mềm và thuật toán cũng đã được nghiên cứu nhiều năm. Ngoài ra, hệ thống Stereo Vision vẫn còn có thể được tinh gọn hơn nữa với chỉ một camera thay vì một cụm gồm hai camera. Tại Mapdas, với kinh nghiệm từ Prototype V1, hệ thống Stereo Vision mới với chỉ một camera đang được phát triển, hệ thống này hoạt động với cùng nguyên lý nhưng sẽ là kết hợp của ảnh chụp từ camera và đặc điểm chuyển động của hệ thống thay vì ảnh chụp từ hai camera.

Mặc dù đã có thể thay thế được cảm biến LiDAR, nhược điểm lớn nhất của hệ thống Stereo Vision vẫn nằm ở khả năng tìm điểm tương đồng đối với các vùng ảnh quá ít chi tiết, gây khó khăn cho việc dựng mô hình 3D hoàn chỉnh trong khi điều này rất dễ dàng đối với LiDAR. Tuy nhiên, nhược điểm trên vẫn đang được khắc phục bằng nhiều phương pháp khác nhau trong đó có cả việc sử dụng những công nghệ mới như học sâu (deep learning); sự tiến bộ của công nghệ camera và khả năng tính toán ngày càng cao của máy tính cũng sẽ giúp giải bài toán này triệt để hơn.

Ghi chú:

(*)Stereo Vision: Phương pháp thu thập dữ liệu 3 chiều chỉ dựa trên máy ảnh.

(**)MMS: Mobile Mapping System – Hệ thống lập bản đồ di động.

(***) GIS: Geographic Information System – Hệ thống thông tin địa lý.

Tác giả: ThS. Huỳnh Khắc Minh Khôi

Biên tập: Quỹ đổi mới sáng tạo Vingroup (VinIF).

Tài liệu tham khảo

[1]. Adrian Kaehler, Gary Bradski. “Learning OpenCV 3”, Sebastopol: O’Reilly Media Inc, 2017.

[2]. Adrian Kaehler, Gary Bradski. “Learning OpenCV”, Sebastopol: O’Reilly Media Inc, 2008.

[3]. Nathaniel J. Short. “3-D Point Cloud Generation from Rigid and Flexible Stereo Vision Systems”, Blacksburg, VA: Virginia Tech, 2009.

[4]. Richard Szeliski. “Computer Vision: Algorithms and Applications”, Springer, 2010.

[5]. Richard Hartley, Andrew Zisserman. “Multiple View Geometry in Computer Vision”, Second Edition, New York: Cambridge University Press, 2004.

BÀI MỚI NHẤT

Ứng dụng AI trong quan trắc và dự báo ô nhiễm không khí tại Việt Nam

Sự phát triển của công nghệ, kỹ thuật cùng với quá trình đô thị hóa đã mang tới cho cuộc sống con người sự tiện lợi hơn bao giờ hết. Tuy vậy, nó cũng gây ra những hệ lụy khôn lường, không chỉ cho hiện tại mà còn cho tương lai con cháu chúng ta. Đối với Việt Nam, cũng như nhiều nước phát triển khác trên thế giới, “ô nhiễm” bao gồm ô nhiễm không khí, nguồn nước, thực phẩm, tiếng ồn, v.v. là một trong những vấn đề nan giải, được nói tới đã nhiều năm nay. Bài viết này tập trung vào vấn đề ô nhiễm không khí (viết tắt ONKK), mà cụ thể là việc áp dụng các công nghệ cao vào việc quan trắc và dự báo ONKK.

Công nghệ chế tạo dạng bồi đắp – In 3D: công nghệ lõi trong nền công nghiệp 4.0

Trong nền kinh tế số và bối cảnh toàn cầu hóa, bài toán đặt ra cho các doanh nghiệp là làm sao kiểm soát tốt chi phí và cải thiện chất lượng sản phẩm, đồng thời đẩy nhanh quá trình phát triển và đưa sản phẩm ra thị trường. Điều này đòi hỏi công nghệ sản xuất mới đi kèm với sự phát triển của công nghệ số và áp dụng chúng vào quy trình sản xuất công nghiệp.

Liệu pháp Gonadotropin – chìa khóa thành công trong công nghệ hỗ trợ sinh sản

Liệu pháp Gonadotropin, hormone tạo hoàng thể (LH), hormone kích thích nang trứng (FSH) và hormone gonadotropin màng đệm (CG), đóng vai trò thiết yếu trong các phương pháp điều trị vô sinh ở người hoặc kiểm soát sinh sản ở động vật. LH và FSH được tổng hợp ở các tuyến sinh dục của tuyến yên trước, trong khi CG được tổng hợp bởi nguyên bào nuôi hợp bào nhau thai. Việc đưa liệu pháp này vào ngành y tế có từ gần một thế kỷ trước và là một bước tiến lớn trong điều trị vô sinh. Các gonadotropin tự nhiên đã được sử dụng trong một thời gian dài trong điều trị vô sinh ở người như hFSH được tinh chế từ nước tiểu của phụ nữ mãn kinh; hCG được tinh chế từ nước tiểu của phụ nữ mang thai; ở động vật như eCG hay có tên gọi khác là PMSG được tinh chế từ huyết thanh ngựa chửa; FSH lợn được tinh chế từ tuyến yên thu được tại các lò giết mổ. Tuy nhiên vì lý do vệ sinh và đạo đức, việc sử dụng các gonadotropin tự nhiên ngày càng trở nên khó khăn hơn trong điều trị vô sinh ở người hoặc kiểm soát sinh sản ở động vật.

Cluster nguyên tử: Cấu trúc đặc sắc và ứng dụng đa dạng

Trong vài thập kỷ vừa qua, vật liệu nano đã nổi lên và chiếm giữ một một vị trí quan trọng trong khoa học...

BÀI ĐỌC NHIỀU

Khái quát về mô hình dữ liệu quan hệ

Phần lớn hệ thống cơ sở dữ liệu hiện nay đều được xây dựng bằng mô hình dữ liệu quan hệ. Vậy mô hình...

Supervised Learning và Unsupervised Learning: Khác biệt là gì?

Supervised learning (Học có giám sát) và Unsupervised learning (Học không giám sát) là hai trong số những phương pháp kỹ thuật cơ bản...

Transformer Neural Network – Mô hình học máy biến đổi thế giới NLP

Năm 2017, Google công bố bài báo “Attention Is All You Need” thông tin về Transformer như tạo ra bước ngoặt mới trong lĩnh...

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...