Trang chủ Thế giới nói gì Nhận dạng người nói: một số phương pháp kỹ thuật

Nhận dạng người nói: một số phương pháp kỹ thuật

“Who is speaking?”/”Ai đang nói?”, nhận dạng người nói (speaker recognition) sẽ giúp bạn tìm được đáp án cho câu hỏi này. Kỹ thuật nhận dạng người nói hiện được ứng dụng phổ biến trong việc kiểm soát quyền truy cập bằng giọng nói, các hệ thống trợ lý ảo, hướng tới thay đổi cách thức vận hành của quá trình giao dịch ngân hàng qua mạng điện thoại, kiểm soát an ninh hay dịch vụ truy cập cơ sở dữ liệu,….

Nhận dạng người nói là gì?

Speaker Recognition là một trong những bài toán của Xử lý ngôn ngữ tự nhiên (NLP). Đây là quá trình xác minh danh tính dựa trên thông tin đặc trưng giọng nói, có thể được ứng dụng trong việc kiểm soát quyền truy cập đối với một số ứng dụng hay dịch vụ bằng tiếng nói. 

Phân biệt speaker identification và speaker verification.
Phân biệt speaker identification và speaker verification.

Về ứng dụng, Speaker Recognition có thể được phân loại thành speaker identification (nhận dạng người nói) và speaker verification (xác thực người nói). Theo đó, nhận dạng người nói là quá trình xác định nguồn phát (người nói) của một phát âm nhất định. Còn xác minh người nói là quá trình chấp nhận hoặc từ chối danh tính mà người nói đã xác nhận. 

Các phương pháp nhận dạng người nói

Về phương pháp, Speaker Recognition cũng được chia thành tiếp cận dựa trên văn bản, với mật khẩu cố định (text-dependent with fixed passwords) và tiếp cận không phụ thuộc vào văn bản (text-independent with no specific passwords). 

Text-dependent with fixed passwords

Phương pháp dựa trên văn bản yêu cầu người nói cung cấp các từ hoặc câu chính để sử dụng cho cả quá trình đào tạo và nhận dạng. Các phương pháp này thường dựa trên kỹ thuật đối sánh mẫu/mô hình-trình tự trong đó chiều thời gian của mẫu giọng nói đầu vào và các mẫu tham chiếu được căn chỉnh và sự tương đồng giữa chúng sẽ được hệ thống tích lũy trên từng câu phát âm để làm căn cứ ra quyết định. Vì có thể khai thác đặc tính biến đổi ít của tiếng nói theo từng âm vị hoặc âm tiết, nên phương pháp dựa trên văn bản thường đạt được độ chính xác nhận dạng cao hơn so với phương pháp không phụ thuộc văn bản.

Một số kỹ thuật phổ biến truyền thống của phương pháp text-dependent là DTW (Dynamic Time Warping – quy hoạch thời gian động) hoặc sử dụng mô hình HMM (Hidden Markov Model – mô hình Markov ẩn).

Text-independent with no specific passwords

Phương pháp text-independent không dựa vào một văn bản được định nghĩa trước cụ thể nào. Do đó, ưu điểm của phương pháp này là nó có thể nhận ra người nói độc lập với nội dung của câu phát âm. Vì rất khó có thể mô hình hóa hoặc so khớp các mẫu tiếng nói ở cấp độ từ hoặc câu, nên đối với phương pháp không dựa trên văn bản, các kỹ thuật mô hình hóa toàn câu phát âm sử dụng phương pháp thống kê thường được sử dụng. 

Text-Prompted Speaker Recognition

Tuy nhiên, cả hai phương pháp text-dependent và text-independent kể trên đều lộ rõ điểm yếu, đặc biệt trong bối cảnh các công nghệ ghi âm, tái tạo giọng nói phát triển mạnh. Do đó, để khắc phục các hạn chế của những phương pháp truyền thống, các nhà khoa học đề xuất một cách tiếp cận mới có tên Text-Prompted Speaker Recognition. Đối với phương pháp này, các câu “chìa khóa” được thay đổi liên tục trong mỗi lần truy cập. Hệ thống chỉ chấp nhận lời nói đầu vào khi xác định rằng chính người được cấp quyền đang thực hiện câu lệnh do máy cung cấp. Phương pháp này không chỉ nhận dạng chính xác người nói mà còn giúp phòng tránh trường hợp một giọng nói được ghi âm và phát lại. 

Phương pháp Text-Prompted Speaker Recognition sử dụng các mô hình âm vị tương ứng với từng người nói làm đơn vị âm thanh cơ bản. Các mô hình âm vị có thể được biểu diễn bằng các mô hình thống kê như Gaussian-mixture, tied-mixture HMMs, hoặc Deep learning models. Trong giai đoạn nhận dạng nếu sử dụng phương pháp tied-mixture HMMs, hệ thống sẽ ghép các mô hình âm vị của từng người nói đã đăng ký để tạo ra một chuỗi các HMM dựa theo văn bản được nhắc. Sau đó, điểm của chuỗi này sẽ được hệ thống tính toán và sử dụng để xác minh người nói.

(Nguồn tham khảo: Speaker recognition, Sadaoki Furui (2008), Scholarpedia, 3(4):3715)

BÀI ĐỌC NHIỀU

Bài phỏng vấn Giáo sư Vũ Hà Văn

Toufik Mansour(**)(*) Giáo sư Vũ Hà Văn sinh ra và học tập đến hết trung học phổ thông tại Việt Nam. Năm 1994, ông...

Giải mã Vaccine thế hệ mới chống COVID-19

Đại dịch COVID-19 diễn biến phức tạp ở quy mô toàn cầu suốt cả năm nay, với số ca nhiễm và tử vong không...

Khái quát về Data Pipeline

Dữ liệu là chìa khóa trong việc khám phá tri thức sâu rộng, nâng cao hiệu quả quy trình và thúc đẩy đưa ra...

VinBigdata đứng số 01 cuộc thi Global Wheat Detection, CVPPP 2020

Sau 2 tháng tranh tài, vượt qua 2245 đội thi hùng mạnh của thế giới, ngày 28/08/2020, Phòng Xử lý ảnh y tế, Viện...

BÀI ĐƯỢC LỰA CHỌN

Tìm hiểu về một Mô hình dự báo dịch Covid-19 từ Vũ Hán

Chúng tôi trình bày và giải thích về một mô hình dự báo ngắn hạn và dài hạn (gọi tắt là mô hình SEIR-C19)...

Giải Nobel Hóa học 2020 vinh danh công nghệ chỉnh sửa gene

Giải Nobel Hóa học năm nay được trao cho thành tựu “viết lại bộ mã của sự sống” của hai nhà khoa học nữ:...

Giải Nobel Y học 2020 vinh danh thành tựu nghiên cứu virus viêm gan C

Giải Nobel Y học 2020 được trao cho Harvey J. Alter, Michael Houghton và Charles M. Rice. Ba nhà khoa học được trao giải vì đã có những...

Điều trị tự kỷ bằng ghép tế bào gốc phối hợp với can thiệp giáo dục

1. Giới thiệu chungTự kỷ (autism) hay rối loạn phổ tự kỷ (autism spectrum disorder) là thuật ngữ được dùng để chỉ một...

BÀI MỚI NHẤT

Thế giới của chúng ta rộng lớn hay bé nhỏ?

Sự rộng lớn hay bé nhỏ của một không gian được đo bằng khoảng cách. Vậy đâu là khoảng cách giữa mọi người trên...

08 trang blog dân Khoa học Dữ liệu nên đọc

08 trang blog dưới đây sẽ cung cấp cho bạn kho tri thức nền tảng về Khoa học Dữ liệu, cùng những thông tin...

Garbage in garbage out: Từ góc độ gán nhãn dữ liệu

Để có dữ liệu sạch và có giá trị đối với các thuật toán thì dữ liệu cần được gán nhãn và chú giải...

06 website luyện code dành cho dân lập trình

Giải quyết các bài toán lập trình thực tế là một trong những cách giúp các coders "nâng hạng" nhanh nhất. Top 06 website...