Trang chủ Thế giới nói gì Nhận dạng người nói: một số phương pháp kỹ thuật

Nhận dạng người nói: một số phương pháp kỹ thuật

“Who is speaking?”/”Ai đang nói?”, nhận dạng người nói (speaker recognition) sẽ giúp bạn tìm được đáp án cho câu hỏi này. Kỹ thuật nhận dạng người nói hiện được ứng dụng phổ biến trong việc kiểm soát quyền truy cập bằng giọng nói, các hệ thống trợ lý ảo, hướng tới thay đổi cách thức vận hành của quá trình giao dịch ngân hàng qua mạng điện thoại, kiểm soát an ninh hay dịch vụ truy cập cơ sở dữ liệu,….

Nhận dạng người nói là gì?

Speaker Recognition là một trong những bài toán của Xử lý ngôn ngữ tự nhiên (NLP). Đây là quá trình xác minh danh tính dựa trên thông tin đặc trưng giọng nói, có thể được ứng dụng trong việc kiểm soát quyền truy cập đối với một số ứng dụng hay dịch vụ bằng tiếng nói. 

Phân biệt speaker identification và speaker verification.
Phân biệt speaker identification và speaker verification.

Về ứng dụng, Speaker Recognition có thể được phân loại thành speaker identification (nhận dạng người nói) và speaker verification (xác thực người nói). Theo đó, nhận dạng người nói là quá trình xác định nguồn phát (người nói) của một phát âm nhất định. Còn xác minh người nói là quá trình chấp nhận hoặc từ chối danh tính mà người nói đã xác nhận. 

Các phương pháp nhận dạng người nói

Về phương pháp, Speaker Recognition cũng được chia thành tiếp cận dựa trên văn bản, với mật khẩu cố định (text-dependent with fixed passwords) và tiếp cận không phụ thuộc vào văn bản (text-independent with no specific passwords). 

Text-dependent with fixed passwords

Phương pháp dựa trên văn bản yêu cầu người nói cung cấp các từ hoặc câu chính để sử dụng cho cả quá trình đào tạo và nhận dạng. Các phương pháp này thường dựa trên kỹ thuật đối sánh mẫu/mô hình-trình tự trong đó chiều thời gian của mẫu giọng nói đầu vào và các mẫu tham chiếu được căn chỉnh và sự tương đồng giữa chúng sẽ được hệ thống tích lũy trên từng câu phát âm để làm căn cứ ra quyết định. Vì có thể khai thác đặc tính biến đổi ít của tiếng nói theo từng âm vị hoặc âm tiết, nên phương pháp dựa trên văn bản thường đạt được độ chính xác nhận dạng cao hơn so với phương pháp không phụ thuộc văn bản.

Một số kỹ thuật phổ biến truyền thống của phương pháp text-dependent là DTW (Dynamic Time Warping – quy hoạch thời gian động) hoặc sử dụng mô hình HMM (Hidden Markov Model – mô hình Markov ẩn).

Text-independent with no specific passwords

Phương pháp text-independent không dựa vào một văn bản được định nghĩa trước cụ thể nào. Do đó, ưu điểm của phương pháp này là nó có thể nhận ra người nói độc lập với nội dung của câu phát âm. Vì rất khó có thể mô hình hóa hoặc so khớp các mẫu tiếng nói ở cấp độ từ hoặc câu, nên đối với phương pháp không dựa trên văn bản, các kỹ thuật mô hình hóa toàn câu phát âm sử dụng phương pháp thống kê thường được sử dụng. 

Text-Prompted Speaker Recognition

Tuy nhiên, cả hai phương pháp text-dependent và text-independent kể trên đều lộ rõ điểm yếu, đặc biệt trong bối cảnh các công nghệ ghi âm, tái tạo giọng nói phát triển mạnh. Do đó, để khắc phục các hạn chế của những phương pháp truyền thống, các nhà khoa học đề xuất một cách tiếp cận mới có tên Text-Prompted Speaker Recognition. Đối với phương pháp này, các câu “chìa khóa” được thay đổi liên tục trong mỗi lần truy cập. Hệ thống chỉ chấp nhận lời nói đầu vào khi xác định rằng chính người được cấp quyền đang thực hiện câu lệnh do máy cung cấp. Phương pháp này không chỉ nhận dạng chính xác người nói mà còn giúp phòng tránh trường hợp một giọng nói được ghi âm và phát lại. 

Phương pháp Text-Prompted Speaker Recognition sử dụng các mô hình âm vị tương ứng với từng người nói làm đơn vị âm thanh cơ bản. Các mô hình âm vị có thể được biểu diễn bằng các mô hình thống kê như Gaussian-mixture, tied-mixture HMMs, hoặc Deep learning models. Trong giai đoạn nhận dạng nếu sử dụng phương pháp tied-mixture HMMs, hệ thống sẽ ghép các mô hình âm vị của từng người nói đã đăng ký để tạo ra một chuỗi các HMM dựa theo văn bản được nhắc. Sau đó, điểm của chuỗi này sẽ được hệ thống tính toán và sử dụng để xác minh người nói.

(Nguồn tham khảo: Speaker recognition, Sadaoki Furui (2008), Scholarpedia, 3(4):3715)

BÀI MỚI NHẤT

Transformer Neural Network – Mô hình học máy biến đổi thế giới NLP

Năm 2017, Google công bố bài báo “Attention Is All You Need” thông tin về Transformer như tạo ra bước ngoặt mới trong lĩnh...

Các biểu thức chính quy cần thiết (Regex) trong NLP

Khi xử lý văn bản, chúng ta thường mong muốn chuẩn hóa và trích xuất một số thông tin (như số, ngày tháng, v.v.)...

Giảm chiều dữ liệu để tăng hiệu quả của mô hình AI

Các tập dữ liệu đa chiều (high-dimensionality datasets) hiện là tài nguyên quý giúp tổ chức nghiên cứu giải quyết những vấn đề phức...

Newsletter nổi bật về khoa học dữ liệu và AI (2021)

Newsletter về khoa học dữ liệu và AI là giải pháp tuyệt vời cho việc quá tải thông tin khi nghiên cứu. Newsletter đã...

BÀI ĐỌC NHIỀU

Chiến thuật chinh phục các cuộc thi trên Kaggle

Với hơn 5 triệu tài khoản đăng ký, các cuộc thi trên Kaggle là sân chơi quốc tế dành cho cộng đồng trí tuệ...

Supervised Learning và Unsupervised Learning: Khác biệt là gì?

Supervised learning (Học có giám sát) và Unsupervised learning (Học không giám sát) là hai trong số những phương pháp kỹ thuật cơ bản...

Giáo sư Vũ Hà Văn được Hiệp hội Toán thống kê thế giới bầu chọn là Hội viên danh dự năm 2020

Với những cống hiến trong lý thuyết xác suất, đặc biệt là lý thuyết ma trận ngẫu nhiên, Giáo sư Vũ Hà Văn –...

Trí tuệ nhân tạo trong ngành thương mại điện tử

Dữ liệu đang trở thành một mặt hàng theo đúng nghĩa đen. Theo Diễn đàn kinh tế Thế giới, 44 zettabyte dữ liệu sẽ...