“Who is speaking?”/”Ai đang nói?”, nhận dạng người nói (speaker recognition) sẽ giúp bạn tìm được đáp án cho câu hỏi này. Kỹ thuật nhận dạng người nói hiện được ứng dụng phổ biến trong việc kiểm soát quyền truy cập bằng giọng nói, các hệ thống trợ lý ảo, hướng tới thay đổi cách thức vận hành của quá trình giao dịch ngân hàng qua mạng điện thoại, kiểm soát an ninh hay dịch vụ truy cập cơ sở dữ liệu,….
Nhận dạng người nói là gì?
Speaker Recognition là một trong những bài toán của Xử lý ngôn ngữ tự nhiên (NLP). Đây là quá trình xác minh danh tính dựa trên thông tin đặc trưng giọng nói, có thể được ứng dụng trong việc kiểm soát quyền truy cập đối với một số ứng dụng hay dịch vụ bằng tiếng nói.
Về ứng dụng, Speaker Recognition có thể được phân loại thành speaker identification (nhận dạng người nói) và speaker verification (xác thực người nói). Theo đó, nhận dạng người nói là quá trình xác định nguồn phát (người nói) của một phát âm nhất định. Còn xác minh người nói là quá trình chấp nhận hoặc từ chối danh tính mà người nói đã xác nhận.
Các phương pháp nhận dạng người nói
Về phương pháp, Speaker Recognition cũng được chia thành tiếp cận dựa trên văn bản, với mật khẩu cố định (text-dependent with fixed passwords) và tiếp cận không phụ thuộc vào văn bản (text-independent with no specific passwords).
Text-dependent with fixed passwords
Phương pháp dựa trên văn bản yêu cầu người nói cung cấp các từ hoặc câu chính để sử dụng cho cả quá trình đào tạo và nhận dạng. Các phương pháp này thường dựa trên kỹ thuật đối sánh mẫu/mô hình-trình tự trong đó chiều thời gian của mẫu giọng nói đầu vào và các mẫu tham chiếu được căn chỉnh và sự tương đồng giữa chúng sẽ được hệ thống tích lũy trên từng câu phát âm để làm căn cứ ra quyết định. Vì có thể khai thác đặc tính biến đổi ít của tiếng nói theo từng âm vị hoặc âm tiết, nên phương pháp dựa trên văn bản thường đạt được độ chính xác nhận dạng cao hơn so với phương pháp không phụ thuộc văn bản.
Một số kỹ thuật phổ biến truyền thống của phương pháp text-dependent là DTW (Dynamic Time Warping – quy hoạch thời gian động) hoặc sử dụng mô hình HMM (Hidden Markov Model – mô hình Markov ẩn).
Text-independent with no specific passwords
Phương pháp text-independent không dựa vào một văn bản được định nghĩa trước cụ thể nào. Do đó, ưu điểm của phương pháp này là nó có thể nhận ra người nói độc lập với nội dung của câu phát âm. Vì rất khó có thể mô hình hóa hoặc so khớp các mẫu tiếng nói ở cấp độ từ hoặc câu, nên đối với phương pháp không dựa trên văn bản, các kỹ thuật mô hình hóa toàn câu phát âm sử dụng phương pháp thống kê thường được sử dụng.
Text-Prompted Speaker Recognition
Tuy nhiên, cả hai phương pháp text-dependent và text-independent kể trên đều lộ rõ điểm yếu, đặc biệt trong bối cảnh các công nghệ ghi âm, tái tạo giọng nói phát triển mạnh. Do đó, để khắc phục các hạn chế của những phương pháp truyền thống, các nhà khoa học đề xuất một cách tiếp cận mới có tên Text-Prompted Speaker Recognition. Đối với phương pháp này, các câu “chìa khóa” được thay đổi liên tục trong mỗi lần truy cập. Hệ thống chỉ chấp nhận lời nói đầu vào khi xác định rằng chính người được cấp quyền đang thực hiện câu lệnh do máy cung cấp. Phương pháp này không chỉ nhận dạng chính xác người nói mà còn giúp phòng tránh trường hợp một giọng nói được ghi âm và phát lại.
Phương pháp Text-Prompted Speaker Recognition sử dụng các mô hình âm vị tương ứng với từng người nói làm đơn vị âm thanh cơ bản. Các mô hình âm vị có thể được biểu diễn bằng các mô hình thống kê như Gaussian-mixture, tied-mixture HMMs, hoặc Deep learning models. Trong giai đoạn nhận dạng nếu sử dụng phương pháp tied-mixture HMMs, hệ thống sẽ ghép các mô hình âm vị của từng người nói đã đăng ký để tạo ra một chuỗi các HMM dựa theo văn bản được nhắc. Sau đó, điểm của chuỗi này sẽ được hệ thống tính toán và sử dụng để xác minh người nói.
(Nguồn tham khảo: Speaker recognition, Sadaoki Furui (2008), Scholarpedia, 3(4):3715)