Responsive image
博碩士論文 etd-0628101-113427 詳細資訊
Title page for etd-0628101-113427
論文名稱
Title
大量語者不特定語句環境下語者辨識系統之特徵設計
Feature Design for Text Independent Speaker Recognition in Numerous Speaker Cases
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
55
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2001-06-05
繳交日期
Date of Submission
2001-06-28
關鍵字
Keywords
人工智慧、語者辨識、梅爾-倒頻譜、向量量化
Speaker Recognition, Mel-Cepstrum, Artificial Neural
統計
Statistics
本論文已被瀏覽 5676 次,被下載 7718
The thesis/dissertation has been browsed 5676 times, has been downloaded 7718 times.
中文摘要
本論文設計了以Microsoft Windows作為作業平台之大量語者不特定語句情況下的語者辨識系統。本論文採取語料之梅爾-倒頻譜作為特徵,再利用人工智慧的方法建立起數狀分類器。在辨識過程中只需算出未知語者所歸屬之小群再將特徵量化並語該小群中的語者做對,即可得知未知語者身分。經實驗證明,在人數增多時,辨識率並不隨之下降,辨識速度也較傳統方法快。
Abstract
A Microsoft Windows program is designed to implement a text independent speaker recognition system in numerous speaker cases based on Mel-Cepstrum and hierarchical tree classifier and binary vector quantization. Experimental result show that the accuracy is barely affected by increasing population sizes. And the speed of recognizing is fast than traditional methods.
目次 Table of Contents
目 錄
頁 次
致謝詞
論文提要
目錄
圖表目錄

第一章 序論 1
1-1 研究動機 1
1-2 研究背景及目的 3
1-3 論文架構 6

第二章 語音訊號的分析技術 7
2-1 語音處理的產生 7
2-2 靜音切割 10
2-3 劃分音框與視窗函數 13

第三章 語者辨識系統的設計 16
3-1 特徵萃取 16
3-1-1 功率頻譜密度函數(Power Spectrum Density) 17
3-1-2 倒頻譜係數(Cepstrum Coefficients) 18
3-1-3 梅爾-倒頻譜係數(Mel-Cepstrum Coefficients) 22
3-2 類神經網路(Artificial Neural Networks) 26
3-2-1 前言 26
3-2-2 SOFM 27
3-2-3 LVQ 30
3-2-4 分群強韌性的研究 34
3-3 辨識器設計 35

第四章 系統實作結果 37
4-1 系統實作簡介 37
4-2 資料庫與系統參數設計 38
4-3 實驗結果 39

第五章 結論與建議 52



主要圖表目錄 頁次
圖(1-1)人類的發音過程 7
圖(1-2)人類的發音模型 8
圖(1-3)語音的數位話模型 9
圖(2-1)第一號語者的時間軸波形 10
圖(2-2)利用能量-越零率之端點偵測法 12
圖(2-3)語音訊號的半穩態特性 13
圖(2-4)三種不同視窗的效果 14
圖(3-1)不同兩個人的PSD 17
圖(3-2)求Cepstrum的流程圖 20
圖(3-3)利用Cepstrum將激發源與聲道脈衝響應分開 21
圖(3-4)人類聽覺系統對頻率的感知 22
圖(3-5)使用不同的頻率部份來計算Mel-Cepstrum 24
圖(3-6)Mel-Cepstrum的求法 25
圖(3-7)SOFM的方塊圖 27
圖(3-8)SOFM的權重疊代情形 28
圖(3-9)SOFM的例子 28
圖(3-10)SOFM的收斂情形 29
圖(3-11)LVQ的方塊圖 31
圖(3-12)LVQ的例子 32
圖(3-10)LVQ的收斂情形 33
圖(4-1)語者辨識系統的訓練流程圖 42
圖(4-2)語者辨識系統的測試流程圖 43
圖(4-3)分群結果 45
圖(4-4)人數v.s.辨識率 46
圖(4-5)特徵v.s.辨識率 47
圖(4-6)完成後的視窗程式 53

表(3-1)臨界頻帶 24
表(4-1)分群數目與分群正確率及辨識率 44
表(4-2)Training:15s Testing:5s 所得結果(TIMIT) 48
表(4-3)Training:8 sentences Testing:1 sentences所得結果(TIMIT) 49
表(4-4)Training:8 sentences Testing:1 sentences所得結果(NTIMIT)50
表(4-5)各種情況下的正確率表(TV Database) 51
表(4-6)TV Database的人名表 52
參考文獻 References

[1] Douglas A. Reynolds, “Large Population Speaker Identification Using Clean and Telephone Speech”, IEEE Signal Processing Letters, Vol.2, No.3, March 1995, pp46-48

[2] Kevin R. Farrell, Richard J. Mammone, and Khaled T. Assaleh, “Speaker Recognition Using Neural Networks and Conventional Classifiers”, IEEE Trans. on Speech and Audio Processing, Vol.2, No.1, Part Two, January 1994, pp194-205

[3] S. Y. Lung, and Chih-Chien Thomas Chen, “Further Reduced Form of Karhunen –Loeve Transform for Text Independent Speaker Recognition”, Electronics Letters, Vol.34, July 1998, pp1380-1382

[4] John R. Deller, John G. Proaskis, and John H. L. Hansen, “Discrete-Time Processing of Speech Signals”, Prentice Hall

[5] N.R. French and J.C. Steinberg, “Factors governing the intelligibility of speech sounds”, J. Acoust. Soc. Am., 19: 90-119, 1947

[6] Martin T. Hagan, Howard B. Demuth, and Mark Beale, “Neural Network Design”, PWS Publishing Company

[7] Teuvo Kohonen, “The Self-Organizing Map”, Proceedings of the IEEE, Vol.78, No.9, September 1990, pp1464-1480

[8] Jialong Ho, Li Liu, and Gunther Palm, “A Discriminative Training Algorithm for VQ-Based Speaker Identification”, IEEE Trans. on Speech and Audio Processing, Vol.7, No.3, May 1999, pp353-356

[9] Pierre Castellano, “A Study of LVQ Learning Schedules for ANN Speaker Identification”, IEEE Region 10’s Ninth Annual International Conference, Theme: Frontiers of Computer Technology, Proceedings of 1994, pp902-905

[10] Zhong-Xuan Yuan, Bo-Ling Xu, and Chong-Zhi Yu, “Binary Quantization of Feature Vectors for Robust Text-Independent Speaker Identification”, IEEE Trans. on Speech and Audio Processing, Vol.7, No.1, January 1999, pp70-78

[11] Viresh Moonasar, and Ganesh K. Venayagamoorthy, “Speaker Identification Using a Combination of Different Parameters as Feature Inputs to Artificial Neural Network Classifier”, Africon, 1999 IEEE, Vol.1, 1999, pp189-194

[12] Alan V. Oppenheim, Renold W. Schafer, “Discrete-Time Signal Processing”, Prentice Hall

[13] 王理嘉, “語音學教程”, 五南圖書出版公司

[14] 龍生雲, “不特定語句之中文語者辨識系統研究”, 國立中山大學博士論文, 民國88年

[15] 鄭開尹, “中文語者辨識系統之視窗軟體設計研究”, 國立中山大學碩士論文, 民國88年
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:校內校外完全公開 unrestricted
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code