Responsive image
博碩士論文 etd-0906107-011936 詳細資訊
Title page for etd-0906107-011936
論文名稱
Title
中文二字語詞辨識系統之設計研究
A Design of Speech Recognition System for Two-Word Mandarin Phrases
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
56
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2007-07-26
繳交日期
Date of Submission
2007-09-06
關鍵字
Keywords
音高軌跡、二字詞、卡氏轉換
two-word mandarin, pitch contour, Karhunen-Loeve transform
統計
Statistics
本論文已被瀏覽 5658 次,被下載 0
The thesis/dissertation has been browsed 5658 times, has been downloaded 0 times.
中文摘要
本論文以研究如何增進中文二字語詞辨識率為目標。二字語詞辨識效果不佳的主要原因,來自兩個部份: 一是混洧性單音的辨識準確性不夠高,二是聲調的判定不夠準,首先為增進單音的準確性,我們使用了語料平衡之訓練,並改變聲母與韻母在狀態觀測機率值的權重。其次,為增進聲調的正確辨識率,除了使用音高軌跡外,另外加入卡氏轉換,觀察頻譜能量在不同頻段之改變狀態特性。實驗證明吾人加入上述二項改進之道後,二字語詞的正確辨識率可由79% 提昇到85%。
Abstract
The objective of this thesis is to increase the correct recognition rate of the two-word Mandarin phrases. The reason for inaccuracy is due to the ambiguities of the syllables and the intonations. For the syllable ambiguity, a balanced speech training dataset is designed and the weights of the state observation probabilities on vowels and consonants are adjusted. For the tone ambiguity, both the pitch contour and the spectrum evolution property derived from the Karhunen-Loéve transform are applied. The experimental results indicate that an 85% correct rate can be achieved, that is a 6% increase in the performance for the system without the above improvements.
目次 Table of Contents
摘要I
致謝II
目錄III
圖目錄V
表目錄VII
第一章 緒論 1
1-1 研究動機與目的1
1-2 研究方法與成果簡介1
1-3 各章節內容概要4
第二章 中文二字詞語音辨識流程介紹5
2-1 辨識流程介紹5
2-2 聲調的相關研究8
2-2-1 中文變調規則10
2-3 擷取音高軌跡11
2-3-1 週期性訊號預前判斷12
2-3-2 自相關函數(autocorrelation function)14
2-3-3 修正音高錯誤17
2-4 使用卡氏轉換萃取聲調特徵18
2-5 聲調模型訓練21
第三章 語音模型的訓練與辨識流程22
3-1 隱藏式馬可夫模型22
3-2 模型訓練23
3-3 單音模型訓練29
3-4 辨識流程與文字比對30
3-5 聲調辨認32
第四章 辨識系統設計與實驗結果38
4-1 辨識系統設計38
4-2 實驗結果39
4-3 使用卡氏轉換於兩大類分類之後的四聲辨識結果41
第五章 結論與展望44
參考文獻46
參考文獻 References
[1] 潘睿慈, “特定語者中文語詞辨識系統之設計研究” , 國立中山大學電機工程研究所碩士論文, 民國94年7月
[2] 林威伯, “使用簡易音高週期浮現演算法及類神經網路之多語者台語聲調辨識”, 長庚大學電機工程研究所碩士論文, 民國89年
[3] 吳家蓁, “國語韻母/ㄚ/四種聲調之音響學特性 : 著重於音頻、音強,與持續時長實際變化的研究”, 國立台北護理學院聽語障礙科學研究所,
民國92年
[4] Ng ML, Gilbert HR, Learman JW: Fundamental frequency,intensity,and vowel duration characteristics related to perception of Cantonese alaryngeal speech. Folia Phoniatr Logop 2001;53(1):36-47.
[5] Yasuhiro Minami, Erik McDermott, Atsushi Nakamura, Shigeru Katagiri,”A recognition method using synthesis-based scoring that incorporates direct relations between static and dynamic Feature vector time series”.
[6] Saurabh Kumar Shandilya and Preeti Rao,“Retreiving pitch of the singing voice in polyphonic audio”2003
[7] Ben Gold, Nelson Morgan “Speech and audio signal Processing”,pp.415-428 ,Wiley & Sons 2000
[8] L.R Rabiner. On the use of autocorrelation analysis for pitch detection. IEEE Trans. ASSP, ASSP-25:24-33, 1977.
[9] D.R. Reddy. Pitch period determination of speech sound. CACM, 10:343-348, 1967.
[10] M.j. Ross, H.L. Shaffer, A. Cohen, R. Freudberg, and H.J. Manley. Average magnitude difference function pitch extractor. IEEE Trans. ASSP, ASSP-22:353-362, Oct. 1974.
[11] J.D. markel, "the SIFT algorithm for Fundamental Frequency Esyimation." IEEE trans. On audio and Electroacoustics, Vol AU-20, No 5, pp.367-377, December 1972
[12] Alan V. Oppenhieim, Ronald W. Schafer,”Discrete-Time Signal Processing”, Prentice Hall,1993.
[13] John R. Deller,Jr. ,John G. Proakis, and John H. L. Hansen,“Discrete-Time Processing of Speech Signals”,New jersey,Prentice Hall,Inc,1987
[14] L. R. Rabiner, “A tutorial on hidden Markov modles and selected application in speech recognition”, Proc. IEEE, vol.77, pp. 257-286, Feb. 1989
[15] U.C.Berkeley, “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models”ICSI. April 1998.
[16] 王小川, ”語音訊號處理”, 全華, 民國93年.
[17] 胡哲原, “視窗程式設計 Linux C/C++ 使用GTK+與Qt”, 文魁資訊股份有限公司, 2002.
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:校內校外均不公開 not available
開放時間 Available:
校內 Campus:永不公開 not available
校外 Off-campus:永不公開 not available

您的 IP(校外) 位址是 3.144.12.205
論文開放下載的時間是 校外不公開

Your IP address is 3.144.12.205
This thesis will be available to you on Indicate off-campus access is not available.

紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code