Responsive image
博碩士論文 etd-0111118-200940 詳細資訊
Title page for etd-0111118-200940
論文名稱
Title
中文專有名詞語音辨識系統之設計研究
A Design of Speech Recognition System for Chinese Proper Nouns
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
83
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2018-02-12
繳交日期
Date of Submission
2018-02-11
關鍵字
Keywords
隱藏式馬可夫模型、單音標籤、音位結構學、梅爾頻率倒頻譜係數、語音辨識、線性預估倒頻譜係數
Mel frequency cepstral coefficients, Speech recognition, Phonotactics, Syllable Tag, Hidden markov model, Linear predictive cepstral coefficients
統計
Statistics
本論文已被瀏覽 5664 次,被下載 0
The thesis/dissertation has been browsed 5664 times, has been downloaded 0 times.
中文摘要
在現今科技發達的時代,透過語音上網找資料,搜尋人事時地物等訊息,是相當普遍的生活需要。雖然有許多大型的搜尋網站提供免費查詢服務,因商業獲利模式的運作,需要連上網路才能使用。因此吾人希望運用語音辨識的技術,設計一套不需連網,可個人使用的專有名詞辨識系統,以提升搜尋使用的便利性。
本論文使用梅爾頻率倒頻譜係數及線性預估倒頻譜係數來取得語音的雙特徵參數。首先,系統錄製2699個二字語詞,作為訓練語料,再將所有的語詞拆解為單字,按照注音順序,設計單音分類器;其次,為獲取更全面的單音語音特徵,吾人將每個單音分解為聲母及韻母兩部分,分別設計聲母與韻母的輔助分類器;最後,透過單音分類與聲韻母的輔助分類,及音位選取,過濾出最佳的語詞單音。
另外,吾人運用音節、聲韻母和音位等資訊,建立多維資訊標籤的資料庫,讓輸入的語料透過隱藏式馬可夫模型,篩選並交叉比對資料庫中的每項單音標籤。如果語者在錄音時,出現漏字或唸錯字的狀況,運用單音標籤的資訊和音位結構學之架構,可改善系統辨識錯誤的問題。
在資料庫方面,吾人蒐集人事時地物等各類中文專有名詞,共約有95萬筆。以單一或複數個的名詞作為搜尋關鍵字,在CPU 時脈2.3 GHz的Intel CoreTM i7-4712MQ 個人筆記型電腦與Windows 8.1作業系統環境下,系統的正確辨識率可達到95.89%。
Abstract
In today’s technological era, “Speech Web Searching” for person, event, time, place and object is a common necessity for our daily life. Although many searching websites can offer this service free of charge, it is a de facto practice to search “on line” due to their commercial profit models. Hence it is our hope to design a proper noun speech searching system that can be used “offline” to promote personal convenience.
In this thesis, the mel frequency cepstral coefficients and linear predictive cepstral coefficients are used to extract the speech characteristics. Firstly, a training database of 2,699 two-syllable words are recorded. All the syllables are then used to design a syllable speech classifier. Secondly, in order to extract more detailed information of a syllable, the initial consonant and the final vowel for the syllable are applied to construct the two auxiliary classifiers. Finally, incorporating the phonotactic rules, the best candidate word is selected by using both the syllable and auxiliary classifiers.
Furthermore, a multi-dimensional syllable tag is established for each noun. This technique can improve the missing or mistaken syllable error when the speech input is cross examined by the hidden Markov model, the phonotactics and the syllable tag.
A Chinese proper noun database of approximate 950 thousand entries is collected for system evaluation. Under the Intel Core ™ i7-4712MQ notebook with 2.3 GHz CPU and the Windows 8.1 operating system environment, the speech system can obtain a 95.89% correct recognition rate.
目次 Table of Contents
論文審定書 i
誌謝 ii
摘要 iii
Abstract iv
目錄 v
圖次 viii
表次 ix
第一章 緒論 1
1.1 研究動機 1
1.2 研究目的 1
1.3 論文章節概要 2
第二章 專有名詞介紹和中文語音學 3
2.1 專有名詞 3
2.2 中文語音學 5
第三章 辨識流程及數學理論 10
3.1 音節切割 11
3.1.1 音框能量 11
3.1.2 越零率 12
3.2 語音的前處理 13
3.2.1 高頻預強濾波 13
3.2.2 加窗函數 14
3.3 單音分類器 16
3.3.1 聲母分類 16
3.3.2 聲母分類流程介紹 21
3.3.3 韻母分類 22
3.3.4 韻母分類流程介紹 23
3.4 特徵萃取方法 24
3.4.1 梅爾頻率倒頻譜係數 25
3.4.2 線性預估倒頻譜係數 31
3.5 隱藏式馬可夫模型 39
3.5.1 參數模型初始化 40
3.5.2 估算狀態機率問題 42
3.5.3 最佳狀態序列問題 46
3.5.4 模型參數估算問題 47
3.6 音位結構學 49
3.7 資料庫標籤 50
第四章 系統實作及辨識效能 54
4.1 訓練策略 54
4.1.1 單音訓練 54
4.1.2 聲母、韻母訓練 56
4.2 系統架構 58
4.3 系統參數 60
4.4 系統資料庫建立 60
4.4.1 中文維基資料庫 61
4.4.2 大學院校教師資料庫 61
4.4.3 醫療機構資料庫 61
4.5 聲母、韻母分類器實驗 62
4.5.1 聲母分類器 62
4.5.2 韻母分類器 63
4.6 辨識效能 65
4.6.1 中文維基搜尋系統 65
4.6.2 大學院校教師查詢系統 66
4.6.3 醫療機構查詢系統 68
第五章 結論與未來展望 71
參考文獻 73
參考文獻 References
[1] 維基百科,http://zh.wikipedia.org/
[2] 政府資料開放平臺,https://data.gov.tw/
[3] 王小川,語音訊號處理,全華圖書出版社,民國98年
[4] 國立臺灣師範大學,國音教材編輯委員會編簒,國音學,正中書局股份有限公司,民國96年
[5] Simons, Gary F., Ethnologue: Languages of the World, Twentieth edition, SIL International, 2017
[6] 鍾榮富,當代語言學概論,五南圖書出版股份有限公司,2006
[7] Wai C. Chu, Speech Coding Algorithms, Wiley Interscience, US, 2003.
[8] X. Huang, and H.W. Hon and A. Acero, Spoken Language Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, USA, 2001.
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:自定論文開放時間 user define
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code