Responsive image
博碩士論文 etd-0103118-141909 詳細資訊
Title page for etd-0103118-141909
論文名稱
Title
中文語音辨識系統增進訓練效能之策略研究 — 以商號系統與二、三、四、五、六字詞為例
A Design of Training Efficiency Improving Strategy for Mandarin Speech Recognition System - A Case Study on Business Name Querying System and Phrase Recognition System
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
69
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2018-02-12
繳交日期
Date of Submission
2018-02-06
關鍵字
Keywords
聲調辨識、隱藏式馬可夫模型、線性預估倒頻譜係數、語音辨識、梅爾頻率倒頻譜係數
Linear predicted cepstral coefficients, Speech recognition, Hidden Markov model, Tone recognition, Mel frequency cepstral coefficients
統計
Statistics
本論文已被瀏覽 5637 次,被下載 4
The thesis/dissertation has been browsed 5637 times, has been downloaded 4 times.
中文摘要
語音辨識技術已大量使用在我們的日常生活中,不管在車用的語音導航系統或是手機上的行動語音助理,都是語音辨識技術下的產物。在語音辨識的使用人數扶搖直上的現今,如何增進辨識系統的訓練效能,是語音辨識系統開發人員須共同努力的目標。
本論文針對中文語音辨識系統訓練效能之提升,提出平衡篩選與字詞接龍的策略,將中文訓練量由2,699個二字語詞,減少至1,449個,並以商號語音搜尋系統及二、三、四、五、六字詞語音搜尋系統為例,驗證其效能。實驗結果顯示其與使用原先訓練語料之系統相比,辨識率並無明顯下降。
中文為一字一音的單音節語言,若不計聲調變化,可將其分為415類單音;而若含四聲變化,則共有1,340種發音。本論文運用語音音框資料的梅爾頻率倒頻譜係數和線性預估倒頻譜係數之雙特徵參數計算,透過隱藏式馬可夫模型,建立單音特徵的統計模式,實作語音辨識系統。為能進一步提升中文辨識準確度,吾人利用聲調辨識系統加以輔助,針對中文四聲之音高進行統計分析,預估中文四聲聲調之二維統計模型,進而提升中文語音辨識系統的整體辨識率。
在CPU時脈2.7 GHz的Intel Core i5筆記型電腦與macOS Sierra的作業系統環境下,本論文所設計之語音辨識系統,其所需訓練時間能降低51.17%;而針對總資料筆數分別為194,512筆的二到六字詞語音搜尋系統與303,971筆的商號名稱搜尋系統,系統正確辨識率可分別達到93.59% 與95.11%。
Abstract
Speech recognition technology has been widely used in our daily life. Voice navigation system for vehicles and intelligent personal assistant for mobile phones are the products of its application. As the number of speech recognition users dramatically increases, how to improve the speech training efficiency becomes an objective that the system developers must constantly endeavor.
This thesis investigates the training efficiency improving strategy for Mandarin speech recognition system. Phonetically balanced and chained word selection is proposed to reduce the training size from 2,699 to 1,449 two-syllable words. A case study on business name querying system and phrase recognition system is used to demonstrate the effectiveness of this system. The experimental results indicate that the correct rates are not significantly decreased compared to those of the 2,699-word training method.
Mandarin Chinese is a mono-syllable language. It can be categorized into 415 monotonic classes without intonation, and 1,340 classes with intonation. In this thesis, Mel-frequency cepstral coefficients and linear predicted cepstral coefficients are used to extract the bi-parametric speech features. Hidden Markov model is then applied to estimate the probabilistic properties of each syllable and establish the real recognition system. A four-tone classifier is further designed to improve the system accuracy by the two dimensional pitch statistics of the tones.
Two databases of 194,512 Mandarin phrases and 303,971 business names are collected for system evaluation. The training time of the speech system using the proposed word set can be reduced by 51.17%. Under the Intel Core i5 notebook with 2.3 GHz CPU and the macOS Sierra operating system environment, the correct rates of 93.59% and 95.11% can be achieved respectively
目次 Table of Contents
論文審定書 i
致謝 ii
摘要 iii
Abstract iv
目錄 v
圖目錄 vii
表目錄 ix
第一章 緒論 1
1.1 研究動機 1
1.2 研究目的 2
1.3 論文章節概要 2
第二章 語音辨識系統及特徵模型建立 3
2.1音節端點偵測 3
2.1.1能量(Energy) 3
2.1.2越零率(Zero Crossing) 4
2.2語音訊號前處理 6
2.2.1高頻預強調(Pre-Emphasis) 6
2.2.2取音框(Framing)及加窗框(Windowing) 6
2.3特徵萃取 8
2.3.1梅爾頻率倒頻譜係數 8
2.3.2線性預估編碼(Linear Predictive Coding) 15
2.4隱藏式馬可夫模型(Hidden Markov model, HMM) 22
第三章 中文語音聲調辨識 30
3.1中文聲調簡介 30
3.2中文聲調變化 31
3.3聲調音高追蹤 35
3.3.1 音高計算方法 35
3.3.2有聲語音切割 37
3.4聲調模型建立 40
3.5語音聲調測試 42
3.6實驗實測 43
第四章 中文語詞辨識系統及其降低訓練量之策略 47
4.1軟硬體設備與開發平台 47
4.1.1硬體與軟體參數 47
4.1.2中文辨識系統簡介 48
4.2降低訓練量之研究 50
4.2.1訓練字詞挑選策略 50
4.2.2訓練字詞效能比較 52
4.3中文語詞系統效能 54
第五章 商號語音搜尋系統 55
5.1商號資料庫建立 55
5.2商號語音辨識系統輸入介紹 56
5.3商號語音辨識系統辨識效能 57
第六章 結論與未來展望 58
參考文獻 59
參考文獻 References
[1] D. Jurafsky and J. H. Martin, Speech and Language Processing, Pearson, 2009
[2] X. D. Huang, A. Acero and H. W. Hon, Spoken Language Processing, Pearson, 2005
[3] L. R. Rabiner, and R. W. Schafer, Theory and Aplications of Digital Speech Processing, Pearson, 2011
[4] W. C. Chu, Speech Coding Algorithms, Wiley, 2003
[5] 鄭靜宜, 語音聲學-說話聲音的科學, 心理出版社, 2011
[6] 王小川, 語音訊號處理, 全華圖書股份有限公司, 2009
[7] 國立台灣師範大學國音教材編輯委員會, 國音學, 正中書局股份有限公司, 2007
[8] 賴昭榮, 中文語音辨識系統降低訓練量之策略研究—以地址系統與二、三、四字詞系統為例, 中山大學碩士論文, 2008
[9] 維基百科, https://zh.wikipedia.org/.
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:自定論文開放時間 user define
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code