Responsive image
博碩士論文 etd-0910112-155905 詳細資訊
Title page for etd-0910112-155905
論文名稱
Title
國語、阿拉伯語及荷蘭語三語言語音辨識系統之設計研究
A Design of Trilingual Speech Recognition System for Chinese, Arabic and Dutch
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
64
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2012-07-25
繳交日期
Date of Submission
2012-09-10
關鍵字
Keywords
語音辨識、梅爾頻率倒頻譜係數、音位結構學、隱藏式馬可夫模型、線性預估倒頻譜係數
Linear predicted cepstral coefficients, Mel-frequency cepstral coefficients, Hidden Markov model, Phonotactics, Speech recognition
統計
Statistics
本論文已被瀏覽 5661 次,被下載 270
The thesis/dissertation has been browsed 5661 times, has been downloaded 270 times.
中文摘要
國語與阿拉伯語同為聯合國六大工作語言之一,且以國語為母語的使用人口多達12億,是世界上使用人口最多的語言;阿拉伯語主要通行於阿拉伯世界,有超過2,800年的歷史,其宗教與文化對世界的影響,極為深遠。今天我們經濟發展與日常生活所需的能源,一大部分需仰賴阿拉伯國家的石油出口,可說全球的經濟,皆與阿拉伯世界息息相關;荷蘭語的使用人口雖不如上述二種語言,但自古荷蘭便貿易興盛,時至今日,其已為西方工業強國,歐洲各國的大型企業,紛紛爭相駐點設廠。近年留學歐洲之風氣漸起,荷蘭境內有許多優秀的大學提供進修。由上所述,吾人希望能建立一套三語言語音辨識系統,能幫助外國人學習國語,並對博大精深的中華文化有所了解,亦能讓國人方便學習阿拉伯語與荷蘭語,同時對阿拉伯與荷蘭之歷史文化能有所認識。
本論文主要探討國語、阿拉伯語與荷蘭語三語言語音辨識系統之設計與實作策略。吾人是以錄製一輪2,699個兩字語詞之語音庫,來作國語辨識系統之訓練依據,而對阿文與荷文之訓練語料,則依照其各別之發音規則,分別挑選出396及205個常用單音節,每個單音節以陰平去聲,兩種不同聲調,錄製五輪共十次的聲紋特性作為訓練語料。系統先以梅爾頻率倒頻譜係數與線性預估倒頻譜係數來萃取單音節之雙特徵參數,再運用隱藏式馬可夫模型,來作單音之辨識,最後經由音位結構學,判定出正確之語詞。本論文實作了國語8,2000筆、阿拉伯語31,000筆、荷蘭語3,600筆之常用語詞辨識系統,以及上述三種語言各100筆、共300筆常用語詞之語言/語詞辨識系統。四個系統的正確辨識率,可分別達到90.17%、84.65%、86.69% 與98.67%,而系統之平均辨識時間約為2秒。
Abstract
Chinese as well as Arabic is one of the six official languages in the United Nations. The population of Chinese is over 1.2 billion, ranked number one in the world. Arabic, a language used in the Arab World, has a more than 2,800 year history. Her religion, culture and oil economy have been making far-reaching effects around the globe. The worldwide energy supply greatly relies on the petroleum from the Arab World. Netherland, whose official language is Dutch, has been an international trading power since ancient time. She has become an industrial giant today. Recently, European-study-abroad is getting more popular, many famous Netherland universities offer opportunities for foreign students. Therefore, it is our objective to design a trilingual speech recognition system to help us learn Chinese, Arabic and Dutch, as well as appreciate their profound history and beautiful culture.
This thesis investigates the design and implementation strategies for a Chinese, Arabic and Dutch speech recognition system. A 2,699 two-syllable recorded words database is utilized as the Chinese training corpus. For the Arabic and Dutch systems, 396 and 205 common mono-syllables are selected respectively as the major training and recognition methodology. Each mono-syllable is uttered twice with tone 1 and tone 4, and ten training patterns are used for system implementation. Mel-frequency cepstral coefficients, linear predicted cepstral coefficients, hidden Markov model and phonotactics are applied as the two syllable feature models and the recognition model respectively. The correct recognition rates of 90.17%, 84.65%, and 86.69% can be reached for the 82,000 Chinese, 31,000 Arabic, and 3,600 Dutch phrase databases respectively. Furthermore, a trilingual language-speech recognition system for 300 common words, composed of 100 words from each language, is developed. A 98.67 % correct language-phrase recognition rate can be obtained. The computation time for each system is about 2 seconds.
目次 Table of Contents
論文審定書 i
誌謝 ii
摘要 iii
Abstract iv
目錄 v
圖次 viii
表次 ix
第一章 緒論 1
1-1 研究背景與動機 1
1-2 研究目的與方法 2
1-3 論文章節概要 2
第二章 基本語音學介紹 4
2-1 國語簡介 4
2-1-1 語系與使用地區 4
2-1-2 語系與使用地區 5
2-2 阿拉伯語簡介 6
2-2-1 語系與使用地區 6
2-2-2 阿文字母介紹 8
2-2-3 子、母音發音規則 9
2-2-4 重音與音節判別 11
2-3 荷蘭語簡介 12
2-3-1 語系與使用地區 13
2-3-2 荷文字母介紹 15
2-3-3 子、母音發音規則 16
2-3-4 重音與音節判斷 19
第三章 語音辨識相關技術與數學原理 20
3-1 前處理之音節切割 20
3-1-1 音框能量 20
3-1-2 越零率 21
3-1-3 線性預估係數誤差能量 21
3-2 雙特徵參數萃取流程 22
3-2-1 特徵萃取前處理 22
3-2-2 線性預估倒頻譜係數 24
3-2-3 梅爾頻率倒頻譜係數 28
3-3 隱藏式馬可夫模型 32
3-3-1 HMM之參數介紹 32
3-3-2 HMM遭遇之問題與解法 34
第四章 辨識系統架構流程與訓練策略 40
4-1 模擬文本資料庫之建立 41
4-2 單音模型之挑選與訓練策略 43
4-2-1 國語 43
4-2-2 阿拉伯語 44
4-2-3 荷蘭語 46
第五章 辨識系統實作與評析 48
5-1 國語常用語詞辨識系統 48
5-2 阿文常用語詞辨識系統 48
5-3 荷文常用語詞辨識系統 49
5-4 三國常用語詞辨識系統 50
5-5 硬體架構參數與規範 51
第六章 結論與未來展望 52
參考資料 53
參考文獻 References
[1] SIL, http://www.sil.org/
[2] http://www.dutchgrammar.com/zh_tw/index/php
[3] 維基百科,http://zh.wikipedia.org/
[4] 阿拉伯線上,http://arabic.tripod.com/
[5] 李生俊, 簡易實用阿拉伯語三百句, 三思堂, 民國90年
[6] 利傳田, 空中阿拉伯語, 冠唐國際圖書, 民國86年
[7] 利傳田, 初學阿拉伯文文法, 秀威資訊科技, 民國97年
[8] 王小川,語音訊號處理,全華圖書出版,民國93年。
[9] 楊佳惠,荷蘭語會話暨文法自修專書,秀威資訊科技,民國96年
[10] Marc van Oostendorp, Meertens Instituut, Topics in the phonology of Dutch, Amsterdam, 2006
[11] Carlos Gussenhoven, Vowel duration, syllable quantity and stress in Dutch, Centre for Language Studies, University of Nijmegen, 2000
[12] Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon, Spoken Language Processing A Guide to Theory, Algorithm and System Development, Pearson Education Taiwan Ltd, 2005.
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:自定論文開放時間 user define
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code