Responsive image
博碩士論文 etd-0812113-141215 詳細資訊
Title page for etd-0812113-141215
論文名稱
Title
英文與泰文文字語音辨識系統之設計研究
A Design of Bilingual Character and Speech Recognition System for English and Thai
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
66
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2013-07-10
繳交日期
Date of Submission
2013-09-12
關鍵字
Keywords
音位結構學、隱藏式馬可夫模型、文字語音辨識、二維傅立葉轉換、卡式轉換、梅爾頻率倒頻譜係數、線性預估倒頻譜係數、文字結構學
Character and speech recognition, Two-dimensional Fourier transform, Hidden Markov model, Karhunen-Loeve transform, Phonotactics, Mel-frequency cepstral coefficients, Linear predicted cepstral coefficients, Literal structure
統計
Statistics
本論文已被瀏覽 5710 次,被下載 153
The thesis/dissertation has been browsed 5710 times, has been downloaded 153 times.
中文摘要
英美兩國自十九世紀以來,無論在政治制度、經貿商業與軍事科技等領域,皆位於全球之領導地位。這樣的氛圍促使了英語成為當今世界上最為廣泛使用的語言。以英語為母語的人口數,約為3.28億人;而其非母語之使用人口數,當遠大於此。在這全球化的時代,不論是日常生活或是出國旅遊,英文已成為人際溝通的國際語言。泰國為東南亞國協的創始會員國之一,位於亞洲經濟帶的中心,由於受佛教影響甚深,境內擁有許多歷史悠久的佛教神廟;近年來,泰國致力於發展觀光產業,其已成為全球觀光客喜愛的旅遊地區。因此吾人希望建構一套英文泰文文字語音辨識系統,不僅能提供語言學習之用,更能支援出外旅遊之需。
本論文探討英文與泰文文字語音辨識系統之設計與實作策略。就文字辨識部份,吾人先蒐集英文、泰文兩種語言的常用辭彙做為資料庫,並將文字經過掃描、前處理與切割之後,分析其文字符號型式,最終歸納出英文52種、泰文240種的符號類型。系統針對每一種文字類型,使用五輪的掃描文稿做訓練,並以二維傅立葉轉換及卡式轉換,做特徵之萃取,最後運用文字結構學,來獲取最終答案。實作系統針對英文6,000筆與泰文4,200筆的常用辭彙資料庫,來做文字辨識,其辭彙正確率可分別達到95.83% 與94.05%。
在語音辨識部份,英文以所建立資料庫之6,000筆常用語詞,每個語詞錄製三輪作為訓練樣本;泰文則是針對資料庫4,200筆詞彙,分析其語音特性,歸納出180種單音類型,每個單音錄製五輪,作為訓練語料。線性預估倒頻譜係數與梅爾頻率倒頻譜係數,用來萃取訓練資料之雙特徵語音參數。測試者透過麥克風唸入英文及泰文詞彙,系統經由語詞雙特徵參數之萃取,透過隱藏式馬可夫模型與音位結構學的比對,其語詞辨識率可分別達到92.63% 與95.07%。
Abstract
United Kingdom and Unities States have been leading the world since the 19th century. Their roles in the political, economical and military arena make English the most widely used language in the world. The total population of native English speakers is about 328 million, while the number of non-native speakers is far more than that figure. In this globalization era, English has become an international language, that can be used in daily life or during vacation abroad. Thailand, located in the middle of Southeast Asia, is one of the founding members of the Association of Southeast Asian Nations. The country is deeply influenced by Buddhism and possesses many historical Buddhist temples. Recently, Tourism Authority of Thailand devotes herself to promoting Thailand one of the best countries for tourism. Hence, it is our objective to establish a bilingual character and speech recognition system for English and Thai to assist learning and to support traveling as well.
This thesis investigates the design and implementation strategies for a bilingual character and speech recognition system for English and Thai. For character recognition, common words of English and Thai are selected, scanned, preprocessed, segmented and then analysed. Five images for each of the 52 English and 240 Thai symbols are collected for training. Two-dimensional Fourier transform and Karhunen-Loeve transform are used for feature extraction. The literal structure of words is further applied to obtain the final answer. Correct recognition rates of 95.83% and 94.05% can be reached for 6,000 English and 4,200 Thai word databases respectively.
For speech recognition, three recordings for each of the 6,000 English words and five recordings for each of the 180 Thai mono-syllables, selected from the pronunciation properties of the 4,200 Thai words, are utilized for training. Linear predicted cepstral coefficients and Mel-frequency cepstral coefficients are then used to extract the bi-parametric speech features. The unknown test English or Thai utterance is recorded to the microphone, then the bi-parametric feature vectors are computed, finally hidden Markov model and phonotactic rules are applied to make the ultimate decision. Correct recognition rates of 92.63% and 95.07% can be gained for 6,000 English and 4,200 Thai word databases respectively.
目次 Table of Contents
論文審定書 i
誌謝 ii
摘要 iii
Abstract iv
目錄 v
圖次 viii
表次 ix
第一章 緒論 1
1-1 研究動機 1
1-2 研究目的 2
1-3 論文章節概要 2
第二章 英語、泰語語音學介紹 3
2-1 英文介紹 4
2-1-1 古代英語(五世紀中葉到十一世紀中葉) 5
2-1-2 中古英語(十一世紀晚期到十五世紀晚期) 5
2-1-3 近代英語(十五世紀晚期到十七世紀晚期) 6
2-1-4 現代英語(十七世紀晚期至今) 6
2-2 泰文介紹 7
2-3 英文文字學、語音學介紹 10
2-4 泰文文字學、語音學介紹 12
第三章 文字辨識系統架構與數學原理 19
3-1 辨識系統架構 19
3-2 影像前處理 20
3-2-1 歪斜校正 21
3-2-2 雜訊處理 24
3-2-3 影像切割 24
3-3 特徵萃取流程 25
3-3-1 二維離散傅立葉變換 25
3-3-2卡式轉換( Karhunen-Loeve Transform, KLT ) 26
第四章 語音辨識系統架構與數學原理 28
4-1 音節端點偵測 29
4-1-1 音框能量(Frame Energy) 29
4-1-2 越零率(Zero Crossing Rate) 30
4-2 特徵萃取前處理 31
4-2-1 高頻預強濾波器 31
4-2-2 加視窗 31
4-3 特徵萃取流程 33
4-3-1 梅爾頻率倒頻譜係數 34
4-3-2 線性預估倒頻譜係數 37
4-4 隱藏式馬可夫模型 42
4-4-1 估算狀態路徑機率 44
4-4-2 最佳狀態序列問題 47
4-4-3 模型參數估算問題 48
第五章 辨識系統之實驗結果 50
5-1 文字辨識系統 50
5-2 語音辨識系統 52
5-3 硬體設備與軟體規範 53
第六章 結論與未來展望 54
參考文獻 55
參考文獻 References
[1] 王小川,語音訊號處理,全華圖書出版社,民國98年
[2] 吳思遠,考遍天下無敵手10,000單字,和平圖書有限公司,民國101年
[3] 維基百科,http://zh.wikipedia.org/
[4] 目的達泰語教室,http://www.thai.idv.tw/
[5] 泰國文化教育部線上教學網,http://www.thai-language.com/
[6] 曾俋穎,國語、英語及越南語三語言語音辨識系統之設計研究,國立中山大學電機工程研究所碩士論文,2012
[7] 潘浩銘,國語、俄語及泰語三語言語音辨識系統之設計研究,國立中山大學電機工程研究所碩士論文,2012
[8] J. R. Deller, J. G. Proakis, and J. H. L. Hansen, Discrete-Time Processing of Speech Signal, IEEE Press, New York, 2000.
[9] Wai C. Chu, Speech Coding Algorithms, Wiley Interscience, US, 2003.
[10] Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm and System Development Pearson Education Taiwan Ltd, 2005.
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:自定論文開放時間 user define
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code