Responsive image
博碩士論文 etd-0910112-144047 詳細資訊
Title page for etd-0910112-144047
論文名稱
Title
國語、俄語及泰語三語言語音辨識系統之設計研究
A Design of Trilingual Speech Recognition System for Chinese, Russian and Thai
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
76
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2012-07-25
繳交日期
Date of Submission
2012-09-10
關鍵字
Keywords
隱藏式馬可夫模型、音位結構學、線性預估倒頻譜係數、語音辨識、梅爾頻率倒頻譜係數
Hidden Markov model, Mel-frequency cepstral coefficients, Linear predicted cepstral coefficients, Phonotactic, Speech recognition
統計
Statistics
本論文已被瀏覽 5684 次,被下載 625
The thesis/dissertation has been browsed 5684 times, has been downloaded 625 times.
中文摘要
經濟成長率是一個國家生產力總值的代表。中國、俄羅斯與泰國是世界少數經濟成長率高於全球平均值的幾個國家。中國在經濟發展方面,實力迅速攀升,不但與台灣關係日益密切,且與俄羅斯同為金磚五國的成員。俄羅斯在國際間具有舉足輕重的地位,不但為世界八大工業成員國之一,俄文也和中文同為聯合國六大官方語言;另外,根據統計,台灣對外投資基金成長幅度最多的兩個國家,分別為俄羅斯與泰國。泰國位居東南亞半島的中心,與馬來西亞、菲律賓為東協十國的三個創始成員國。國內因應產業需求,更是開放泰國等東南亞國家的外籍勞工,申請進入台灣,從事土木營建與家居勞務等工作。有鑑於此,吾人希望能設計出一套國語、俄語與泰語之三國語音辨識系統,以增進外語學習與生活需求的便利性。
本系統根據三語言之發音規則,分別挑選出國語404類、俄語611類及泰語123類的常用單音節,作為語詞訓練與辨識之基礎。系統運用梅爾頻率倒頻譜係數與線性預估倒頻譜係數,作單音節雙特徵參數之萃取,並以隱藏式馬可夫模型的或然率排序,挑選出最佳的單音類別,最後再依音位結構學的交叉比對,辨識出最佳結果。針對82,000筆國語、31,883筆俄語及3,809筆泰語常用語詞資料庫,系統正確辨識率可分別達到88.87%、84.31% 與87.58%。另外,站在多國語言辨識的觀點上,吾人選取上述三語言各100筆之常用語詞,實作了一個300筆常用三國語詞之辨識系統,其語言與語詞之正確辨識率可達98.66%。
Abstract
Economy growth rate is an index of a nation’s gross productivity. China, Russia and Thailand are a few nations whose economy growth rates exceed the global average. In the recent years, the rapid development in China, including the enhanced relation with Taiwan, has made her the member of the BRICS, the top five emerging countries in the world. Russia has been playing an important role in the international society during the past decades. She is not only the member of the G8, the group of eight major industrial nations, but also her language, Russian, is one of the six official languages in the United Nations. According to the statistics of the Taiwan Funds, Russia and Thailand are the top two countries in their investment growth. Thailand, located in the middle of the Southeast Peninsular, together with Malaysia and Philippines, are the three founding members of the ASEAN 10, the Association of Ten Southeast Asian Nations. Due to the industrial and household needs, Taiwan has offered job opportunities to foreign labors from the Southeast countries. Therefore, it is our objective to design a trilingual speech recognition system for Chinese, Russian and Thai to meet the needs of language learning and household living.
This system utilizes 404 Chinese, 611 Russian and 123 Thai common mono-syllables, selected from their pronunciation rules, as the major speech training and recognition methodology. Mel-frequency cepstral coefficients, linear predicted cepstral coefficients, and hidden Markov model are used as the two syllable feature models and the recognition model respectively. Under the AMD 2.2 GHz Athlon XP 2800+ personal computer and Ubuntu 9.04 operating system environment, the correct phrase recognition rates of 88.87%, 84.31% and 87.58% can be reached using phonotactical rules for the 82,000 Chinese, 31,883 Russian and 3,809 Thai phrase database respectively. Furthermore, a trilingual language-speech recognition system for 300 common words, composed of 100 words from each language, is developed. A 98.66% correct language-phrase recognition rate can be obtained.
目次 Table of Contents
論文審定書 i
誌謝 ii
摘要 iii
Abstract iv
目錄 v
圖次 viii
表次 ix
第一章 緒論 1
1-1 研究背景 1
1-2 研究動機 2
1-3 研究內容 3
1-4 論文大綱 4
第二章 國語、俄語與泰語之語音學 5
2-1 語系概覽 5
2-1-1 國語語言支系 5
2-1-2 俄文語言支系 6
2-1-3 泰文語言支系 7
2-2 國語簡介 8
2-3 俄羅斯與俄文 9
2-3-1 俄語使用概況 9
2-3-2 俄文字母 10
2-3-3 俄語發音規則 11
2-4 泰國與泰文 14
2-4-1 泰國歷史文化 14
2-4-2 泰語概況 16
2-4-3 泰文字母 17
2-4-4 泰語發音規則 20
第三章 語音辨識系統之流程與數學理論 25
3-1 前處理過程 26
3-1-1 音節切割 26
3-1-2 高頻預強濾波器 30
3-1-3 加視窗 30
3-2雙語音特徵參數之萃取 32
3-2-1 線性預估倒頻譜係數 32
3-2-2 梅爾頻率倒頻譜係數 39
3-3隱藏式馬可夫模型 44
3-3-1估算狀態機率 46
3-3-2 最佳狀態序列 49
3-3-3 模型參數估算 52
第四章 辨識系統之單音訓練決策 55
4-1 單音選取與詞彙資料庫建立 56
4-1-1 中文單音與詞彙資料 56
4-1-2 俄文單音與詞彙資料 57
4-1-3 泰文單音與詞彙資料 58
4-2 單音訓練之決策 59
4-2-1 俄文錄製單音輪數與辨識率 59
4-2-2 泰文錄製單音輪數與辨識率 60
4-3 硬體規範與軟體規範 61
第五章 系統實作成果與辨識效能 62
第六章 結論與未來展望 65
參考文獻 66
參考文獻 References
[1] 周鼎、徐振新,俄語發音入門,台北:旺文社,1995[民84]。
[2] 李文婷,快速學會說泰語.單字篇,台北縣新店市:三思堂文化出版2005[民94]。
[3] Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm and System Development, Pearson Education Taiwan Ltd, 2005.
[4] 朱振明,泰國•獨特的君主立憲制國家,香港城市大學出版社,2006[民95]。
[5] 周雪舫,俄羅斯史:謎樣的國度,台北:三民書局,2005[民94]。
[6] 全球台商服務網,http://twbusiness.nat.gov.tw/
[7] 維基百科,http://zh.wikipedia.org/
[8] 泰國文化教育部線上教學網,http://www.thai-language.com/
[9] Ethnologue Languages of the World,http://www.ethnologue.com/home.asp
[10] Omniglot,http://www.omniglot.com/writing/thai.htm
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:自定論文開放時間 user define
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code