Responsive image
博碩士論文 etd-0812113-065034 詳細資訊
Title page for etd-0812113-065034
論文名稱
Title
中日韓印葡阿六國語音辨識系統之設計與研究
A Design of Hexa-Lingual Speech Recognition System for Chinese, Japanese, Korean, Hindi, Portuguese and Arabic
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
93
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2013-07-10
繳交日期
Date of Submission
2013-09-12
關鍵字
Keywords
線性預估倒頻譜係數、音位結構學、隱藏式馬可夫模型、梅爾頻率倒頻譜係數、語音辨識
Speech recognition system, Phonotactics, Hidden Markov model, Linear predictive cepstral coefficients, Mel-frequency cepstral coefficients
統計
Statistics
本論文已被瀏覽 5717 次,被下載 140
The thesis/dissertation has been browsed 5717 times, has been downloaded 140 times.
中文摘要
中國擁有超過四千年之歷史,是世界上人口最多的國家。中文為中國的官方語言,根據統計,全球有五分之一的人口以中文為母語,其使用人口更高達12億人。日本、韓國與印度,分別位於東北亞與南亞。由於地理位置的關係,從漢代開始,中華文化便陸續傳入日本、韓國與印度。南北朝的北魏時,印度佛教傳入中國,對中國的政治管理與庶民生活,產生了宏大的影響。日文的平假名與片假名,便是依循著中文的文字演化而來,韓文的發音甚至有70%與中文發音相近。而使用阿拉伯文的阿拉伯世界,為世界主要的石油出口區,掌握了世界經濟的命脈。位處於西歐的葡萄牙,在十五、十六世紀時,是歐洲經濟與軍事的強權;因為曾向外進行殖民擴張統治,世界各地許多地區都使用葡萄牙文。依據美國桑默語言學院的世界語言使用人口統計排名,除了韓語,中日印葡阿五種語言皆排名於前十名。有鑑於此,本論文設計並實作了中日韓印葡阿六國語音辨識系統,不僅可供國人學習六種語言與出國旅遊之用,同時亦能增進對六國文化之了解。
本系統依據六國語音學之發音規則,分別設計各語言單音訓練之策略。訓練方式為國語錄製一輪2,699筆語詞,日語錄製一輪1,165筆語詞,韓語、印地語、葡萄牙語與阿拉伯語四種語言,則考量發音時重音及連音兩因素之影響,以一次錄製兩個不同聲調之二字詞方式,並採取三輪六次之策略,來進行訓練。辨識系統運用線性預估倒頻譜係數及梅爾頻率倒頻譜係數,來萃取語音聲紋之雙特徵參數,並透過隱藏式馬可夫模型及音位結構學之架構,辨識出正確之語詞。在時脈2.5 GHz Intel Core2 Quad之個人電腦與Ubuntu 10.04之作業系統環境下,針對中日韓印葡阿,六國語言各約2,500筆之常用語詞,吾人可獲得94.06%之正確語言別辨識率,及92.12%之正確語詞辨識率,而系統之平均辨識時間約為1.5秒。
Abstract
China has a history of more than four thousand years, and is the most populous country in the world. Chinese is the official language of China, whose native speakers occupy approximately one fifth of the global population, i.e., more than 1.2 billion people. Japan, Korea and India, located in Northeast and Southern Asia respectively, have imported Chinese culture since the Han Dynasty. Due to the geographical proximity, Japanese Hiragana and Katakana are mostly evolved from Chinese characters. The pronunciation of about 70% Korean characters is similar to their Chinese counterpart. Moreover, the Indian Buddhism came to China during the Northern Wei Dynasty, and greatly affected the philosophy of Chinese political management and common people’s living. Arabic, used in the Arab world, the major oil exporting region, still masters the global economy today. Portugal, located in the Western Europe, was the European economic and military Superpower between the 15th and 16th century. Since she ruled out for colonial expansion those days, many regions around the world are using Portuguese. According to the statistics of native speakers of languages, published by American Summer Institute of Linguistics, Chinese, Japanese, Hindi, Portuguese and Arabic, excluding Korean, ranked top ten in population. Therefore, a hexa-lingual speech recognition system is designed and implemented in this thesis, not only to help person to learn six languages for traveling abroad, but also to promote cultural understanding for the six countries.
In this system the training strategies are developed from the phonetic rules of each language. Two databases of 2,699 two-syllable words and 1,165 two-syllable words are established for training Chinese and Japanese respectively. For the Korean, Hindi, Portuguese and Arabic systems, a three-round, six-pattern recording strategy is used. Mel-frequency cepstral coefficients, linear predicted cepstral coefficients, hidden Markov model and phonotactics rules are applied as the two syllable feature models and the recognition model respectively. Under the 2.5 GHz Intel Core2 Quad PC and Ubuntu 10.04 operating system environment, a 94.06% correct language recognition rate, and a 92.12% correct word recognition rate can be reached for the hexa-lingual speech recognition system. The implemented system consists of 2,500 common words for each language, and its recognition time is about 1.5 seconds.
目次 Table of Contents
論文審定書 i
誌謝 ii
摘要 iii
Abstract iv
圖次 viii
表次 x
第一章 緒論 1
1-1 研究動機 1
1-2 研究目的 2
1-3 章節概要 2
第二章 語音學簡介 4
2-1 國語簡介 6
2-1-1 國語語系發展 6
2-1-2 國語文字介紹及發音規則 7
2-2 日語簡介 9
2-2-1 日語語系發展 9
2-2-2 日文文字介紹及發音規則 10
2-3 韓語簡介 14
2-3-1 韓語語系發展 14
2-3-2 韓語文字介紹及發音規則 15
2-4 印地語簡介 18
2-4-1 印地語系發展 18
2-4-2 印地語文字介紹及發音規則 19
2-5 葡萄牙語簡介 23
2-5-1 葡萄牙語語系發展 23
2-5-2 葡萄牙語文字介紹及發音規則 24
2-6 阿拉伯語簡介 30
2-6-1 阿拉伯語系發展 30
2-6-2 阿拉伯語文字介紹及發音規則 31
第三章 語音辨識系統架構 36
3-1 音節之端點偵測 37
3-1-1 能量 37
3-1-2 越零率 38
3-2 特徵萃取前處理 39
3-2-1 預強 39
3-2-2 加視窗 39
3-3 特徵萃取 41
3-3-1 梅爾頻率倒頻譜參數 41
3-3-2 線性預估倒頻譜參數 44
3-4 隱藏式馬可夫模型 50
3-4-1 隱藏式馬可夫模型參數之定義 51
3-4-2 隱藏式馬可夫模型訓練過程 52
3-5 音位結構學與音韻結構學 56
第四章 語音辨識系統訓練策略及效能評析 57
4-1 國語辨識系統 57
4-2 日語辨識系統 59
4-3 韓語辨識系統 61
4-4 印地語辨識系統 63
4-5 葡萄牙語辨識系統 65
4-6 阿拉伯語辨識系統 67
4-7 中日雙語語音辨識系統 69
4-8 中韓雙語語音辨識系統 71
4-9 中日韓三國語音辨識系統 73
4-10 中日韓印葡阿六國語音辨識系統 75
第五章 結論及未來展望 77
參考文獻 78
參考文獻 References
[1] 維基百科,http://zh.wikipedia.org/
[2] 王小川,語音訊號處理,全華,民國93年
[3] 戶田昌幸、黃國彥,日語語音學入門,鴻儒堂出版社,民國80年
[4] 黃華章,華人的日語語音學,致良出版社,民國93年
[5] 王俊,韓語語音學,水牛圖書出版,民國82年
[6] 簡江作,最新韓國語會話,國立編譯館,民國91年
[7] 劉安五,印度印地語文學史,人民文學出版社,民國76年
[8] 殷洪元,印地語語法,北京大學出版社,民國82年
[9] 王鎖瑛,葡萄牙語語法,上海外語教育出版社,民國88年
[10] 李森,基礎葡萄牙語,統一出版社,民國97年
[11] 利傳田,簡易實用阿拉伯語三百句,三思堂,民國90年
[12] 利傳田,初學阿拉伯文文法,秀威資訊科技,民國97年
[13] Lewis, M. Paul, Ethnologue: Languages of the World, Sixteenth edition, SIL International, 2009
[14] Morii, S., K. Niyada, S. Fujii and M. Hoshimi.. Large Vocabulary Speaker Independent Japanese Speech Recognition System. In Proceedings of Icssp-ieee International Conference on Acoustics, Speech, and Signal Processing, 1985
[15] Kim, H. L., Kim, D. H., Ryu, Y. S. and Kim, Y. K. A study on pitch detection using the local peak and valley for Korean speech recognition. in IEEE TENCON '96. Proceedings, 1996
[16] M Kumar., et al. A Large Vocabulary Continuous Speech recognition system for Hindi, IBM Research and Development Journal, 2004.
[17] Daniel Jurafsky, James H. Martin, Speech and Language Processing, Prentice Hall, Taiwan, 2009.
[18] Wai C. Chu, Speech Coding Algorithms, Wiley Interscience, US, 2003.
[19] Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm and System Development Pearson Education Taiwan Ltd, 2005.
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:自定論文開放時間 user define
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code