Responsive image
博碩士論文 etd-0812113-133018 詳細資訊
Title page for etd-0812113-133018
論文名稱
Title
中文與印地文文字語音辨識系統之設計研究
A Design of Bilingual Character and Speech Recognition System for Chinese and Hindi
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
69
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2013-07-10
繳交日期
Date of Submission
2013-09-12
關鍵字
Keywords
隱藏式馬可夫模型、二維傅氏轉換、卡式轉換、梅爾頻率倒頻譜係數、線性預估倒頻譜係數、文字語音辨識
Hidden Markov model, Mel frequency cepstral coefficients, Two-dimensional Fourier transform, Karhunen-Loeve transform, Character and speech recognition, Linear predictive cepstral coefficients
統計
Statistics
本論文已被瀏覽 5692 次,被下載 141
The thesis/dissertation has been browsed 5692 times, has been downloaded 141 times.
中文摘要
中文在全世界共有超過十二億的母語使用人口,為所有語言之冠;且中國已於2010年起依國內生產總額排名,進入世界前兩大經濟體,僅次於美國,並大幅領先第三名的日本兩倍以上。中文之重要性,於此不可言喻。印度近年來在各領域的發展,極為快速,尤其目前在軟體與電信相關產業,更是一片蓬勃。由於便宜的人力資源與流暢的英語能力,許多國外企業都將資管軟體與客服系統外包給印度,使她於2013年名列世界第八大經濟體。印地語為印度使用人數最多的本土官方語言,有超過1.95億的母語人口。中國和印度,皆為金磚五國之成員,擁有龐大的市場與商機,使許多國家紛紛向這兩個地區投資,兩國也與台灣在經貿上的往來日益密切。中文與印地文之世界使用人口,合計超過13.95億人,約佔世界總人口的20%。吾人希冀建立一套中文與印地文之文字語音辨識系統,來達到學習語言,增廣見聞,與拓展經貿之目的。
本論文探討中文與印地文文字語音辨識系統之設計與實作策略。 文字部分,系統採用二維傅氏轉換與卡式轉換,來萃取影像特徵。在CPU時脈1.3 GHz 的Intel Core i5筆記型電腦與Windows 7作業系統環境下,針對中文四千筆與印地文五千筆詞彙,吾人運用兩次訓練之策略,系統文字正確辨識率可分別達到94.5% 和99.04%。 語音部分,吾人運用梅爾頻率倒頻譜係數與線性預估倒頻譜係數,來萃取語音特徵,並使用三輪之訓練架構。在CPU 時脈2.2 GHz的AMD Athlon XP 2800+ 個人電腦Ubuntu 9.04作業系統環境下,針對中文七千筆和印地文六千筆語詞,系統語詞正確辨識率可分別達到91.6% 及92%。
Abstract
Chinese has more than 1.2 billion native speakers, ranks first among all languages in the world. Moreover, China has been the second largest economical group around the globe since 2010, whose gross domestic product (GDP) was lower than that of the preceding U.S., but much higher than twice of the succeeding Japan’s. The importance of Chinese is obvious and unquestionable. The recent progress in India is significant, especially in the field of telecommunication and information software. Many foreign companies outsource their information management and customer service systems to India because of her lower labor cost and fluent English capability. This makes India the eighth largest economical group in the world in 2013. Hindi, the most populous and the first official language used in India, has more than 195 million of native speakers. China and India, both members of the BRICS, possess tremendous market and business opportunity. Investments from countries around the world, including Taiwan, have been flourishing. The population of these two languages is more than 1.395 billion, and about one fifth of the all world. It is our hope to establish a character and speech recognition system for Chinese and Hindi to learn the languages, to widen our perspectives and to promote the economy as well.
In this thesis, both character and speech recognition systems are designed and implemented for Chinese and Hindi. Two-dimensional Fourier transform and Karhunen-Loeve transform are used to extract the character features. Two-pattern strategy is then applied in the training process. Under the 1.3 GHz Intel Core i5 PC and Windows 7 operating system environment, correct character recognition rates of 94.5% and 99.04% can be reached respectively for the 4,000 Chinese word and 5,000 Hindi word databases. Mel-frequency cepstral coefficients and linear predicted cepstral coefficients are utilized for the speech feature extraction. Three-pattern training is then used to tune the template. Under the 2.2 GHz AMD Athlon XP 2800+ PC and Ubuntu 9.04 operating system environment, correction speech recognition rates of 91.6% and 92% can be obtained respectively for the 7,000 Chinese phrase and 6,000 Hindi phrase databases.
目次 Table of Contents
論文審定書 b
誌謝 i
摘要 ii
Abstract iii
目錄 iv
圖次 vii
表次 ix
第一章 緒論 1
1.1 研究動機 1
1.2 研究目的 2
1.3 論文章節概要 2
第二章 中印兩國語言簡介 3
2.1 中文介紹 3
2.2 印地文介紹 6
2.2.1 語系概覽 6
2.2.2 印地語言文字起源與發展 8
2.3 印地文發音介紹 9
2.3.1 母音發音規則 10
2.3.2 子音發音規則 10
2.3.3 語音符號 12
2.3.4 母合寫發音 13
2.3.5 音節與重音 13
2.4 印地文文字學 14
2.4.1 字母書寫筆畫順序 15
2.4.2 字母組合之變化規則 15
第三章 語音辨識系統的流程及數學架構 17
3.1 音節切割 18
3.1.1 音框能量 18
3.1.2 越零率 19
3.1.3 線性預估係數誤差能量 19
3.2 特徵萃取方法 21
3.2.1 語音訊號前處理 21
3.2.2 梅爾頻率倒頻譜係數 24
3.2.3 線性預估倒頻譜係數 29
3.3 隱藏式馬可夫模型 33
3.3.1 估算狀態機率問題 35
3.3.2 最佳狀態序列問題 38
3.3.3 模型參數估算問題 40
第四章 影像辨識系統的流程與數學架構 41
4.1 影像資料儲存格式介紹 42
4.2 前處理 42
4.2.1 轉換位元 42
4.2.2 旋轉 43
4.2.3 去除雜訊 45
4.2.4 切割文字 46
4.3 特徵萃取 48
4.3.1 二維傅立葉轉換 48
4.3.2 卡式轉換 51
第五章 系統實作及模擬 53
結論與未來展望 56
參考文獻 57
參考文獻 References
[1] 維基百科,http://zh.wikipedia.org/
[2] 金鼎漢,印地語基礎教程-第1冊,北京大學出版社,民國81年。
[3] 劉安武,印度印地語文學史,人民文學出版社,民國76年。
[4] 殷洪元,印地語語法,北京大學出版社,民國82年。
[5] SIL, http://www.sil.org/
[6] Omniglot, http://www.omniglot.com/
[7] Thomas F. Quatieri, Discrete Time Speech Signal Processing Principles and Practice, Pearson , Taiwan, 2003.
[8] Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon, Spoken Language Processing A Guide to Theory, Algorithm and System Development, Pearson Education Taiwan Ltd, 2005.
[9] Wai C. Chu, Speech Coding Algorithms :Foundation and evolution of standardized coders, John Wiley & Sons, Taiwan, 2003.
[10] http://www.avashy.com/hindiscripttutor.htm
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:自定論文開放時間 user define
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code