Responsive image
博碩士論文 etd-0910112-163352 詳細資訊
Title page for etd-0910112-163352
論文名稱
Title
國語、客語及瑞典語三語言語音辨識系統 之設計研究
A Design of Trilingual Speech Recognition System for Chinese, Hakka and Swedish
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
63
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2012-07-25
繳交日期
Date of Submission
2012-09-10
關鍵字
Keywords
線性預估倒頻譜係數、隱藏式馬可夫模型、音位結構學、語音辨識系統、梅爾倒頻譜係數
Linear predicted cepstral coefficients, Phonotactics, Hidden Markov model, Speech recognition, Mel-frequency cepstral coefficients
統計
Statistics
本論文已被瀏覽 5635 次,被下載 389
The thesis/dissertation has been browsed 5635 times, has been downloaded 389 times.
中文摘要
根據美國桑默語言學院的統計,全世界有將近7,000種語言。而國語、客語與瑞典語三種語言之使用人口,皆排名在前百名之內。國語是台灣、大陸、香港與澳門兩岸四地所共通的語言。客語為國內第二大方言,其使用人口僅次於台語。客家人的祖先,為河南的中原漢族;經過長期大量遷移所孕育而成的客家文化,今日已成為傳統文化的代表。台灣與瑞典皆名列已開發國家,同為自由民主的國度,生活水平相當接近。瑞典人的祖先來自古日耳曼民族;現在的瑞典,也是經過長期大量的遷徙,才造就其今日之規模,而其語言的形成,與國語和客語之背景,皆有極為相似之處。隨著全球化的經貿發展,多國語言系統,必將成為未來的走向。
本論文探討國語、客語及瑞典語,三語言語音辨識系統之設計與實作策略。吾人依各語言之發音規則,分別挑選出404種國語、204種客語及369種瑞典語常用單音節,來作語音系統訓練與辨識之基礎。國語使用2,699筆常用二字語詞來作訓練之樣本;客語與瑞典語,則分別採用五輪四調與六輪二調之訓練策略。系統針對82,000筆國語、3,900筆客語及3,750筆瑞典語語詞資料庫,本系統之正確辨識率,可分別達到92.29%, 90.70% 與89.09%。吾人並於上述之訓練架構下,建置一套三語言辨識系統,各選取100筆各個語言之常用語詞,對此300筆資料,作語言別及語詞正確與否之判定,系統之正確辨識率可達98.67%。各系統所需之平均辨識時間,皆在2秒以內。
Abstract
According to the statistics of Summer Institute of Linguistics, USA, there are about 7,000 languages in the world. Chinese, Hakka and Swedish are all the first 100 most popular languages. Chinese is spoken in Taiwan, Mainland China, Hong Kong and Macau. Hakka is the second popular dialect in Taiwan. The population is only less than that of Taiwanese. The ancestors of Hakka are from the Han people in Honan, China. Hakka culture has been cultivated by enormous migrations since the fourth century, and transformed to represent the tradition. Taiwan and Sweden are developed, free and democratic countries, with similar level of living standard. The ancestors of Sweden are from the Germanic peoples in Northern Europe. Swedish has been also evolved and transformed by massive migrations since the ninth century, sharing the analogous evolution route with Chinese and Hakka. Therefore, it is our objective to establish a trilingual speech recognition system to help verbal communication among languages in the global economic arena.
This thesis investigates the design and implementation strategies for a trilingual speech recognition system for Chinese, Hakka and Swedish. Based on their pronunciation rules, the 404 Chinese, 204 Hakka and 369 Swedish common mono-syllables are selected as the major speech training and recognition methodology. A 2,699 two-syllable words database is recorded as the Chinese training corpus. The five rounds with four tones and six rounds with two tones training strategies are used for Hakka and Swedish respectively. Correct rates of 92.29%, 90.70% and 89.09% can be reached for the 82,000 Chinese, 3,900 Hakka and 3,750 Swedish phrase database respectively. Besides, a trilingual language-speech recognition system for 300 common words, composed of 100 words from each language, is developed. A 98.67% correct language-phrase recognition rate can be obtained. The average computation time for each system is within 2 seconds.
目次 Table of Contents
論文審定書 i
摘要 ii
Abstract iii
目錄 iv
圖次 vii
表次 viii
第1章 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 論文大綱 3
第2章 語音學介紹 4
2.1 發音語音學 4
2.2 國語語音學介紹 5
2.3 客家語音學介紹 7
2.3.1 客家語概論 7
2.3.2 客家語發音介紹 8
2.3.3 客家語發音規則 10
2.4 瑞典語音學介紹 11
2.4.1 瑞典語概論 11
2.4.2 瑞典語發音介紹 12
2.4.3 瑞典語發音規則 15
第3章 語音辨識原理之算學推導 18
3.1 語音前處理 18
3.1.1 音節切割 18
3.1.2 音訊預處理 19
3.2 雙特徵參數的介紹 22
3.2.1 線性預估倒頻譜係數 22
3.2.2 梅爾倒頻譜係數 28
3.3 隱藏式馬可夫模型 32
3.3.1 估算路徑機率 33
3.3.2 最佳狀態序列 36
3.3.3 模型參數之估算 37
第4章 辨識系統之流程架構 39
4.1 辨識系統流程 39
4.2 國語單音模型的選取 41
4.3 客語單音模型的選取 43
4.4 瑞典語單音模型的選取 45
4.5 軟硬體規格及參數設定 47
第5章 系統實作與效能 48
5.1 國語辨識系統 48
5.2 客語辨識系統 49
5.3 瑞典語辨識系統 50
5.4 三國辨識系統 51
第6章 結論與未來展望 52
參考文獻 53
參考文獻 References
[1] 維基百科,http://zh.wikipedia.org/
[2] Ethnologue Languages of the World,http://www.ethnologue.com/home.asp
[3] 羅肇錦,台灣的客家話,協和藝術文化基金會出版,民國79年
[4] 古國順,台灣客語概論,五南出版,民國94年
[5] 陳照雄,瑞典教育制度,心理出版,民國98年
[6] 瑞典語,http://myronutforskern.blogspot.tw/2010/02/swedish-pronunciation-guide.htm
[7] 許勝銘,大詞彙客語語音辨識系統之初步研究,國立台灣科技大學資訊工程系碩士學位論文,民國96年
[8] Xuedong Huang, Alex Acero and Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Pearson Education Taiwan Ltd, 2005
[9] Behrouz A. Forouzan, Cryptography and Network Security. McGral.Hill International, 2008
[10] Wai C. Chu, Speech Coding Algorithms. Wiley Interscience, US, 2003
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:自定論文開放時間 user define
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code