Responsive image
博碩士論文 etd-0824109-164940 詳細資訊
Title page for etd-0824109-164940
論文名稱
Title
日文語音辨識系統之設計研究
A Design of Japanese Speech Recognition System
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
67
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2009-07-29
繳交日期
Date of Submission
2009-08-24
關鍵字
Keywords
梅爾倒頻譜係數、語音辨識、隱藏式馬可夫模型、線性預估倒頻譜係數
Linear predicted cepstrum coefficients, Hidden Markov model, Speech recognition, Mel-frequency cepstrum coefficients
統計
Statistics
本論文已被瀏覽 5660 次,被下載 0
The thesis/dissertation has been browsed 5660 times, has been downloaded 0 times.
中文摘要
本論文探討日文語音辨識系統之設計與實作策略,以日文188個常用單音節之語音特徵,作為主要的訓練與辨識方式。運用日語發音規則,將每個常用單音節,每次連續唸二遍,五輪每個單音可得10次之聲紋特性來作訓練資料。系統採用梅爾倒頻譜係數與線性預估倒頻譜係數,來作特徵參數之萃取;運用隱藏式馬可夫模型,來作單音之辨識。在Pentium 2.4 GHz之個人電腦與Ubuntu 8.04作業系統下,針對三萬四千個日文語詞,吾人約可達到87%之正確辨識率,平均所需辨識時間約在1.5秒以內。
Abstract
This thesis investigates the design and implementation strategies for a Japanese speech recognition system. It utilizes the speech features of the 188 common Japanese mono-syllables as the major training and recognition methodology. A training database of 10 utterances per mono-syllable is established by applying Japanese pronunciation rules. These 10 utterances are collected through reading 5 rounds of 188 mono-syllables, where every mono-syllable is consecutively read twice in each round. Mel-frequency cepstrum coefficients, linear predicted cepstrum coefficients, and hidden Markov model are used as the two feature models and the recognition model respectively. Under the Pentium 2.4 GHz personal computer and Ubuntu 8.04 operating system environment, a correct phrase recognition rate of 87% can be reached for a 34,000 Japanese phrase database. The average computation time for each phrase is about 1.5 seconds.
目次 Table of Contents
摘要 Ⅰ
致謝 Ⅱ
目錄 Ⅲ
圖目錄 Ⅵ
表目錄 Ⅶ
第1章 緒論 1
1-1 研究動機 1
1-2 研究方法 1
1-3 論文章節概要 3
第2章 語音訊號處理相關技術介紹 4
2-1 辨識系統架構 4
2-2 音節切割 5
2-2-1 能量 5
2-2-2 過零率 6
2-2-3 線性預估係數誤差能量 7
2-3 特徵萃取流程 9
2-3-1 預強濾波器 9
2-3-2 加視窗 10
2-3-3 離散傅利葉 11
2-3-4 梅爾頻率濾波器 11
2-3-5 離散餘弦轉換 13
2-3-6 線性預估倒頻譜係數 14
第3章 語音模型訓練 17
3-1 隱藏式馬可夫模型介紹 17
3-2 參數初始化 18
3-3 參數重估 20
3-3-1 正向逆向程序 21
3-3-2 狀態轉移機率矩陣參數重估 22
3-3-3 狀態觀察機率矩陣參數重估 23
3-4 維特比演算法 24
第4章 日文語音辨識系統介紹 26
4-1 日語發音規則 26
4-1-1 日文的假名 26
4-1-2 日文五十音 27
4-1-3 日文特殊音 29
4-2 日文音節判斷 33
4-3 日文羅馬拼音 36
4-4 辨識系統文字比對流程 38
第五章 實驗結果分析 40
5-1 硬體環境與軟體規範 40
5-2 模擬語料選取 42
5-3 單音模型訓練方式 43
5-3-1 訓練次數與辨識率關係(一) 43
5-3-2 每次唸一個單音與每次唸多個單音錄製訓練音檔 46
5-3-3 訓練次數與辨識率關係(二) 48
5-3-4 錄製時間與辨識率關係 50
5-4 日文常用語詞辨識系統 52
5-5 日本地名辨識系統 53
5-6 日本人名辨識系統 55
5-7 與中文辨識系統之比較 56
第六章 結論與未來展望 57
6-1 結論 57
6-2 未來展望 57
參考文獻 59
參考文獻 References
[1] United Nations Department of Economic and Social Affairs – Population Division, http://www.un.org/esa/desa/
[2] 維基百科, http://zh.wikipedia.org/
[3] 吳俊榮, “中文二、三、四字詞語詞辨識系統之設計研究”, 國立中山大學電機工程研究所碩士論文, 民國96年7月。
[4] 賴昭榮, “中文語音辨識系統降低訓練量之策略研究─以地址系統與二、三、四字詞系統為例”, 國立中山大學電機工程研究所碩士論文, 民國
97年7月。
[5] 王小川, “語音訊號處理” , 全華,民國93年。
[6] 楊永泰, “隱藏式馬可夫模型應用於中文語音辨識之研究”, 中原大學資訊工程研究所碩士論文, 民國88年7月。
[7] 賴昭華, “不特定語者中量語詞辨識系統之設計研究”, 國立中山大學電機工程研究所碩士論文, 民國91年7月。
[8] Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon, "Spoken Language Processing", Prentice Hall, Inc., 2001.
[9] 戶田昌幸、黃國彥, “日語語音學入門” , 鴻儒堂出版社, 民國80年。
[10] 日本外務省, http://www.mofa.go.jp/
[11] 財團法人語言訓練測驗中心, http://www.lttc.ntu.edu.tw/
[12] 中華民國交通部觀光局 http://admin.taiwan.net.tw/indexc.asp
[13] 雅虎日本地圖 http://map.yahoo.co.jp/
[14] 人名錄 key person http://www.person.cbr-j.com/index.shtml
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:校內校外均不公開 not available
開放時間 Available:
校內 Campus:永不公開 not available
校外 Off-campus:永不公開 not available

您的 IP(校外) 位址是 3.133.141.6
論文開放下載的時間是 校外不公開

Your IP address is 3.133.141.6
This thesis will be available to you on Indicate off-campus access is not available.

紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code