Responsive image
博碩士論文 etd-0824110-153157 詳細資訊
Title page for etd-0824110-153157
論文名稱
Title
德文語音辨識系統之設計研究
A Design of German Speech Recognition System
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
50
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2010-07-28
繳交日期
Date of Submission
2010-08-24
關鍵字
Keywords
梅爾頻率倒頻譜係數、線性預估倒頻譜係數、隱藏式馬可夫模型
Linear predictive cepstral coefficients, Mel-frequency cepstral coefficients, Hidden Markov model
統計
Statistics
本論文已被瀏覽 5645 次,被下載 0
The thesis/dissertation has been browsed 5645 times, has been downloaded 0 times.
中文摘要
本論文探討德文語音辨識系統之設計策略。吾人依照德語的發音規則,挑選出434個常用單音節,將每個常用單音節,每輪以一聲與四聲兩種不同聲調的方式錄音,錄製六輪共十二次的聲紋特性作為訓練資料。系統採用梅爾頻率倒頻譜係數及線性預估倒頻譜係數,作為特徵參數之萃取,並運用隱藏式馬可夫模型,作為單音之辨識模型。在CPU時脈為2.8 GHz的 AMD Athlon X2-240 之個人電腦與Ubuntu 9.04之作業系統環境下,針對3900個德語語詞,吾人約可以達到84% 之正確辨識率,而平均所需辨識時間約在1秒以內。
Abstract
This thesis investigates the design and implementation strategies for a German speech recognition system. It utilizes the speech features of the 434 common German mono-syllables as the major training and recognition methodology. A training database is established by reading each mono-syllable 12 times in 6 rounds. Every mono-syllable is consecutively read twice with different tones. The first pronounced pattern has high pitch of tone 1, while the second one has falling pitch of tone 4. Mel-frequency cepstral coefficients, linear predictive cepstral coefficients, and hidden Markov model are used as the two feature models and the recognition model respectively. Under the AMD Athlon X2-240 with 2.8 GHz clock rate personal computer and Ubuntu 9.04 operating system environment, a correct phrase recognition rate of 84% can be reached for a 3900 German phrase database. The average computation time for each phrase is within 1 second.
目次 Table of Contents
摘要 II
致謝 III
目錄 IV
圖目錄 VI
表目錄 VII

第一章 緒論 1
1-1 研究動機 1
1-2 研究目的 1
1-3 論文章節概要 2

第二章 德文語音學基礎 3
2-1 德語簡介 3
2-1-1 語系概覽 3
2-1-2 歷史演變 4
2-2 字母表 6
2-3 母音的發音規則 6
2-4 子音的發音規則 9

第三章 語音辨識系統的流程與數學原理 13
3-1 前處理流程 13
3-1-1 音框化 13
3-1-2 音框能量 13
3-1-3 越零率 14
3-1-4 線性預測係數誤差能量 14
3-2 特徵萃取流程 15
3-2-1 預強化 16
3-2-2 加視窗 16
3-2-3 離散傅立葉轉換 18
3-2-4 梅爾頻率倒頻譜 18
3-2-5 差量倒頻譜係數 21
3-2-6 線性預測係數 21
3-2-7 線性預估倒頻譜係數 23
3-3 隱藏式馬可夫模型 24
3-3-1 參數初始化 24
3-3-2 參數重估 25
3-4 維特比演算法 31

第四章 辨識系統介紹 33
4-1 辨識系統架構 33
4-2 德語語詞資料庫介紹 34
4-3 音節的訓練策略 35
4-4 系統實作 40
4-5 硬體架構及規範 41

第五章 結論與未來展望 42
參考文獻 43
參考文獻 References
[1] 賴麗琇, 德語發音解析, 中央圖書出版社, 民國91年
[2] 王京平, 德語語言學教程, 北京:外語教學與研究出版社, 民國97年
[3] 賈之健, 超EASY德語初學發音速成, 民國96年
[4] R. D, Kent著, 王南梅, 黃國祐, 陳雅資譯, 言語聲學分析, 新加坡商聖智學習出版, 民國98年
[5] 錢文彩, 漢德語言實用對比硏究, 北京:外語教學與研究出版社, 民國93年
[6] 王小川, 語音訊號處理, 全華圖書出版社,民國93年
[7] 賴昭榮, “中文語音辨識系統降低訓練量之策略研究─以地址系統與二三、四字詞系統為例”, 國立中山大學電機工程研究所碩士論文, 民國97年7月
[8] X. Huang, A. Acero, and H.W. Hon, Spoken Language Processing, Prentice Hall, Taiwan, 2001
[9] 陳孟揚, “日文語音辨識系統之設計研究”, 國立中山大學電機工程研究所碩士論文, 民國98年7月
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:校內校外均不公開 not available
開放時間 Available:
校內 Campus:永不公開 not available
校外 Off-campus:永不公開 not available

您的 IP(校外) 位址是 18.232.179.191
論文開放下載的時間是 校外不公開

Your IP address is 18.232.179.191
This thesis will be available to you on Indicate off-campus access is not available.

紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code