Responsive image
博碩士論文 etd-0819111-210242 詳細資訊
Title page for etd-0819111-210242
論文名稱
Title
俄文語音辨識系統之設計研究
A Design of Russian Speech Recognition System
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
66
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2011-07-18
繳交日期
Date of Submission
2011-08-19
關鍵字
Keywords
梅爾倒頻譜係數、俄文語音辨識系統、線性預估倒頻譜係數、隱藏式馬可夫模型、音位結構學
Linear predicted cepstral coefficients, Hidden Markov model, Mel-frequency cepstral coefficients, Phonotactics, Russian speech recognition system
統計
Statistics
本論文已被瀏覽 5670 次,被下載 946
The thesis/dissertation has been browsed 5670 times, has been downloaded 946 times.
中文摘要
在了解民族、歷史、文化,甚至科技的過程中,語言扮演著極為重要的角色。近年來,世界各國對外太空科技的發展,獲致了長足的進步,而俄羅斯的太空科技更是傲視全球。她於1998年發射國際太空站的首座主核心控制艙模組「Zarya」至外太空,並與美國在往後的國際太空站擴建上,展開密切與深入的合作。二次世界大戰後,俄羅斯先後加入聯合國五大常任理事國與世界八大工業國組織。而八大工業國組織是當時工業先進國家的表徵,於此再再顯示出俄羅斯在科技、政治與經濟方面的實力。為更深入了解其文化歷史之美與增廣吾人之科技視野,建立一套有效的俄文語音辨識系統,來協助我們學習俄語,實乃吾人之殷切期盼。
本論文探討俄文語音辨識系統之設計與實作策略。系統運用俄語發音規則所建立歸納出之俄文514類常用單音節的語音特徵,來作為音節訓練與辨識之依據。每個單音節以一聲與四聲兩種相異聲調的方式連續各唸一次,以彰顯俄語發音中非重音與重音之差別。其中一聲為音高維持高值之聲調,而四聲為音高由高轉低之聲調。唸完各一個單音類別之一四聲後,接著唸下一類之單音,將514類單音唸完一輪,可得每單音二次之訓練語料。本系統之訓練資料庫由錄製六輪,每單音十二次之訓練語料所構成。吾人萃取單音之梅爾倒頻譜係數與線性預估倒頻譜係數來作雙特徵之參數記錄,運用隱藏式馬可夫模型來作單音之統計辨識。在CPU 時脈為2.2 GHz的AMD Athlon XP 2800+ 之個人電腦與Ubuntu 9.04作業系統之環境下,針對3,900筆俄文能力測驗詞彙資料庫及600筆俄國姓名資料庫,運用音位結構學之規則,本系統可分別獲得 86.90% 與 94.83% 之正確辨識率。兩系統之平均辨識時間皆少於1.5秒,而總訓練時間約為三小時。
Abstract
Language plays an important role for understanding people, their history, culture and even technology. Many countries of the world have developed the technology of the outer space recently, and Russian is the top of the world. In 1998 Russia further launched Zarya, the first International Space Station (ISS) Module, to the outer space, and was deeply involved in the development of the ISS with the U.S.. Since the end of the World War Two, Russia has been one of the five Permanent Members in the United Nations. And then, she became one of the G8 members, an economical forum of eight industrially advanced nations. Because these informations, it is our objective to build a language system that can help us to learn Russian, to taste the beauty of her culture, and to widen our vision of technologies.
This thesis investigates the design and implementation strategies for a Russian speech recognition system. It utilizes the speech features of the 514 common Russian mono-syllables as the major training and recognition methodology. The mono-syllable is established by applying Russian pronunciation rules. These 12 utterances are collected through reading 6 rounds of the same mono-syllables twice with different tones. The first pronounced pattern has high pitch of tone 1, while the second one has falling pitch of tone 4. Mel-frequency cepstral coefficients, linear predicted cepstral coefficients, and hidden Markov model are used as the two syllable feature models and the recognition model respectively. Under the AMD 2.2 GHz Athlon XP 2800+ personal computer and Ubuntu 9.04 operating system environment, correct phrase recognition rates of 86.90% and 94.83% can be reached using phonotactical rules for a 3,900 vocabulary Russian phrase database for TORFL (Test of Russian as a Foreign Language) and a 600 person name database for Russian. The average computation time for each system is less than 1.5 seconds, and the training time for the systems is about three hours.
目次 Table of Contents
論文審定書 i
中文摘要 ii
英文摘要 iii
誌謝 iv
目錄 v
圖次 vii
表次 viii
第一章 緒論 1
1-1 研究動機 1
1-2 研究目的 2
1-3 論文章節概要 3
第二章 俄文語音學介紹 4
2-1 語系概覽 4
2-1-1 俄羅斯與俄文起源 5
2-1-2 俄語使用概況 6
2-2 俄文之字母 7
2-3 俄語之發音 8
2-3-1 母音發音規則 9
2-3-2 子音發音規則 10
2-4 俄語之拚音三大定律 12
2-4-1 音節與重音的規定 12
2-4-2 「濁音清化」及「清音濁化」 13
2-4-3 母音弱化 15
第三章 語音辨識系統的流程與數學原理 16
3-1 前處理流程 17
3-1-1 音節切割 17
3-1-2 高頻預強與漢明窗 20
3-2 特徵萃取流程 22
3-2-1 線性預估倒頻譜係數 22
3-2-2 梅爾頻率倒頻譜係數 29
3-3 隱藏式馬可夫模型 34
3-3-1 最佳期望值問題 36
3-3-2 最佳狀態序列問題 39
3-3-3 模型參數估算問題 41
第四章 辨識系統之訓練策略 42
4-1 單音模型分類之策略 42
4-2 俄語模擬語詞建構 43
4-3 單音模型之訓練策略 44
4-3-1 辨識率與單音訓練次數之關係 44
4-3-2 辨識率與錄製時間點之關係 46
4-3-3 辨識率與不同個數單音之關係 48
4-3-4 辨識率與聲調之關係 50
4-4 硬體環境與軟體規範 51
第五章 俄文語音辨識系統實作成果與辨識效能 52
5-1 俄文能力測驗檢定辨識系統 52
5-2 俄文姓名辨識系統 54
第六章 結論與未來展望 55
參考文獻 56
參考文獻 References
[1] 何泰軒、劉進榮,“Cyberon Voice Commander多國語言語音命令系統”,賽微科技股份有限公司,2007。
[2] 李偉,世界文化與自然遺產,台北:漢宇國際文化,2005[民94]。
[3] 維基百科,http://zh.wikipedia.org/
[4] 周雪舫,俄羅斯史:謎樣的國度,台北:三民書局,2005[民94]。
[5] 周鼎、徐振新,俄語發音入門,台北:旺文社,1995[民84]。
[6] Namsaraeva Sayana,觀光俄語易學通,台北:三思堂,2000[民89]。
[7] Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm and System Development Pearson Education Taiwan Ltd, 2005.
[8] 王小川,語音訊號處理,台北:全華圖書,2004[民93]。
[9] 中國文化大學:俄文語文能力測驗,http://torfl.pccu.edu.tw/
[10] 歐洲語言測試協會,http://www.alte.org/
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:自定論文開放時間 user define
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code