Responsive image
博碩士論文 etd-0917107-161845 詳細資訊
Title page for etd-0917107-161845
論文名稱
Title
由語料庫學習上下文無關文法
Learning of Context-Free Grammars From A Corpus
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
46
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2007-07-30
繳交日期
Date of Submission
2007-09-17
關鍵字
Keywords
資料壓縮、中央研究院平衡語料庫、中文語言處理、上下文無關文法
Chinese Language Processing, Context-Free Grammar, Data Compression, Academia Sinica Balanced Corpus
統計
Statistics
本論文已被瀏覽 5646 次,被下載 1344
The thesis/dissertation has been browsed 5646 times, has been downloaded 1344 times.
中文摘要
在本論文中,我們研究由語料庫中自動學習上下文無關文法的議題。我們希望能從語料庫中找出一個文法,而且透過這個文法所能表示的句子的集合,必需包含語料庫中所有的句子。因為這樣的文法有無限多個,所以我們定義了一個成本函數,用來計算要表示一個文法和一個語料庫所需要的成本。我們則藉由這個成本函數來決定從語料庫中找到的文法的規則。我們的目的是希望能得到一個文法,使為了要表示這個文法和語料庫所需要的成本能降到最低。在本論文中,我們使用兩種編碼的方式,分別是相同長度編碼及Shannon編碼。我們所使用的語料庫是中央研究院平衡語料庫。我們使用上述兩種編碼方式,由語料庫中學習文法並針對成本進行比較。當使用相同長度編碼時,其成本初值約為32.2百萬位元;若是使用Shannon編碼,其成本初值則約為26.4百萬位元。所以,使用Shannon編碼時,成本初值較使用相同長度編碼時少了大約5.8百萬位元。另外,在使用相同長度編碼的情況下,當學習到第92條規則時,其成本可以降到大約27.7百萬位元;如果此時改採用Shannon編碼,則成本可以降至24.3百萬位元。在此情況下,使用Shannon編碼之成本較使用相同長度編碼少了大約3.4百萬位元。而在使用Shannon編碼的情況下,當學習到第3650條規則時,其成本可以降到大約24.0百萬位元。所以,結果顯示使用Shannon編碼的成本都低於使用相同長度編碼時的成本。在成本下降程度方面,使用相同長度編碼時,其成本可以降低大約14.0%;而使用Shannon編碼時,則大約可降低9.1%。另外,我們也針對語料庫中的兩個句子做了一個簡單的比較。我們將這兩個句子分別用我們學習到的文法以及用人工的方式來進行分析,並簡單比較其差異。另一方面,我們也探討了兩個文法的特例,我們也分析並且比較其成本差異。第一個文法的特例,即為窮盡的上下文無關文法(G1),其所需要的成本為32.2百萬位元;第二個文法的特例,則是遞迴的上下文無關文法(G2),其所需要的成本則為88.4百萬位元,遠大於G1所需要的成本。另外,我們也針對使用相同長度編碼以及Shannon編碼來學習X→YZ和A→B|C這兩種規則的情況做了一些比較。結果顯示,當我們從中央研究院平衡語料庫中學習X→YZ這種規則時,不論是使用相同長度編碼或者是Shannon編碼,都可以使成本下降;但是,如果是學習A→B|C這種規則時,使用相同長度編碼將無法使成本下降;如果是使用Shannon編碼,則可降低其成本。除了使用成本函數來比較兩種編碼方式的差異之外,我們也從資料壓縮的角度來比較其差異。在未經過壓縮的情況下,語料庫的原始大小為114.7百萬位元。使用我們這裡所提出的方法來進行資料壓縮時,在相同長度編碼的情況下,其大小可以減少到27.7百萬位元;若是使用Shannon編碼,其大小則可以減少到大約24.0百萬位元。所以,在使用相同長度編碼的情況下,語料庫的大小可以減少大約75.8 %;若是使用Shannon編碼,則可以減少大約79.1%。
Abstract
none
目次 Table of Contents
摘要…………………………………………………………………………………………..Ⅰ

目錄……………………………………………………………………………………….….Ⅱ

圖表目錄………………………………………………………………………………….….Ⅳ

表格目錄……………………………………………………………………………………..Ⅴ

第一章 簡介…………………………………………………………………………………1

1.1 基本問題與研究概述..…………………………………………………….....1

1.2 上下文無關文法之相關應用..…………………………………………….....3

第二章 文法歸納與資料壓縮………………………………………………………………5

2.1 文法歸納………………………………………………………………….......5

2.2 資料壓縮……………………………………………………………………...7

2.2.1 相同長度編碼.…………………………………………………….....7

2.2.2 Shannon編碼…………………………………..……………………8

第三章 分析………………………………………………………………………………..10

3.1 成本函數.…………………………………………………………………....10

3.1.1 規則成本…………………………………………………………....10

3.1.2 句子成本…………………………………………………………....11

3.1.3 總成本………………………………………………………………13

3.2 文法特例分析..……………………………………………………………...14

3.3 建議學習之規則..…………………………………………………………...18

第四章 實驗………………………………………………………………………………..20

4.1 資料準備工作…..…………………………………………………………...20

4.2 實驗步驟…..………………………………………………………………...21

4.2.1 相同長度編碼..……………………………………………………..21

4.2.2 Shannon編碼..……………………………………………………..22

4.2.3 不同編碼方式之比較……………………………………………....23

第五章 實驗結果…………………………………………………………………………..24

5.1 相同長度編碼..……………………………………………………………...26

5.2 Shannon編碼….…………………………………………………………...30

5.3 不同編碼方式之比較..……………………………………………………..31

5.4 資料壓縮..…………………………………………………………………..32

第六章 結論……………………………………………………………………………….34

參考文獻…………………………………………………………………………………….36
參考文獻 References
[1] D. Jurafsky and J. H. Martin, “Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition”, Prentice Hall (2000).

[2] T. Cover and J. Thomas, “Elements of Information Theory”, John Wiley and Sons, Inc., 1991, USA, ISBN: 0-471-06259-6.

[3] H. Ney, “Dynamic Programming Parsing for Context-Free Grammars in Continuous Speech Recognition”, IEEE Transactions on Signal Processing, Volume 39, Issue 2, Page(s):336–340, Feb 1991.

[4] T. Shimizu, S. Monzen, H. Singer, S. Matsunaga, “ Time-Synchronous Continuous Speech Recognizer Driven By A Context-Free Grammar”, In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, Volume 1, Page(s):584–587, May, 1995.

[5] S. Nakagawa, “Spoken Sentence Recognition by Time-Synchronous Parsing Algorithm of Context-Free Grammar”, In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, Volume 12, Page(s):829–832, Apr, 1987.

[6] Ye-Yi Wang, M. Mahajan, Xuedong Huang, “A Unified Context-Free Grammar and N-gram Model for Spoken Language Processing”, In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, Volume 3, Page(s):1639-1642, June, 2000.

[7] C. Yuan and C. Wang, “Parsing Model for Answer Extraction in Chinese Question Answering System”, In Proceedings of IEEE Natural Language Processing and Knowledge Engineering, Page(s):238–243, 2005.

[8] Stephanie Seneff, “TINA: A Probabilistic Syntactic Parser For Speech Understanding Systems”, In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, Volume 2, Page(s):711–714, May, 1989.

[9] A. D. Lawson, “Automatic Entity Extraction and Activity Detection for Aerospace Communications”, In Proceedings of IEEE Aerospace Conference, Volume 5, Page(s):3098-3109, March, 2004.

[10] M. Balakrishna, D. Moldovan, E.K. Cave, “Automatic Creation and Tuning of Context Free Grammars for Interactive Voice Response Systems”, In Proceedings of IEEE Natural Language Processing and Knowledge Engineering, Page(s):158–163, 2005.

[11] Mark van den Brand, Alex Sellink, and Chris Verhoef, “Generation of Components for Software Renovation Factories from Context-Free Grammars ”, In Working Conference on Reverse Engineering, Page(s):144–153, 1997.

[12] Kadri Hacioglu, Wayne Ward, “Dialog-Context Dependent Language Modeling Combining N-Grams and Stochastic Context-Free Grammars”, In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, Volume 1, Page(s):537-540, May, 2001.

[13] D. Jurafsky, C. Wooters, J. Segal, A. Stolcke, E. Fosler, G. Tajchaman, N. Morgan, “Using a Stochastic Context-Free Grammars as a Language Model for Speech Recognition”, In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, Volume 1, Page(s):189–192, May, 1995.

[14] E. Fosler-Lussier, H.-K.J. Kuo, “Using Semantic Class Information for Rapid Development of Language Models within ASR Dialogue Systems”, In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, Volume 1,
Page(s):553–556, May, 2001.

[15] J. C. Handley, A. M. Namboodiri, R. Zanibbi, “Document Understanding System Using Stochastic Context-Free Grammars”, In Proceedings of International Conference on Document Analysis and Recognition, Volume 1, Page(s):511-515, 2005.

[16] D. V. Pynadath, M. P. Wellman, “Generalized Queries on Probabilistic Context-Free Grammars”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 20, Issue 1, Page(s):65–77, Jan, 1998.

[17] Patrick Carter and Stefan C. Kremer, “Fuzzy Grammar Induction from Large Corpus”, In Proceedings of International Conference on Fuzzy Systems, Page(s):2083-2089, July, 2006.

[18] J. J. Horning, “A study of Grammatical Inference”, PhD thesis, Stanford University, Stanford California, 1969.

[19] Katsuhiko Nakamura, “Incremental Learning of Context Free Grammars by Extended Inductive CYK Algorithm”, In Proceedings of European Conference on Machine Learning Workshop on Learning Context-Free Grammars, Page(s):53-64, 2003.

[20] Peter Wyard, “Context Free Grammar Induction Using Genetic Algorithms”, In Proceedings of IEE Colloquium on Grammatical Inference: Theory, Applications and Alternative, Page(s):P11/1- P11/5, Apr, 1993.

[21] 中央研究院漢語料庫的內容與說明,
http://www.sinica.edu.tw/SinicaCorpus/98-04.pdf.
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:校內校外完全公開 unrestricted
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code