Responsive image
博碩士論文 etd-0119109-190042 詳細資訊
Title page for etd-0119109-190042
論文名稱
Title
利用文件探勘技術來自動分類民眾陳情文件
Using Text mining Techniques for automatically classifying Public Opinion Documents
系所名稱
Department
畢業學年期
Year, semester
語文別
Language
學位類別
Degree
頁數
Number of pages
102
研究生
Author
指導教授
Advisor
召集委員
Convenor
口試委員
Advisory Committee
口試日期
Date of Exam
2009-01-14
繳交日期
Date of Submission
2009-01-19
關鍵字
Keywords
中文斷詞、文件分類、文件探勘、基因演算法、民眾陳情
Text Categorization, Word Segmentation, Genetic Algorithms, Public Opinion, Text Mining
統計
Statistics
本論文已被瀏覽 5996 次,被下載 3742
The thesis/dissertation has been browsed 5996 times, has been downloaded 3742 times.
中文摘要
  市長信箱是民眾陳情的管道之一,民眾陳情文件日益增加,文件分類的需求也因應而生。文件分類的方法不外乎有斷詞、語料庫、詞頻統計、關聯法則、混合式、文法剖析等,這幾種方法大多都要配合詞庫或辭典一起運作,當有新增詞彙時,就有可能造成分類的精準度下降,因此本研究提出一種方法,此方法不需預先建立詞庫及分類字典、不限任何語系、可處理非結構化的文件、不需考慮文件是否有停用詞、亦不需考慮詞性,此方法稱為「基因演算法(GA)」。
  本方法中,以70%的資料輸入做為訓練文件,30%做為測試文件,將一訓練文件產生好幾條染色體,訓練文件依染色體基因值(0或1)產生特徵詞組,每一條染色體依據適應度函式評估,逐一與所有訓練文件比較,搜尋出符合評估條件的染色體,並找出與其他類別相似度最低的一組染色體,以最好的幾條染色體做為此類別分類模型之一,依此方式產生所有訓練文件的分類模型後,以測試文件來驗證分類的成效。
  本研究使用台北市市長信箱FAQ資料進行研究,分別以不同文件長度、十摺交叉驗證法、以及不同比例的訓練文件與測試文件數量進行三項實驗。研究結果發現,可以在不用配合詞庫的運作下,使用GA來產生自動分類模型,實驗結果顯示平均正確率達到89%,平均精確率達到47%,平均召回率達到45%。以訓練文件本身來驗證正確率及其他度量指標的話,其結果值都達到99%以上。再以ROC curve來評估,分類水準亦在45度線之上,且比亂數隨機分類結果好很多。另外在F-measure上最好也有達到0.7的水準,平均值也都在0.4以上。
  實驗結果可證實,訓練文件的數量、訓練文件的內容、各類別文件間的相似度以及文件長度皆會影響分類器的成效。但必須提供大量訓練與測試的資料才能建立較正確的模式,且計算相當耗時,文件長度愈長則時需花費愈多時間建立分類模型,當訓練資料增加也會造成運算速度變慢,類別過多時也會使分類準確度下降。
Abstract
In a democratic society, the number of public opinion documents increase with days, and there is a pressing need for automatically classifying these documents. Traditional approach for classifying documents involves the techniques of segmenting words and the use of stop words, corpus, and grammar analysis for retrieving the key terms of documents. However, with the emergence of new terms, the traditional methods that leverage dictionary or thesaurus may incur lower accuracy. Therefore, this study proposes a new method that does not require the prior establishment of a dictionary or thesaurus, and is applicable to documents written in any language and documents containing unstructured text. Specifically, the classification method employs genetic algorithm for achieving this goal.
In this method, each training document is represented by several chromosomes, and based on the gene values of these chromosomes, the characteristic terms of the document are determined. The fitness function, which is required by the genetic algorithm for evaluating the fitness of an evolved chromosome, considers the similarity to the chromosomes of documents of other types.
This study used data FAQ of e-mail box of Taipei city mayor for evaluating the proposed method by varying the length of documents. The results show that the proposed method achieves the average accuracy rate of 89%, the average precision rate of 47%, and the average recall rate of 45%. In addition, F-measure can reach up to 0.7.
The results confirms that the number of training documents, content of training documents, the similarity between the types of documents, and the length of the documents all contribute to the effectiveness of the proposed method.
目次 Table of Contents
第一章、緒論 ............................................................................................ 1
 第一節、研究背景 ................................................................................ 1
 第二節、研究動機 ................................................................................ 3
 第三節、研究目的 ................................................................................ 4
 第四節、論文架構 ................................................................................ 8
第二章、文獻探討 .................................................................................... 9
 前言 ........................................................................................................ 9
 第一節、各種文件探勘方法 .............................................................. 12
  1.1 中文文件處理 ............................................................................ 12
  1.2 詞庫斷詞法 ................................................................................ 13
  1.3 統計斷詞法 ................................................................................ 13
  1.4 法則式斷詞法 ............................................................................ 13
  1.5 混合式斷詞法 ............................................................................ 14
  1.6 文法剖析法 ................................................................................ 15
  1.7 文件分類技術 ............................................................................ 15
  1.8 文件摘要 .................................................................................... 18
  1.9 文件自我擴展方法 .................................................................... 19
  1.10 文字知識探勘 .......................................................................... 19
  1.11 本體論 ...................................................................................... 20
  1.12 分類模型評估準則 .................................................................. 21
  1.13 特徵值加權法 .......................................................................... 21
 第二節、民眾陳情處理 ...................................................................... 23
 第三節、基因演算法 .......................................................................... 26
  3.1、基因演算法概述 ..................................................................... 26
  3.2、基因演算法基本理論 ............................................................. 26
  3.3、基因演算法之特色及優點 ..................................................... 28
  3.4、GA 和一般的最佳化搜尋方法之不同處 .............................. 29
 第四節、分類器品質評估 .................................................................. 30
  4.1、以ROC曲線評估 ..................................................................... 30
  4.2、以性能指標評估 ..................................................................... 31
  4.3、以F度量評估 ........................................................................... 32
  4.4、以十摺交叉驗證法確保品質 ................................................. 32
第三章、研究方法 .................................................................................. 33
 3.1 研究步驟 ........................................................................................ 33
 3.2 研究流程 ........................................................................................ 34
 3.3 資料來源 ........................................................................................ 36
 3.4 訓練文件 ........................................................................................ 37
 3.5 基因演算法 .................................................................................... 37
  3.5.1 Chromosomes:染色體編碼及初始化 ..................................... 37
  3.5.2 Fitness:適應度函數 ................................................................. 39
   3.5.2.1 相似度 .............................................................................. 39
   3.5.2.2 適應度計算 ...................................................................... 40
  3.5.3 基因演算法參數 ..................................................................... 41
   3.5.3.1 參數說明 .......................................................................... 41
   3.5.3.2 參數設定 .......................................................................... 41
  3.5.4 基因演算法的操作 ................................................................. 42
  3.5.5 資料前置處理 ......................................................................... 44
 3.6 測試文件相似度計算及分類 ........................................................ 44
第四章、成效評估 .................................................................................. 46
 4.1 雛形系統實作說明 ........................................................................ 46
 4.2 實驗設計 ........................................................................................ 46
  4.2.1 分類模型的產生與驗證 ......................................................... 46
   4.2.1.1 分類模型的產生 .............................................................. 46
   4.2.1.2 分類模型的驗證 .............................................................. 48
  4.2.2 分類結果分析 ......................................................................... 48
 4.3 以實際民眾陳情文件驗證自動分類器 ........................................ 50
  4.3.1 民眾陳情文件 ......................................................................... 50
  4.3.2 民眾陳情文件自動分類 ......................................................... 51
 4.4 分類模型驗證方法 ........................................................................ 53
 4.5 實驗說明 ........................................................................................ 54
 4.6 實驗結果分析 ................................................................................ 54
  4.6.1 實驗一結果 ............................................................................. 55
  4.6.2 實驗二結果 ............................................................................. 72
  4.6.3 實驗三結果 ............................................................................. 74
 4.7 實驗結果總合說明 ........................................................................ 76
第五章、結論與未來研究建議 .............................................................. 77
 5.1 基因演算法分類效益 .................................................................... 77
 5.2 其他分類方法 ................................................................................ 77
 5.3 研究範圍 ........................................................................................ 79
 5.4 研究限制 ........................................................................................ 79
 5.5 未來研究建議 ................................................................................ 79
參考文獻 .................................................................................................. 81
附錄一、中研院平衡語料庫詞類標記集 .............................................. 86
附錄二、民眾陳情文件以「中央研究院中文斷詞系統」處理結果 .. 88
附錄三、基因演算法產生分類模型過程 .............................................. 89
附錄四、基因演算法產生之適應度及染色體-以文件長度50為例 ..... 90
參考文獻 References
中文部分
1. 王良志、貝子勝、黎偉權、黃麗卿(1991)。以剖析為導向的中文斷詞法。電子發展月刊,163,40-45。
2. 王宗男(2005)。客訴處理在工業市場實施動機、要素及其效應影響之研究。國立成功大學高階管理碩士在職專班碩士論文。
3. 李政聰(2006)。利用基因演算法產生模糊分類系統。國立中山大學電機工程研究所碩士論文。
4. 袁立安(2007)。混合式自動文件摘要方法。國立中山大學資訊管理研究所碩士論文。
5. 高文彥(2006)。應用k-NN分類法及基因演算法於數位學習中學習類型分類與學習行為特徵篩選。國立成功大學資訊工程研究所碩士論文。
6. 張世賢(2005,4月)。資訊科技與政府效率之提升:高雄市市長電子信箱對民眾陳情案件處理效率之個案探討。姜新立(主持人),電子化政府研究。第五屆政治與資訊科技研討會,宜蘭縣礁溪鄉:佛光人文社會學院國際會議廳。
7. 張志宇(2008)。應用支援向量機與特徵詞彙於印刷電路板中文研發文件分類與檢索。東海大學工業工程與經營資訊研究所碩士論文。
8. 莊孟杰(2004)。從民眾關係管理看市長電子信箱滿意度調查。國立中山大學公共事務管理研究所碩士論文。
9. 莊昆翰(2006)。由文件中萃取情節知識以支援決策之研究。國立中山大學資訊管理研究所碩士論文。
10. 陳永德(1997)。中文斷詞中「長詞優先」、「詞頻對比」、「前詞優先」規則之使用。國立台灣大學心理學研究所博士論文。
11. 陳克建、陳正佳、林隆基(1986)。中文語句分析的研究-斷詞與構詞。中央研究院資訊所技術報告,TR86-004。
12. 陳炳仁(2002)。類神經網路ROC 曲線的設計方法。國立中山大學機械與機電工程研究所碩士論文。
13. 陳稼興、謝佳倫、許芳誠(2000)。以遺傳演算法為基礎的中文斷詞研究。電子商務學報,2(2),27-44。
14. 郭瓊蓉(2006)。文件分類於電子化政府之應用:以政府機關市長信箱民眾陳情案件為例。國立中山大學資訊管理研究所碩士論文。
15. 鹿純孝、張新喜(2007)。網路時代台中市政府「市長信箱」功能之研究。台中市政府計畫室,未出版。
16. 曾元顯(2002)。文件主題自動分類成效因素探討。中國圖書館學會會報,68,62-83。
17. 曾元顯(2004a)。中文手機新聞簡訊自動摘要。第十六屆自然語言與語音處理研討會(頁177-189)。台北:翡翠灣福華渡假飯店。
18. 曾元顯(2004b)。專利文字之知識探勘:技術與挑戰。現代資訊組織與檢索研討會論文(頁111-123)。台北:淡江大學。
19. 曾元顯、莊大衛(2003)。文件自我擴展於自動分類之應用。第十五屆計算機語言學研討會(頁129-141)。新竹:清華大學。
20. 黃純敏、楊存一、邱立豐(2002)。TFIDF與GBP方法於重要句子擷取績效評估。國立雲林科技大學資訊管理研究所碩士論文。
21. 楊菀菁(2004)。由服務品質缺口模式探討高雄市市長電子信箱服務品質與民眾滿意度。國立中山大學公共事務管理研究所碩士論文。
22. 劉東官(2003)。生產控制資訊系統教材。國立高雄第一科技大學機械與自動化工程所。
23. 蔡厚灼(2003)。客訴文件探勘系統。國立成功大學資訊管理研究所碩士論文。
24. 賴昆佑(2007)。以統計分析探討文件分類程序對期刊論文分類效果之影響。國立中央大學資訊管理研究所碩士論文。
25. 謝佳倫(1999)。遺傳演算法應用於中文斷詞之研究。國立中央大學資管研究所碩士論文。

英文部分
1. Apte C., Damerau F., & Sholom M. W. (1994). Automated learning of decision rules for text categorization. ACM Transactions on Information Systems (TOIS), 12(3), 233-251.
2. Apte, C., Damerau, F.J., & Weiss, S.M. (1994). Automated learning of decision rules for text categorization. ACM Trans Information Systems, 12(3), 233-251.
3. Chen, K. J., & S. H. Liu. (1992). Word Identification for Mandarin Chinese Sentences. Proceeding of COLING-92, 14th Int Conf On Computational Linguistics, 101-107.
4. Chi-Hung Chi, Chen Ding, & Andrew Lim. (1999). Word Segmentation and Recognition for Web Document Framework. In Proceedings of Conference on Information and Knowledge Management (CIKM).
5. Dumais, S., Platt, J., Heckerman, D., & Sahami, M. (1998). Inductive Learning Algorithms and Representation for Text Categorization. Proceedings of the 7th International Conference on Information and Knowledge Management (CIKM’98) (pp. 148-155). Bethesda, MD.
6. Dumais, S.T., Platt, J., Heckerman, D., & Sahami, M. (1998). Inductive learning algorithms and representations for text categorization. Proc Int Conf on Information and Knowledge Management CIKM-98 (pp. 148-155). Bethesda, MD.
7. Holland, J. H. (1975). Adaptation in Natural and Artificial Systems. University of Michigan Press, Ann Arbor, Michigan.
8. Hovy, E. (2005). Automated Text Summarization. The Oxford Handbook of Computational Linguistics (pp.583–598).
9. Jeng, B. C., & Liang, T. P. (1995). Fuzzy indexing and retrieval in case-based system. Expert Systems with Applications, 8(1), 135-142.
10. Kupiec, P.H. (1995). Techniques for Verifying the Accuracy of Risk Measurement Models. The Journal of Derivatives, 3(2), 73-84.
11. Woods, K. & Bowyer, K.W. (1997). Generating ROC curves for artificial neural networks. IEEE Trans. Medical Imaging, 16(3), 329-337.
12. Lai, Y.S., Wang, R.J. (2003). Towards Automatic Knowledge Acquisition from Text Based on Ontology-centric Knowledge Representation and Acquisition. K-CAP'03. Sanibel Island, FL.
13. Larkey, L. S., & Croft, W. B. (1996). Combining Classifiers in Text Categorization. Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’96) (pp. 289-297). Zurich, Switzerland.
14. Larkey, L., & Croft, W. (1996). Combining Classifiers in Text Categorization. Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'96) (pp. 289-297). Zurich, Switzerland.
15. Li, G. C., K. Y. Liu, & Y. K. Zhang. (1988). Identifying Chinese Word and Processing Different Meaning Structures. Journal of Chinese Information Processing, 2, 45-53.
16. Liang, N. Y. (1990). Knowledge of Chinese Word Segmentation. Journal of Chinese Information Processing, 4, 42-49.
17. Mani, I., & Bloedorn, E. (1998). Machine Learning of Generic and User-Focused Summarization. In Proceedings of Fifteenth National Conference on Artificial Intelligence, Madison, WI.
18. Ng, H. T., Goh, W. B., & Low, K. L. (1997). Feature Selection, Perception Learning, and A Usability Case Study for Text Categorization. ACM SIGIR Forum, 31(SI), 67-73.
19. Ng, H.T., & Zelle, J. (1997). Corpus based approaches to semantic interpretation in natural language processing. AI Magazine, 18(4), 25-31.
20. Salton, G. & McGill, M. J. (1983). Introduction to Modern Information Retrieval. McGraw-Hill, New York, NY.
21. Wei, C., Hu, P., & Dong, Y. X. (2002). Managing Document Categories in E-Commerce Environments: An Evolution-Based Approach. European Journal of Information Systems (pp. 208-222).
22. Wei, C., Lin, Y. T., & Yang, C. C. (2005). Cross-Lingual Text Categorization: Conquering Language Boundaries in Globalized Environments. Working Paper, Institute of Technology Management, National Tsing Hua University, Taiwan, ROC.
23. Weiss, S. M., Apte, C., Damerau, F. J., Johnson, D. E., Oles, F. J., Goetz, T., & Hampp, T. (1999). Maximizing Text-mining Performance. IEEE Intelligence Systems, 14(4), 63-69.
24. Wiener E.D., Pedersen, J. O., & Weigend, A. S. (1995). A neural network approach to topic spotting. In: Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95) (pp. 317-332).
25. Wiener, E. D. (1995).A Neural Network Approach To Topic Spotting. 4th Annual Symposium on Document Analysis and Information Retrieval (SDAIR-95) (pp. 317-332). Las Vegas, US.
26. Yang, Y. (1994). Expert Network: Effective and Efficient Learning from Human Decisions in Text Categorization and Retrieval. Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'94) (pp.13-22). Dublin, Ireland.
27. Yang, Y., & Chute, C. G. (1994). An Example-based Mapping Method for Text Categorization and Retrieval. ACM Transaction on Information Systems, 12(3), 252-277.
28. Yang, Y., & Liu, X. (1999). A Re-examination of Text Categorization Methods. Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99) (pp. 42-49). Berkeley, CA,.
29. Yeh, C. L., & H. J. Lee. (1991). Rule-Based Word Identification for Mandarin Chinese Sentences-A Unification Approach. Computer Processing of Chinese and Oriental Languages, 5(2), 97-118.
30. Zack, M. H. (1999). Developing a Knowledge Strategy. California Management Review, 41(3), 125-145.
電子全文 Fulltext
本電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
論文使用權限 Thesis access permission:校內立即公開,校外一年後公開 off campus withheld
開放時間 Available:
校內 Campus: 已公開 available
校外 Off-campus: 已公開 available


紙本論文 Printed copies
紙本論文的公開資訊在102學年度以後相對較為完整。如果需要查詢101學年度以前的紙本論文公開資訊,請聯繫圖資處紙本論文服務櫃台。如有不便之處敬請見諒。
開放時間 available 已公開 available

QR Code