Code Classification Based on Structure Similarity
Malware Classification, Source Code, Static Analysis, Structure Similarity
隨著誘捕系統愈來愈健全,誘捕系統所蒐集到的惡意軟體原始碼也日漸增加,藉由分析惡意軟體的原始碼可以得到最正確的惡意軟體分類,因此本論文提出一個自動化惡意軟體分類機制。本研究藉由誘捕系統所擷取之惡意軟體原始碼,利用惡意軟體檔案結構相似度以及原始碼檔案相似度,透過階層式分群演算法(Hierarchical Clustering Algorithmn)之方法,不但可以正確的將新捕捉到的惡意軟體分類到正確的類別,也可以快速地找出新類型的惡意軟體。本論文提出的方式可以大幅度減少數位鑑識者針對同一類型的惡意軟體重複進行高成本的分析,亦可在最短時間內了解攻擊者行為以及意圖。本研究透過實驗證明,系統除了可以將惡意軟體原始碼做正確的分類外,亦可應用於其他有原始碼分類需求的領域。
Automatically classifying malware variants source code is the most important research issue in the field of digital forensics. By means of malware classification, we can get complete behavior of malware which can simplify the forensics task. In previous researches, researchers use malware binary to perform dynamic analysis or static analysis after reverse engineering. In the other hand, malware developers even use anti-VM and obfuscation techniques try to cheating malware classifiers.
With honeypots are increasingly used, researchers could get more and more malware source code. Analyzing these source codes could be the best way for malware classification. In this paper, a novel classification approach is proposed which based on logic and directory structure similarity of malwares. All collected source code will be classified correctly by hierarchical clustering algorithm. The proposed system not only helps us classify known malwares correctly but also find new type of malware. Furthermore, it avoids forensics staffs spending too much time to reanalyze known malware. And the system could also help realize attacker's behavior and purpose. The experimental results demonstrate the system can classify the malware correctly and be applied to other source code classification aspect.
目次 Table of Contents
誌謝 II
中文摘要 III
Abstract IV
目錄 V
圖次 VII
表次 IX
第一章 緒論 1
第一節 研究背景 1
第二節 研究動機 2
第三節 研究目的 3
第二章 相關文獻 4
第一節 惡意軟體分類 4
第二節 原始碼比對 7
第三節 相似度計算 7
第三章 問題定義與研究方法 11
第一節 問題定義 11
第二節 系統架構與流程 16
第三節 相似度定義 18
第四章 系統評估 24
第一節 樣本蒐集 24
第二節 實驗一:自行改寫之原始碼獨立檔案依變異階段順序輸入 25
第三節 實驗二:自行改寫之原始碼獨立檔案隨機輸入 28
第四節 實驗三:自行改寫之原始碼壓縮檔案隨機輸入 30
第五節 實驗四:誘捕系統所蒐集可疑下載 34
第五章 結論及未來展望 43
第六章 相關文獻 44
