- 著者
-
岩村 誠
伊藤光恭
村岡 洋一
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.51, no.9, pp.1622-1632, 2010-09-15
本論文では,機械語命令列の類似度算出手法および自動マルウェア分類システムを提案する.機械語命令列の類似度算出に関する提案手法では,新たなマルウェアが出現した際に,過去に収集されたマルウェアとの近さを算出するとともに,過去のマルウェアと共通の命令列および実際に変更のあった箇所を推定可能にする.一方,昨今の多くのマルウェアはパッカによりそのプログラムコードが隠蔽されている.こうした課題に対しこれまで我々は,マルウェアのアンパッキング手法および逆アセンブル手法を開発してきた.本論文では,これらの手法に機械語命令列の類似度算出に関する提案手法を組み合わせ,マルウェア分類システムを構築した.実験では本システムを利用し,3グループのマルウェア検体を分類した.その結果,ハニーポットで収集した約3,000種類のマルウェアであっても,わずか数種類のマルウェアを解析することで,全体の75%程度のマルウェアの機能を把握できることが分かった.さらに,類似度の高いマルウェアに関しては,それらの差分を推定でき,変更箇所にのみ着目した解析が可能なことも分かった.また,本システムの分類結果とアンチウィルスソフトによる検出名の比較では,本システムが同一と判断したマルウェアに関して,アンチウィルスソフトでは異なる複数の検出名が確認される状況もあり,マルウェアに対する命名の難しさが明らかになった.We propose the method for calculating the similarity of machine code instructions and an automatic malware classification system based on the method. Our method enables malware analysts to calculate the distance of known malware to new one and estimate the part that are different. By the way, the machine code instructions of many recent malware are hidden by a packer. For solving the problem, we developed an unpacker and a disassembler. In this paper, we build the automatic malware classification system with a combination of the unpacker, the disassembler and the proposal method for the similarity of machine code instructions. In the experiment, we classified 3 groups of malware. The experiment results show that we can understand 75% of the whole malware functions by analyzing several different types of malware. For the similar pair of malware, the system could estimate the difference, i.e., we could analyze the malware focused on the different part. In the comparison with our system results and the names by anti-virus software, the problems of naming malware emerged, e.g., anti-virus software indicated different names about the malware that our system identified as the same malware.