- 著者
-
豊田 健太郎
笹瀬 巌
- 雑誌
- 研究報告コンピュータセキュリティ(CSEC)
- 巻号頁・発行日
- vol.2012, no.4, pp.1-7, 2012-12-07
IP 電話の普及に伴い,販売促進および宣伝といった迷惑電話の出現が問題視されている.着信側は電話に応答して初めてその電話が迷惑電話であるかを判定できるため,迷惑電話を着信前に判定することは,事前に内容を確認できる E メールのスパム判定より困難である.これまで,通話頻度,平均通話時間などの特徴量を用いて,迷惑電話を発信するアカウントを判別する方式が検討されてきた.しかしながら,迷惑電話発信者は複数アカウントを用いることにより,これらの判定方式を用いた場合の判定精度を低減できる.これは従来提案されてきたいずれの手法も単一の特徴量毎に判定を行っているため,各特徴量の閾値の設定が困難になるためである.そこで本論文では,多くのユーザが 1 つの SIP サーバを利用することに着目し,教師なし Random Forests に複数の特徴量を入力し,各ユーザの通話の特徴に関する類似度を基に迷惑電話を発信するアカウントを分類する方式を提案する.教師なし Random Forests を用い,複数の特徴量を用いて各ユーザ間の類似度から分類を行うことで,発信の特性が異なる迷惑電話発信者を,事前学習なしで分類することが可能となる.また,迷惑電話発信者が発信する相手は通話毎に異なり,その通話先から電話が掛け返される割合が低いことに着目し,これらの割合を顕著に表す特徴量を2つ提案する.実際の通話記録およびコンピュータによって生成された通話データを用い,本方式の有効性を示す.As VoIP (Voice over IP) grows rapidly, it is expected to prevail tremendous unsolicited advertisement calls, referred to SPIT(SPam over Internet Telephony). SPIT detection is more difficult to execute than email SPAM detection since the callee or SPIT detection system does not tell whether it is SPIT or legitimate call until he/she actually takes a call. Recently, many SPIT detection techniques are proposed by finding outliers of call patterns. However, most of these techniques suffer from setting a threshold to distinguish that the caller is legitimate or not and this could cause high false negative rate or low true positive rate. It is because these techniques analyse call pattern by a single feature e.g. call frequency or average call duration. In this paper, we propose a multi-feature call pattern analysis with unsupervised Random Forests classifier, which is one of the excellent classification algorithms. By introducing unsupervised Random Forests, we calculate the proximity among users to be classified and detect several types of SPIT callers without a training data. We also propose two features that exploit the fact that a victim differs every call and few people call back to its SPIT caller. We show the effectiveness of Random Forests based classification without supervised training data and which features contribute to classification.