著者
草刈 秀平 近山 隆
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.36, pp.51-58, 2009-03-18
被引用文献数
1

Google の PageRank のように Web ページにランク付けを行う際、Web ページ中の単語など文書の内容のみを用いる手法は、リンク構造を含まない文書にも適用可能なうえ通信や計算コストも低いという利点がある。一方で、ランク値が文書の扱うトピックや含まれるキーワードによって影響されやすいという欠点を持つ。本研究では、その改善策として、df 値の低い単語を排除して特徴素性を選択する手法を提案する。ランダムページを訓練データとして既知の PageRank 値との関係を分析した結果、ランダムのテストページ群や別々のトピックを扱うページ群に対し、いずれも同様の線形関係を再現することができ、トピックの変化に対してロバストであることが示された。Web Page Ranking Method like PageRank of Google, only with words or contents of the documents in the page have advantage that can be applied for documents without Link Structure and low culculation cost. But it also have disadvantage that caluculated Rank Point is easily affected with topics or keywords of the pages. So we propose a method choosing features by its value of df. The relationships trained with random pages and its values of PageRank, can be applied for another random pages and pages with different topics each other. So we find that proposal method is robust for changing of topics.