- 著者
-
松尾 文碩
佐藤 誉夫
高山 悟
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.36, no.6, pp.1486-1494, 1995-06-15
- 被引用文献数
-
1
情報検索システムのキーワード転置ファイルには、索引の見出し語(キーワード)の内容を格納したファイルがあり、これを文書参照ファイルということにする。見出し語の内容は、文書番号あるいは見出し語の生起位置の線形リストであり、この長さの分布は非常に偏っている。文書参照ファイルにおいて、長短リストを同形式で記憶し、2次記憶アクセス回数を減らすためにブロックサイズを大きくとると、低頻度キーワードのために非常に大きな無駄領域が生じる。本稿では、英文科学技術抄録文に関して、個々の低頻度キーワードの増加は予測できないが、生起回数が同一なものをまとめると、群として増加が予測できることを利用して、低頻度キーワードリストを生起回数ごとに群として管理する方法を提案した。この方法によって無駄領域を大きく減少させることが可能である。