著者
伊藤 宏隆 都築 賢二 松尾 啓志
出版者
日本知能情報ファジィ学会
雑誌
日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集 第24回ファジィ システム シンポジウム
巻号頁・発行日
pp.169, 2008 (Released:2008-12-06)

著者らはコース管理システムMoodle上で動作する自然言語処理によるレポート類似判定システムを開発した。従来のレポート類似判定法として、TF・IDFを用いるベクトル解析がある。TFは単語の出現頻度、IDFは単語が出現する文書の分布に着目する。ベクトル解析による類似判定は実装上、問題がある。 著者らは新たにBloom Filterを用いた類似判定法を開発した。Bloom FilterはBurton h. Bloomが1970年に考案した確率的データ構造であり、任意のデータdが集合のメンバーXに含まれるかどうかの判定に用いられるアルゴリズムである。Bloom Filterを文書中のある単語が既出かどうかを調べるために用い、類似判定に利用する。 本論文では、従来のベクトル解析による類似判定法を説明する。従来手法の実装上の問題点を明らかにし、Bloom Filterによる類似判定法について詳述する。