著者
西岡 真吾
出版者
日本ソフトウェア科学会
雑誌
コンピュータ ソフトウェア (ISSN:02896540)
巻号頁・発行日
vol.26, no.4, pp.4_87-4_106, 2009-10-27 (Released:2009-11-16)

大規模な文書集合について各種の連想計算を高精度かつ高速に処理することができ,高度な情報検索を必要とする応用プログラムで使用可能な汎用連想計算エンジンGETAを紹介する.GETAの設計にあたって重視した点は(1)大規模な自然言語コーパスを扱えること,(2)様々な応用プログラムで利用できること,(3)ユーザが自由に類似度を定義できること,(4)推定などによらない完全な計算結果を返すこと,(5)高速であることである.また,十分な可用性を確保するためにプラットフォームに対する要求は大容量の主記憶装置と近代的なオペレーティングシステムのみとした.上記5点を満たすために大部分のコードをC言語で記述した.さらに,主記憶装置を節約するためのデータ圧縮機能,高速な計算のための類似度定義からC言語への変換機能などを備えている.GETAは学術用から商用に至るまで様々な応用プログラムで利用されており,数百万件規模の文書集合に対しても実用に耐え得るスケーラビリティを持つ.