著者
サイウス・シャウル 多田 智之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.2, pp.9-15, 1999-01-20

20世紀後半になって、電子化したドキュメントは最も一般的な通信手段のひとつになった。インターネットなどのネットワーク上で入手できる電子化ドキュメントが増加するにつれ、必要なドキュメントを見つけるのがますます困難になってきている。インターネットやイントラネットの検索エンジンはWWW全体を検索できるように取り組んできた。WWWは急速に成長しており、月に100%以上の成長をする場合もありうる。またその内容はほとんど管理されていないに近く、ドキュメントは頻繁にあらゆるタイミングで、内容が更新されたり、場所が移動したり、消されたりしている。ユーザにとって直感的に分かりやすいインターフェースを提供するために、検索エンジンはインデックス作成や検索実行に形態素解析を使っている。本稿では、高性能のインターネット/イントラネット検索エンジンが直面しているこれらの問題について述べる。Digital documents have become one of the most common means of communication for the human race in the latter half of the 20^<th> century. As the number of digital documents available over data networks, such as the Internet, has increased, so has the difficulty in finding documents on these networks. Internet/Intranet search engines have tackled the problem of allowing people to search the entire set of documents that make up the World Wide Web. The WWW is a set of documents that grows at a rate that is hard to measure, but may be over 100% per month. The content of the WWW is administered in a completely decentralized manner, and documents can change content, location or disappear completely at any time, usually with high frequency. For a search engine to provide an intuitive interface for users to search for pages, search engines use morphological analysis to create and search the index. We will try to review in this paper the issues that face a high performance search engine in the Internet/Intranet environment.