著者
木谷強 小川 泰嗣 石川 徹也 木本 晴夫 中渡瀬 秀一 芥子 育雄 豊浦 潤 福島 俊一 松井 くにお 上田 良寛 酒井 哲也 徳永 健伸 鶴岡 弘 安形 輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.2, pp.15-22, 1998-01-19
被引用文献数
33

日本語情報検索システム評価用テストコレクションBMIR-J2は、情報処理学会データベースシステム研究会内のワーキンググループによって作成されている。BMIR-J2は1998年3月から配布される予定であるが、これに先立ち、テスト版としてBMIR-J2が1996年3月からモニタ公開された。J1は50箇所のモニタに配布され、多数の研究成果が発表されている。BMIR-J2では、J1に対するモニタユーザからのアンケートの回答と、作成にあたったワーキングループメンバの経験をもとに、テストコレクションの検索対象テキスト数を大幅に増やし、検索要求と適合性判定基準も見直した。本論文では、BMIR-J2の内容とその作成手順、および今後の課題について述べる。BMIR-J2, a test collection for evaluation of Japanese information retrieval systems to be released in March 1998, has been developed by a working group under the Special Interest Group on Database Systems in Information Processing Society of Japan. Since March 1996, a preliminary version called BMIR-J1 has been distributed to fifty sites and used in many research projects. Based on comments from the BMIR-J1 users and our experience, we have enlarged the collection size and revised search queries and relevance assessments in BMIR-J2. In this paper, we describe BMIR-J2 and its development process, and discuss issues to be considered for improving BMIR-J2 further.
著者
小川 泰嗣 喜連川 優
雑誌
全国大会講演論文集
巻号頁・発行日
vol.39, pp.1110-1111, 1989-10-16

本論文では、スーパーデータベースコンピュータ(SDC)における結合演算の並列実行法を検討する。SDCは複数のCPUが密結合した処理モジュールを相互結合網により疎結合したハイブリッドアーキテクチャを採用した並列ベータベースマシンである。相互結合網には図1のようなオメガネットワークを用いる。また、各リレーションは水平分割され複数の処理モジュールのディスクに格納される。関係データベースの処理のなかで負荷の重い結合演算に対してハッシュを用いたアルゴリズムが有効であることが知られている。ハッシュ結合演算法では、バケットを処理するモジュールを静的に割り当て、バケットをそのバケットに割り当てられたモジュールに集中して格納すること(バケット集中方式)で簡単に並列処理が実現できる。しかし、データ分布が不均一な場合に各処理モジュールの処理負荷も不均一となるため処理の並列度が低下し、データ分布が均一な場合程の性能が期待できない。これに対し、本論文で提案するバケット分散方式では、各バケットを処理モジュールに分散格納し、各バケットを処理モジュールをデータ分布に基づいて動的に割り当てる。そのためデータ分布が不均一な場合でも各処理モジュールの負荷を等しくするように調整することができ、効率的処理が実現される。以下、2章で従来からの方式であるバケット集中方式の問題点を指摘し、3章でバケット分散方式を提案する。4章でシミュレーションによる性能予測の結果を示し、5章で全体をまとめる。
著者
小川 泰嗣 木本 晴夫 田中 智博 石川 徹也 増永 良文 芥子 育雄 豊浦潤 福島俊一 宮内 忠信
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS)
巻号頁・発行日
vol.1994, no.86, pp.145-152, 1994-10-13
被引用文献数
4

日本語を対象とした情報検索に関する研究開発では、性能(検索精度)の評価に開発元独自の方法が用いられてきた。このような状況に対し、われわれは「情報検索システム評価用データベース構築ワーキンググループ」を設置し、情報検索手法・システムを公正かつ客観的に評価するためのベンチマーク構築を目指している。本稿では、情報検索システムモデル・対象データの特性とサンプル件数・評価法・作成手順などベンチマーク構築に関する現在までの検討内容を報告する。In the research and development of Japanese information retrieval systems, different research groups have been using different measures to evaluate their system because there is no standard or benchmark for them. Our working group in IPSJ-SIGDBS has been developing such a benchmark, and in this report we will present several of its characteristics: IR models, the features and size of texts and queries, evaluation methods, and the development procedure of the benchmark.
著者
小川 泰嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.37, no.10, pp.1839-1849, 1996-10-15
被引用文献数
3

文書における部分文字列の出現を記録する部分文字列索引は 単語切り出しのための言語処理が不要という点で日本語文書検索向きである. しかし 出現位置情報を捨象しているため誤検索が発生する 検索語の長さに応じて検索時間が増大する という問題があり こうした点を改善するためには索引サイズを大きくせざるをえない. すなわち 誤検索率・検索時間・索引サイズのすべてに優れた部分文字列索引を実現することは困難であった. 本論文では ユーザの使用する可能性の高い検索語の処理を優先的に高速化し 誤検索率・索引サイズを悪化させることなく平均検索時間を短縮する効率的な部分文字列索引を提案する. このために 文字および部分文字列の2レベルの頻度を用いる. 文字レベルの出現頻度は二文字組から索引エントリを決定するためのハッシングに利用され 検索の高速化および誤検索の低減に作用する. 一方 部分文字列レベルの出現頻度は長い部分文字列を独立した索引エントりとして選択するために利用され 出現頻度が高く長い検索語の処理の高速化に作用する. 特許要約文10万件(14MB)を用いて検索時間・検索精度・索引サイズの評価実験を行い 本手法の有効性を確認できた.Substring indexing method is suitable for Japanese document retrieval systems, because it requires no natural language processing to identify words. A substring index does sometimes create false drops and retrieval time is proportional to the query length, however, an index must be large to reduce false drops or shorten retrieval response. In other words, it's difficult to get good performance measures for false drops, retrieval time as well as index size. We propose a new substring indexing method that shortens the average response time by selectively fastening retrievals of frequently used words, and yet does not either increase false drops or enlarge indexes. We use two kinds of frequency data: (1) Character frequency is used to generate a hash table for character-pairs, both increasing retrieval speed and reducing false drops, (2) Substring frequency is used to select special substring index entries, resulting in quick retrieval for long but highly frequent words. We evaluated our method using 100,000 patent abstracts. Measurement results, including response time, index size and false drop rate, confirmed the effectiveness of our method.