文献一覧: 小川泰嗣 (著者)

3 0 0 0 日本語情報検索システム評価用テストコレクションBMIR ? J2

著者: 木谷強小川泰嗣石川徹也木本晴夫中渡瀬秀一芥子育雄豊浦潤福島俊一松井くにお上田良寛酒井哲也徳永健伸鶴岡弘安形輝
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日: vol.1998, no.2, pp.15-22, 1998-01-19
被引用文献数: 33

日本語情報検索システム評価用テストコレクションBMIR-J2は、情報処理学会データベースシステム研究会内のワーキンググループによって作成されている。BMIR-J2は1998年3月から配布される予定であるが、これに先立ち、テスト版としてBMIR-J2が1996年3月からモニタ公開された。J1は50箇所のモニタに配布され、多数の研究成果が発表されている。BMIR-J2では、J1に対するモニタユーザからのアンケートの回答と、作成にあたったワーキングループメンバの経験をもとに、テストコレクションの検索対象テキスト数を大幅に増やし、検索要求と適合性判定基準も見直した。本論文では、BMIR-J2の内容とその作成手順、および今後の課題について述べる。BMIR-J2, a test collection for evaluation of Japanese information retrieval systems to be released in March 1998, has been developed by a working group under the Special Interest Group on Database Systems in Information Processing Society of Japan. Since March 1996, a preliminary version called BMIR-J1 has been distributed to fifty sites and used in many research projects. Based on comments from the BMIR-J1 users and our experience, we have enlarged the collection size and revised search queries and relevance assessments in BMIR-J2. In this paper, we describe BMIR-J2 and its development process, and discuss issues to be considered for improving BMIR-J2 further.

2015-02-06 01:14:00
3 + 1 Twitter

https://ci.nii.ac.jp/naid/110002930760

3 0 0 0 スーパーデータベースコンピュータにおけるバケット分散並列結合演算法とその性能予測

著者: 小川泰嗣喜連川優
雑誌: 全国大会講演論文集
巻号頁・発行日: vol.39, pp.1110-1111, 1989-10-16

本論文では、スーパーデータベースコンピュータ(SDC)における結合演算の並列実行法を検討する。SDCは複数のCPUが密結合した処理モジュールを相互結合網により疎結合したハイブリッドアーキテクチャを採用した並列ベータベースマシンである。相互結合網には図1のようなオメガネットワークを用いる。また、各リレーションは水平分割され複数の処理モジュールのディスクに格納される。関係データベースの処理のなかで負荷の重い結合演算に対してハッシュを用いたアルゴリズムが有効であることが知られている。ハッシュ結合演算法では、バケットを処理するモジュールを静的に割り当て、バケットをそのバケットに割り当てられたモジュールに集中して格納すること(バケット集中方式)で簡単に並列処理が実現できる。しかし、データ分布が不均一な場合に各処理モジュールの処理負荷も不均一となるため処理の並列度が低下し、データ分布が均一な場合程の性能が期待できない。これに対し、本論文で提案するバケット分散方式では、各バケットを処理モジュールに分散格納し、各バケットを処理モジュールをデータ分布に基づいて動的に割り当てる。そのためデータ分布が不均一な場合でも各処理モジュールの負荷を等しくするように調整することができ、効率的処理が実現される。以下、2章で従来からの方式であるバケット集中方式の問題点を指摘し、3章でバケット分散方式を提案する。4章でシミュレーションによる性能予測の結果を示し、5章で全体をまとめる。

2012-10-26 14:58:13
3 + 1 Twitter

https://ci.nii.ac.jp/naid/110002879625

1 0 0 0 日本語情報検索システムのためのベンチマークの構築

著者: 小川泰嗣木本晴夫田中智博石川徹也増永良文芥子育雄豊浦潤福島俊一宮内忠信
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告データベースシステム(DBS)
巻号頁・発行日: vol.1994, no.86, pp.145-152, 1994-10-13
被引用文献数: 4

日本語を対象とした情報検索に関する研究開発では、性能(検索精度)の評価に開発元独自の方法が用いられてきた。このような状況に対し、われわれは「情報検索システム評価用データベース構築ワーキンググループ」を設置し、情報検索手法・システムを公正かつ客観的に評価するためのベンチマーク構築を目指している。本稿では、情報検索システムモデル・対象データの特性とサンプル件数・評価法・作成手順などベンチマーク構築に関する現在までの検討内容を報告する。In the research and development of Japanese information retrieval systems, different research groups have been using different measures to evaluate their system because there is no standard or benchmark for them. Our working group in IPSJ-SIGDBS has been developing such a benchmark, and in this report we will present several of its characteristics: IR models, the features and size of texts and queries, evaluation methods, and the development procedure of the benchmark.

2018-05-29 15:45:12
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002945576

1 0 0 0 OA グローバルR&Dオフショアにおける個人能力を引き出すマネジメント

著者: 王洋内平直志小川泰嗣川口敦生
出版者: 研究・イノベーション学会
雑誌: 年次学術大会講演要旨集
巻号頁・発行日: vol.32, pp.793-796, 2017-10-28

一般講演要旨

2018-03-20 10:16:13
1 + 0 Twitter

http://hdl.handle.net/10119/15024

1 0 0 0 D-007 ズーミングメタファによるマルチメディアコンテンツの閲覧方式(D.データベース)

著者: 荒木禎史宮森恒加藤あい小川泰嗣飯沢篤志田中克己
出版者: FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌: 情報科学技術フォーラム一般講演論文集
巻号頁・発行日: vol.3, no.2, pp.17-18, 2004-08-20
被引用文献数: 1

2012-07-16 12:45:04
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110007683723

1 0 0 0 D-013 構造化コンテンツにズーミング操作を関連付ける記述言語の提案(D分野:データベース)

著者: 荒木禎史宮森恒水口充加藤あいステイチゾラン小川泰嗣田中克己
出版者: FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌: 情報科学技術フォーラム一般講演論文集
巻号頁・発行日: vol.4, no.2, pp.31-32, 2005-08-22

2012-07-07 20:00:05
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110007687779

1 0 0 0 日本語文書検索のための頻度情報を用いた効率的部分文字列索引の提案

著者: 小川泰嗣
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.37, no.10, pp.1839-1849, 1996-10-15
被引用文献数: 3

文書における部分文字列の出現を記録する部分文字列索引は単語切り出しのための言語処理が不要という点で日本語文書検索向きである. しかし出現位置情報を捨象しているため誤検索が発生する検索語の長さに応じて検索時間が増大するという問題がありこうした点を改善するためには索引サイズを大きくせざるをえない. すなわち誤検索率・検索時間・索引サイズのすべてに優れた部分文字列索引を実現することは困難であった. 本論文ではユーザの使用する可能性の高い検索語の処理を優先的に高速化し誤検索率・索引サイズを悪化させることなく平均検索時間を短縮する効率的な部分文字列索引を提案する. このために文字および部分文字列の2レベルの頻度を用いる. 文字レベルの出現頻度は二文字組から索引エントリを決定するためのハッシングに利用され検索の高速化および誤検索の低減に作用する. 一方部分文字列レベルの出現頻度は長い部分文字列を独立した索引エントりとして選択するために利用され出現頻度が高く長い検索語の処理の高速化に作用する. 特許要約文10万件(14MB)を用いて検索時間・検索精度・索引サイズの評価実験を行い本手法の有効性を確認できた.Substring indexing method is suitable for Japanese document retrieval systems, because it requires no natural language processing to identify words. A substring index does sometimes create false drops and retrieval time is proportional to the query length, however, an index must be large to reduce false drops or shorten retrieval response. In other words, it's difficult to get good performance measures for false drops, retrieval time as well as index size. We propose a new substring indexing method that shortens the average response time by selectively fastening retrievals of frequently used words, and yet does not either increase false drops or enlarge indexes. We use two kinds of frequency data: (1) Character frequency is used to generate a hash table for character-pairs, both increasing retrieval speed and reducing false drops, (2) Substring frequency is used to select special substring index entries, resulting in quick retrieval for long but highly frequent words. We evaluated our method using 100,000 patent abstracts. Measurement results, including response time, index size and false drop rate, confirmed the effectiveness of our method.

2011-11-07 17:45:08
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002723075