武智 峰樹 徳永 健伸 松本 裕治 田中 穂積
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.44, no.SIG12(TOD19), pp.51-63, 2003-09-15

要素技術としての文書分類は,質問応答やWeb ナビゲーションにおける主要な構成要素である.特に表層的なテキストの特徴を主に利用する質問応答では,与えられた質問のタイプに応じて適切な回答候補を抽出できる分類エンジンが重要である.またWeb ナビゲーションにおいては,従来の質問応答が扱ってこなかった質問も扱う必要があり,そのような質問に対しても適切な回答候補を選び出すための分類技術が求められる.本研究は,Web ナビゲーションが扱う質問のうち,特に手順に関する質問を取り上げ,その回答候補の分類に有効な特徴量を明らかにすることを目的とする.その試みとしてWeb ページにおいてHTML のリストタグが付与されたテキストを記事集合として,それを手順について書かれたテキストとそれ以外のテキストに分類するタスクを考える.検索エンジンを用いて箇条書きを収集し,機械学習の一手法であるSupport Vector Machine を用いた文書分類を行い,その結果の観察に基づいて手順について書かれた箇条書きの抽出に有効な特徴量を考察した.N-gram や語の頻度情報をベースにした手法により,コンピュータ分野に関しては90%以上の精度で分類可能な特徴量の組合せを得た.
図子泰三 吉田 尚史 清木 康
vol.43, no.SIG02(TOD13), pp.216-230, 2002-03-15

本論文では,ドキュメントデータ群を対象とした文脈依存動的クラスタリングの再帰的適用による意味的知識発見方式を提案する.本方式の特徴は,次の2 点にまとめられる.文脈に応じて動的にドキュメントデータ群のクラスタリングを行い,さらにクラスタ群からの知識発見を実現する点,および,共通の性質を有するより多くのドキュメントが含まれるクラスタの抽出を可能とする点である.本方式により,分析対象であるドキュメントデータ群を対象として,文脈や視点に応じた意味的分析結果を動的に得ることが可能となる.応用分野として,医療ドキュメントデータ群を用いたシステム構築,および,実験結果を示し,本方式を適用したマイニングシステムの実現可能性および有効性を明らかにする.
中山 浩太郎 伊藤 雅弘 Erdmann Maike 白川 真澄 道下 智之 原 隆浩 西尾 章治郎
vol.2, no.4, pp.49-60, 2009-12-24

Wikipediaは,インターネットを通じて誰でも編集可能なオンライン百科事典であり,ここ数年で爆発的に成長したソーシャルメディアの一種である.特に,自然言語,人工知能,データベースの研究分野で活発に研究が進められており,連想関係抽出や,対訳辞書構築,オントロジ構築など,数多くのWikipediaを対象とした研究が行われてきた.また,最近では多様なアプリケーションへWikipediaマイニングの成果を適用する事例が報告されており,その有用性が示されてきた.しかし,多量の研究発表が行われる一方で,全体像を把握することが困難になりつつあるのも事実である.本サーベイ論文では,これら最新のWikipedia研究を紹介しつつ,概観することで研究の目的面・技術面から分類し,Wikipedia研究の動向を探る.Wikipedia, an Wiki based online encycropedia, has become an emergent social media because of the significant effeciency for sharing huge amount of human knowledge via Web browsers. Especially, in NLP, AI and DB research areas, a considerable number of researches have been conducted in past several years. Relatedness measurement, bilingual dictionary extraction and ontology construction are ones of main Wikipedia Mining research areas. Furthermore, researches on application based on structured data extracted by Wikipedia Mining are becoming one of the essentials of Wikipedia research areas. In this survey paper, we introduce the new research papers and summarize the researches from both technical aspect and directional aspect.
的野 晃整 小島 功
vol.2, no.1, pp.33-45, 2009-03-31

本稿では,分散環境における RDF 問合せ処理の効率化を目指し,ブルームフィルタを拡張して転送量を減少させる手法を提案する.RDF はメタデータ記述のための枠組みで,近年様々な応用分野に広く利用されており,各地でボトムアップに作成・管理されている.それらの分散した RDF データに対して,横断的・包括的な問合せを行いたいという要求が高まっている.これまで,分散 RDF データ検索に関する研究はいくつか提案されているが,それらの多くは,トップダウンに配置した RDF データに対する処理手法やトリプルパターンマッチングのような単純な検索に関する研究が主であった.我々が提案する手法のような,ボトムアップに作成された RDF データに対して,結合や和集合などの演算を含む高度な問合せ処理の効率化を目指した研究は,これまでほとんど行われていない.提案手法では RDF トリプルに対応した 3 次元のブルームフィルタを用い,問合せ処理時にブルームフィルタ間でビット演算を行うことで,リモート RDF データへアクセスする前に,そのデータが解に含まれているかどうかを判断することができるため,データ転送量を削減でき,処理時間の減少につながる.我々は,RDF 問合せ言語 SPARQL を処理するプロトタイプシステムを作成し,分散環境における RDF データ問合せ処理の効率が向上することを実験によって確認した.
山本 祐輔 山本 岳洋
vol.12, no.1, pp.38-52, 2019-01-16

本稿では,ウェブ検索中のユーザに注意深い情報探索を暗黙的に促す「クエリプライミング」を提案する.クエリプライミングは,批判的思考を喚起し注意深い情報探索や意思決定を促進するようなキーワードを,クエリ補完やクエリ推薦時に提示する.クエリプライミングの有効性を検証するために,クラウドソーシングを用いたオンラインユーザ実験を行った.被験者の情報探索ログ分析および実験のアンケート調査の結果,以下の傾向が明らかになった:(1)クエリプライミングが実装されたウェブ検索エンジンを用いた被験者はセッション中の検索回数が増え,検索結果一覧ページを何度も見直すようになる.(2) クエリプライミングによって,証拠を重視してウェブページを検索・閲覧する行動が促進される.(3)クエリプライミングの効果は被験者の学歴に依存する.本研究で得られた知見は,注意深い情報探索を活性化させる検索インタラクションの設計に寄与することが期待される.In this paper, we propose a novel method, query priming, to activate careful user information seeking during web search process. Query priming employs query auto-completion (QAC) and query suggestion (QS) to show search terms that stimulate critical thinking and encourages careful information seeking and decision making on the web. We conducted a user study using a Japansese crowdsourcing service. Through the user study, we found the followings: (1) Participants using a search user interface with query priming, issued more queries and (re-)visited search engine result pages more frequently. (2) Query priming promoted web page selection targeted at evidence-based decision making. (3) The query priming effect varied relative to participant educational background.
岩井 秀成 土方 嘉徳 西田 正吾
vol.7, no.2, pp.11-23, 2014-06-30

Amazon.comに代表されるショッピングサイトの多くでは,アイテムに対してレビューを簡単に作成・閲覧できる機能が提供されている.レビューに書かれた他者の意見は有用であるが,小説や映画などのストーリーを持ったアイテムに対するレビューには,ストーリーの内容(本稿では「あらすじ」と呼ぶ)が書かれている場合がある.レビューによりあらすじが分かってしまうと,実際に小説や映画を見たときの楽しみや感動が減ってしまい問題である.そこで我々は,あらすじを文単位で検出し除去することを試みる.我々は,このあらすじ検出を実現するために,各文がレビューとしての文脈を維持する形で書かれていること(文脈一貫性)に注目する.本研究では,レビュー文書の文書構造とあらすじ以外の観点に基づくクラス情報を用いたあらすじ文判定手法を提案する.評価実験を行い,文書中における文の位置情報の付与と文脈情報の利用によりあらすじ判定の精度が向上することを確認した.また,被験者実験により,提案手法はユーザが知りたくなかった記述の多くを除去できており,かつ,商品購入の際に意思決定につながる文の多くを表示できていることを明らかにした.Users can write and read reviews of items easily on many Internet shopping sites. Reviews on items like novels and movies can include spoilers (undesired plot descriptions) along with the opinions of the review authors. It is an issue that spoilers might reduce a delight in reading novels and watching movies. Therefore, we try to detect and eliminate spoilers by sentence. In this paper, our target is utilization of contextual coherence that is originally embedded in a review document and makes readers to understand the content easier. We propose a plot classification method using the document structure and the information of multiple classes in reviews. Experimental results show that using position information of a sentence and context information contributes to the improvement of classification results. In addition, a user study shows the proposed method can remove spoilers without removing useful sentences.
Koji Kawamata Kenta Oku
vol.12, no.2, 2019-04-11

We propose Roadscape-based Route Recommender System (R3), which provides diversified roadscape-based routes. Given starting and destination points, R3 provides four types of roadscape-based routes: rural-, mountainous-, waterside-, and urban-prior routes. To reduce the computational cost, we propose a coarse-to-fine route search approach that consists of a roadscape-based clustering method, roadscape cluster graph, coarse-grained route search, and fine-grained route search. We evaluated the performance of R3 using network data for real roads. The experimental results qualitatively show the validity of the generated roadscape clusters by comparing them with Google satellite maps and Google Street View images. The results also show the validity of the roadscape-based route recommendations. Furthermore, the results show that using a coarse-grained route search can significantly reduce the route search time. Finally, we quantitatively evaluate R3 from the perspective of users. The results show that R3 can appropriately recommend roadscape-based routes for given scenarios.------------------------------This is a preprint of an article intended for publication Journal ofInformation Processing(JIP). This preprint should not be cited. Thisarticle should be cited as: Journal of Information Processing Vol.27(2019) (online)------------------------------
野村 恭彦 片山 貴嗣 斉藤研一郎 岡田 謙一
vol.46, no.8, pp.72-81, 2005-06-15

知識の共有・活用は企業の重要課題となっており,そのための情報の蓄積・検索のメカニズムや,掲示板を活用したQ&A メカニズムが提案されてきた.しかし,多くのナレッジ・マネジメントの実践を通して,知識を必要とする人と,その知識を持つ人の間の相互理解や信頼関係がなければ,知識がうまく流れないことが明らかになってきた.本論文では,今は知らない相手でも,出会ったときに「持ちつ持たれつ」あるいは「尊敬しあえる関係」になれる人同士の関係を「潜在ソシアルネットワーク」と呼び,その探索手法の提案を行う.提案手法は,各ユーザの回答可能な知識領域と,各ユーザの持つ知識ニーズを管理し,状況に応じて互恵関係を検索・提示する.プロトタイプを構築し,「私はあなたを助けられるし,あなたは私を助けられる」という関係を提示することが,パブリックに質問を投げて回答を期待する手法に比べ,回答獲得可能性が高く,質問に回答する人の多様性が増すことを示す.Sharing and utilization of knowledge is an important issue among companies. Mechanisms of information retrieval and Q&A by utilizing bulletin board were proposed for such issue. However, it was discovered through number of knowledge management practices, that successful flow of knowledge is difficult if there are no mutual understanding and relationship of trust between those who need the knowledge and those who have such knowledge. In this report, we call "potential social network" which describes the situation where strangers meet each other for the first time and can have relationship of "give and take" or "mutual trust" and will propose its method to search. This method is to manage each user's possible response of knowledge domain and their knowledge needs and search reciprocal relationship according to the condition. Compared to the method that questions the public and wait for their answers, the method that creates prototype and presents the relationship of "I can help you and you can help me," will i crease the possibility of obtaining the response as well as the diversity of the respondents.
高木 徹 木谷強
vol.40, no.8, pp.74-84, 1999-11-15

大規模な文書データベースを対象とするフルテキスト検索では検索ヒット件数が多くなる傾向があるため ユーザの検索作業を支援する観点から 検索結果に対して重要度を付与する必要がある.本論文では 重要度算出方法として文書内における検索語の出現共起情報を用いる手法を提案する.単語の共起情報として、近接出現距離 共起検索語間の関連性 および共起検索語の重要度を用いて共起重要度を算出し 単語頻度情報から得られる文書の重要度と組み合わせて重要度を算出する.日本語の情報検索評価用テストコレクションを使用し 単語頻度情報のみによる重要度付与手法と 共起情報を考慮した提案手法を比較した.この結果 提案手法の平均適合率が約0.098向上(従来手法と比較した場合の向上率37%)することを確認した.Full text search from huge databases tend to give a great number of retrieved documents. To help user's retrieval work, it is necessary to rank them according to their relevance. This paper describes a relevance ranking method using information obtained from query word cooccurrences appearing in the retrieved documents. Distance between query words, their relative relationships in the database, and importance of query words are considered to decide the document relevance. Combined with traditional word frequency ranking, an overall relevance of retrieved documents is calculated. The traditional method alone and the combined method are compared using a test collection consisting of Japanese newspaper articles. Experimental results show that the proposed method improves retrieval recall about 0.098, or 37%compared to the traditional ranking method.
川畑 光希 松原 靖子 櫻井 保志
vol.11, no.1, pp.1-10, 2018-04-17

秋山 賢人 渡辺 知恵美 北川 博之
vol.10, no.4, pp.31-35, 2017-12-13

クラウドサービスの発達にともない,暗号化データベースシステムに関する研究がさかんに行われている.暗号化データベースシステムはデータを暗号化して保存し検索を行うことができるため,データ所有者はクラウドサービスのプロバイダに対してデータを秘匿することができる.一方,データ所有者はクライアントに対してもデータ開示の制御を要求する場合がある.その一例としてデータ所有者がクライアントにデータを販売し,クエリによって得られた情報に対して検索結果を提供する前に費用を要求することなどが考えられる.本稿では,暗号化データベースでの秘匿検索フレームワークOSITにおいてデータ販売をする場合のクエリマーケットスキームを提案する.クエリによってクライアントが得る情報をヒストグラムで表し,情報利得スコアをエントロピーで定義した.実験ではこのスコアが問合せによって減少し,すべてのデータがクライアントにわたったときに0となることを示した.With the development of cloud services, privacy preserved query schemes for encrypted database systems have been proposed. In the system, queries can be processed without decryption, therefore the data owner can preserve the confidential data against the cloud service provider. On the other hand, the data owner may require the data disclosure control towards the clients in case that the data owner sells the data to the client. In this case, we consider that the data owner may require the fee according to the amount of data the client obtains before returning the result. In this paper, we propose a data marketing scheme by using the secure query processing framework OSIT on the encrypted database system. We express the information which the client obtains from a query by histogram, and we define the information gain score by conditional entropy. From experiment, we show the score decreases by a query, and the score is zero when the client obtains all attribute values in the data. We assume the contract of buying and selling data between the data owner and the client. Then, we propose a method to calculate the information gain score for the query result.
佃 洸摂 大島 裕明 山本 光穂 岩崎 弘利 田中 克己
vol.7, no.1, pp.1-17, 2014-03-28

堂前 友貴 関 洋平
vol.7, no.3, pp.1-13, 2014-09-26

梅本 和俊 中村 聡史 山本 岳洋 田中 克己
vol.6, no.3, pp.132-147, 2013-06-28

鈴木 優 吉川 正俊
vol.3, no.3, pp.20-32, 2010-09-28

本研究では,Wikipedia において記事の信頼度を算出する際に,重要となる著者であるキーパーソンを簡易な方法で推定し,それら重要な著者の情報だけを利用して信頼度を算出することによって,すべての著者の情報を利用して信頼度を算出する方法よりも高速で精度の高い信頼度を算出する手法の提案を行う.これは,記事の大部分は少数の著者によって記述されているため,多くの著者の編集はその記事の信頼度には影響しないと考えることができ,それら多くの著者が行った編集を信頼度算出に用いないことにより,信頼度の算出にとって不要なノイズを除去することができると考えたためである.評価実験において信頼度が正しく算出できたかどうかを確かめた結果,確かに信頼度の精度が向上したことを確認することができた.さらに,提案手法を用いることにより,信頼度を計算するための計算コストを削減することも可能となった.
仲尾 由雄
vol.42, no.10, pp.39-53, 2001-09-15

関連文書の比較作業を支援するには,類似の話題を扱った関連箇所を対比して提示することが有効と考えられる.また,関連箇所が,関連文書中でどのように分布しているかを図示することは,関連文書の対応関係を総合的に理解する助けとなろう.本稿では,このような考えから,文書間をまたがる関連箇所を自動的に抽出する新しい手法を提案する.提案手法は,文書対に共通する話題を検出し,それぞれの話題に対して関連箇所の対を抽出する手法である.この際に,語彙的結束性に基づき認定した話題階層を利用して,様々な粒度の話題間の関連度を求め,比較していることに特徴がある.国会における代表質問と答弁を対象に行った実験では,抽出された関連箇所の組の約8割が正しく同一の話題に対応し,また,新聞に要旨として掲載された内容の約6割は,抽出された関連箇所の対から読み取れることが分かった.This paper presents a novel method for extracting related passages in multiple documents that is intended to be used to help a person who wants to compare the content of multiple documents. The aim of the algorithm is to extract the best matching pair of document portions for each topic commonly included in the documents to be compared. For the documents to be compared, the algorithm first detects individual thematic hierarchies based on lexical cohesion measured by term repetitions. It then compares a pair of thematic hierarchies in terms of various grading topics, and selects closely-related pairs of thematic units. In an experiment using proceedings of interpellations in the National Diet of Japan, the algorithm extracted correct pairs of related passages in a ratio of 80% and identified 60\% of major topics that had been reported in newspaper articles.
田上 諒 木村 輔 宮森 恒
vol.10, no.3, pp.45-57, 2017-10-05

近年,ユーザからの多様な情報要求を満たす技術として,質問応答などの自動解答技術が注目されている.しかし,それらの技術は,大学入試をはじめとする現実に即した多様で複雑な質問に対して,現状では十分に対応できているとはいい難い.たとえば,大学入試などにおける文書中の空欄部分の単語を解答するような穴埋め型問題に対して,従来手法では,主に語順を考慮しない検索ベースのファクトイド型解答技術が用いられているため,十分な正答率を得られていない.本稿では,大学入試二次試験の世界史穴埋め型問題を対象とし,語順を考慮した自動解答手法を提案する.具体的には,問題文解析時に穴埋め部分の周辺単語から解答カテゴリを推定し,解答候補抽出に利用するとともに,解答候補評価時に,カテゴリとの一致性や周辺単語の既出状況などを用いた指標を導入することで解答候補を評価する.特に,解答カテゴリを推定する際には,語順を考慮した分散表現による単語予測モデルを導入する.実験では,まず,単語予測モデルの精度を比較する.また,ベースライン手法と提案手法を比較し,提案手法を解答処理に取り入れることで,正答率にどのような変化があるかを明らかにする.Recently, automatic answering technologies such as question answering have attracted attention as a technology to satisfy various information requests from users. However, it is difficult to say that these technologies can adequately respond to the diverse and complicated questions in realistic situations including university entrance examinations. For example, conventional methods can not provide correct answers sufficiently for the slot filling questions in the university entrance examinations, because retrieval-based factoid-type answering technologies are mainly used, which do not consider word order. In this paper, we propose an automatic answering method considering word order for the slot filling questions in the university entrance examination world history problems. In particular, when in analyzing the question sentence, the answer category is estimated from the surrounding words of the filling slot and used for extracting the answer candidates, and these candidates are evaluated by introducing the indicator using the consistency with the category, and the occurrence situation of the surrounding words. Especially, we introduce a word prediction model by distributed expression considering word order in estimating the answer category. In the experiment, we first compare the accuracy of the word prediction models. In addition, we compare the proposed method with the baseline method and clarify what kind of change is observed in the correct answer rate by incorporating proposed method.
神谷 孝明 川島 英之 星野 喬 建部 修見
vol.10, no.1, pp.24-39, 2017-03-22

河合 由起子 官上 大輔 田中 克己
vol.46, no.8, pp.14-25, 2005-06-15

近年,RSS リーダにみられるように複数のWeb サイトにまたがって存在している同じテーマのコンテンツをまとめて閲覧できるシステムが求められている.しかし,既存のWeb の情報統合法では,収集した大量の情報をシステムの持つ固定の分類体系を基にカテゴライズするため,そのシステムの分類体系を把握していない利用者にとっては,欲しい情報を速やかに獲得することが困難である.本研究では,利用者がすでに分類体系を把握しているWeb サイトのポータルページのレイアウトを通して,収集・分類し統合した情報を提示できるMy Portal Viewer(MPV)を提案する.また,MPVは収集した情報を利用者の閲覧履歴に基づき動的に分類するという特徴を持つ.これにより,利用者は興味に基づき分類された情報を使い慣れているポータルページを通して閲覧でき,大量の情報を効率的にブラウジングできる.本稿では,ニュースサイトを具体例としてあげ,使い慣れているニュースサイトのポータルページを指定することで,既知の分類体系を通して興味に基づき分類され統合された記事をまとめて提示できるMPV のプロトタイプを構築し,検証する.We propose a novel web information integration system "My Portal Viewer" (MPV) to realize more efficient news articles browsing. Although a variety of systems such as RSS readers have been developed to provide integrated content from multiple web sites, the existing systems present another difficulty to the users, i.e., they still have to search the integrated content pages for the information they want because they are often unfamiliar with the page layout and the content categorization rules implemented in the systems. To solve this problem, MPV provides integrated content to a user with the appearance of the user's favorite web site. Because the user has enough knowledge about the content layout, it is easier for the user to obtain information from the integrated content page. Furthermore, MPV categorizes web content dynamically based on the user's access history which reflects the user's interest. In this paper, we describe the basic algorithms used in MPV and a prototype implementation specialized for news content.
山本 岳洋 中村 聡史 田中 克己
vol.4, no.2, pp.74-87, 2011-07-01

我々は膨大な検索結果をさまざまな観点から閲覧し,効率良く多くの方法を閲覧するための仕組みとして,検索結果全体の俯瞰的インタフェース(タームクラウド)と語ベース適合フィードバックに基づく検索結果の再ランキングシステムを提案してきた.提案してきた俯瞰的インタフェースは有効なものであったが,提示する単語は単純な語の出現頻度に基づき選ばれていたため,ユーザの再ランキング行為を促進するには不十分であった.そこで本稿では,よりユーザの興味を引く単語を提示するため,"有名な観光地"や"美味しい和菓子屋"といった観点に着目し,そうした観点をQ&Aコンテンツから抽出する手法を提案する.ユーザ実験の結果,提案手法により得られた観点は,従来のクエリ推薦や頻度に基づく単語抽出手法に基づく手法に比べてユーザの興味を引く単語を多く提示可能であることが分かった.We have previously proposed a system that reranks Web search results based on users' term-based feedback. The system enables users to explore search results from diverse viewpoints. We have also proposed an interface called TermCloud which are generated from frequent terms appear in Web search results. However, these terms are not enough to support users reranking operations. In this paper, we propose a method to extract aspects like "famous spots" or "delicious restaurant" by using Q&A contents in order to suggest users more interesting terms. The results from the user experiments revealed that our method could provide more interesting terms than several baseline methods including conventional query suggestions.