著者
倉島 健 岩田 具治 星出 高秀 高屋 典子 藤村 考
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.2, pp.30-41, 2013-03-29

ユーザの過去の行動履歴から次の行動を予測し推薦するためのジオトピックモデルを提案する.提案モデルは,ユーザの行き先が,1) 家,勤務地,学校などが存在するユーザの行動範囲からの近さと,2) ユーザ自身の興味情報によって決まるという仮定に基づく確率的行動モデルである.ユーザの行動範囲が場所の選択に与える影響を明示的にモデリングすることで,位置情報(緯度,経度)以外の潜在的な場所特徴とそれに対するユーザの興味を効果的に学習することができる.評価実験においては,ユーザの興味情報を推定することでユーザの行動を高精度に予測できることを,レストランとランドマークの訪問履歴を用いて示す.さらに,人々のランドマーク選択を説明するためのユーザの興味対象が"アート","自然","建築物","知名度","眺めの良さ"などの潜在的なランドマーク特徴であることを明らかにした.This paper proposes a method that analyzes the location log data of multiple users to recommend locations to be visited. The method uses our new topic model, called Geo Topic Model, that can jointly estimate both the user's interests and activity area hosting the user's home, office and other personal places. By explicitly modeling geographical features of locations and users, the user's interests in other features of locations, which we call latent topics, can be inferred effectively. Experiments are conducted using Flickr-based and Tabelog-based location logs to evaluate the recommendation performance of the proposed method in terms of the accuracy of predicting visit selections. We also show that our model can estimate latent features of locations such as art, nature, construction, popularity and great views from location logs of landmark visits, and describe each user's preference based on them.
著者
三好 健文 寺田 祐太 川島 英之 吉永 努
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.4, no.2, pp.35-51, 2011-07-01

動的再構成可能ストリーム処理エンジンDR-SPEのプロセッサアーキテクチャを提案する.ストリーム処理エンジンは,ときどき刻々と変化するデータの流れであるストリームデータに対して,SQLライクな宣言的クエリ言語を用いて,関係演算や算術演算を適用できる.DR-SPEは並列処理による高い処理性能を実現すると同時に,高速なクエリ登録や演算子実行順序切換えをサポートする専用ハードウェアによるストリーム処理エンジンである.DR-SPEが提供する演算子は,Streams on Wiresと同等である.本論文では,提案するアーキテクチャをFPGA XC6VLX240T-1上に実装し,クエリの構成時間および処理性能を評価する.評価の結果は,DR-SPEはStreams on Wiresと同等のスループットを実現しながら,85μ秒でクエリを構成できることを示す.
著者
若宮 翔子 李 龍 角谷 和俊
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.3, pp.159-176, 2013-06-28

今日の都市における交通ネットワークの複雑化や人々の活動領域の拡大などにより,都市空間での近接感は単に地理的な距離だけでなく移動時間や訪れる頻度によって歪んでおり,あらゆる場所間の近接関係を直感的に測ることが困難である.そのため,ユーザの目的ごとに距離や時間などの観点から都市空間での近接性の歪みを考慮して近接したところを容易に探せるようにする必要がある.本研究では,経験的・社会的な観点から生じる空間の歪みによる都市地域の複雑な近接関係を抽出するために,位置ベースSNSを通した群衆の移動経験に基づく地域間の近接性分析手法を提案する.具体的には,都市空間での膨大な群衆のライフログが簡単に得られるTwitterを用いて実空間における群衆の移動経験を観察し,市区町村を単位とした地域間の近接性を測定し,都市空間における地域クラスタ間の空間的な歪みを分析する.実験では,Twitterにおける群衆のライフログと社会調査の一環として地域間の移動量を集計したパーソントリップOD量データを用いて群衆の移動経験を抽出し,移動距離,移動時間,移動量の観点で測定した地域クラスタ間の近接性を比較する.また,日常生活における規則的な移動に関する調査結果であるパーソントリップOD量データと比べ,Twitterのデータを用いた群衆の移動経験では,より多様な目的の移動経験を中心とした地域クラスタ間の近接性を観察することが可能であることを示す.
著者
油井 誠 小島 功
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.4, no.4, pp.11-33, 2011-12-28

本論文では無共有計算機設計においてデータウェアハウス処理を行ううえでタプルの再分散の問題に着目し,タプルの再分散を必要としない並列データベース構成法を述べる.特にΦハッシュ分割と呼ぶ,タプルの再分散を必要としないテーブル分割手法を提案する.Φハッシュ分割ではノード数に対するスケーラビリティを維持しながら,TPC-Hなどの複雑なデータ分析問合せを並列処理することができる.TPC-HのSF=100による評価実験で,提案手法がMapReduceに基づく競合システムHiveに対して顕著な性能面での優越(3.1倍~19.9倍)があることを示すとともに,我々の問合せ処理手法の現実装における有効範囲と制限に考察を与える.
著者
山本 岳洋 中村 聡史
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.3, pp.61-72, 2013-06-28

本稿では,印象に基づく楽曲検索実現のために,動画共有サイト上に投稿された楽曲動画を,可愛らしい,切ない,元気がでるといった印象に分類する手法を提案する.楽曲動画の印象分類のため,ユーザの投稿した時刻同期コメントに着目し,単語の品詞,文字の繰返し構造,楽曲のサビ区間の3つを利用する.実験では1,314本の楽曲動画を7印象クラスに分類し,提案手法がF値のマクロ平均で0.659を達成しベースライン手法よりも高い精度を得た.また,楽曲の歌詞や音響特徴量を用いた分類手法とも比較し,提案手法の有効性を示した.
著者
清水 敏之 寺田 憲正 吉川 正俊
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.11, pp.224-234, 2007-06-15
被引用文献数
2

利用者が文書に対して検索を行う際に,検索要求が検索結果文書中のどの部分と関連しているのかが分かることは有用である.たとえば,大量の学術論文の中から,ある話題に関連する章や節などの部分文書のみを拾い読みしたいという要求は高いと考えられる.近年,様々な文書がXMLで構造化されている.XML文書の構造を利用することで部分文書も対象とする検索が可能となる.そのため,XML文書に対する情報検索に関する研究がさかんになってきた.そこで我々はXML文書に対してキーワード集合による検索を行うシステムであるKikori-KSを開発した.キーワード検索は,XML文書のスキーマを知っている必要がなく,XML専用の問合せ言語に対する知識も必要ないため,多くの一般的な利用者が利用可能である.検索結果として入れ子するXML部分文書を単位として用いるため,我々は検索結果提示インタフェースが重要であると考え,今回開発したKikori-KSでは,XML文書検索のための検索結果表示インタフェースを用意した.キーワード検索に必要な情報は関係データベースに格納し,利用者が入力したキーワード集合に対して関連するXML部分文書を取得し,インタフェースを通じて利用者に提示する.我々は大量のXML部分文書を効率的に扱うために,実体化結合ビューを生成して検索の高速化を実現した.広く利用されている関係データベースを用いることで汎用性の高いシステムが構築できる.INEXテストコレクションを利用した実験では,Kikori-KSが実用的な検索速度と比較的高い適合性を持つことを確認した.Identifying meaningful document fragments is a major advantage achieved by encoding documents in XML. In scholarly articles, such document fragments include sections, subsections and paragraphs. XML information retrieval systems need to search document fragments relevant to queries from a set of XML documents. We present Kikori-KS, an effective and efficient XML information retrieval system for XML documents. Kikori-KS accepts a set of keywords as a query. This form of query is simple yet useful because users are not required to understand XML query languages or XML schema. To meet practical demands for searching relevant fragments in XML documents, we have developed a user-friendly interface for displaying search results. Kikori-KS was implemented on top of a relational XML database system developed by our group. By carefully designing the database schema, Kikori-KS handles a huge number of document fragments efficiently. Our experiments using INEX test collection show that Kikori-KS achieved an acceptable search time and with relatively high precision.
著者
吉岡 真治 劉 亦奇 神門 典子
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.5, no.3, pp.141-148, 2012-09-28

近年,地理情報を扱う情報システムの増加にともない,地理情報に関するデータベースへのニーズが高まっている. GeoNames は, Open Data としては,最大規模の地理情報データベースである.本データベースを Linked Open Data として Wikipedia の情報を媒介として関連づけることにより, Web Ontology の開発などに役立てられている.ただし, GeoNames と Wikipedia の間のリンクについては,自動的なリンク発見の試みがいくつか行われているものの,十分な数のリンクが付与されている状態ではない.本論文では, Wikipedia のカテゴリ情報を使うことで,精度良く Wikipedia のページに対応する GeoNames のエントリを発見する方法を提案する.また,本手法は,既存のリンク中の不適切なリンクを発見する際にも利用可能であることを示す.本手法の成果については,すでに, GeoNames の管理者に報告しており,その成果の一部は, GeoNames 中のリンク情報として公開・修正が行われている.Recently, due to the higher demand for geographic information system, it is necessary to have a good geographical database for such systems. GeoNames is one of the largest geographical database as Open Data. This database is also used for constructing web ontology by adding links to the Wikipedia page as a part of Linked Open Data. Even though, here are several attempts to find links automatically, the number of links between GeoNames and Wikipedia is not sufficient. In this paper, we propose an automatic link discovery method to use Wikipedia categories to identify the correspondence between Wikipedia page and GeoNames entry. We also propose to use this method for inappropriate link detection. Link data obtained in this paper is already sent to the manager of GeoNames and a part of the result is used for updating the site.
著者
堀田 創 萩原 将文
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.1, pp.46-56, 2009-03-31

本論文では,人間関係ネットワークに基づく情報推薦システムの提案とその実装について述べる.提案システムは,(1) ユーザプロファイル構築,(2) アイテム選択,(3) プリファレンス情報の更新の 3 つのアルゴリズムから構成されている.(1) ではプリファレンス情報と人間関係ネットワークに基づいてユーザプロファイルが構築され,(2) でユーザプロファイルに基づいたアイテム選択が行われる.プリファレンス情報はユーザへのアイテム提示およびクリックを基にした情報であり,(3) においてシステムへのアクセスログが参照され更新される.実装においてはアクセスログの処理および 2 段階のアイテム選択がバックエンドプロセスとして行われることで,オンラインでの計算量の軽減を図っている.また実装されたシステムは広告配信システムとして実際の Web サービス上で運用された.評価実験では,ランダムな広告配信と比較し 1.9 倍の推薦効果が得られた.This paper describes the design and implementation of a recommender sytem using social networks. The proposed system consists of the following three algorithms; (1) Construction of user-profile; (2) Filtering items by profile data, (3) Updating preference data. In (1), user-profiles are constructed based on preference data and social networks. In (2), one item is selected by using constructed user-profile. Preference data are generated from behavior logs, updated in (3). The proposed system has been implemented as an advertisement delivery system. To reduce the calculation cost in one session, processes of log analysis and item selection are previously performed as backend processes. According to experimental results, the efficacy of the proposed system was 1.9 times higher than that of randomly delivering.
著者
相良 毅 喜連川 優
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.11, pp.49-57, 2007-06-15
被引用文献数
3

Webから地理情報を抽出する手法の1つに,あらかじめ検索対象のリストを作成し,クローリングによって得られた情報を各検索対象に関連づける登録型検索手法がある.登録型検索手法は,リストを用意せずにオンデマンドに検索を行う非登録型検索手法に比べ,より多くの情報を高い精度で収集できるという長所があり,評判情報抽出など情報の精度を必要とする処理には適しているが,リストに登録されていない対象に関する情報を収集することができないという欠点がある.そこで,登録型検索手法により収集されたWebページを対象として非登録型検索手法を援用することにより,リストにない新規店舗を高い精度で検索し登録できる手法を提案し,登録支援システムを開発した.To extract geographical information from the Web, there are two typical approaches. The 1st one is preparing all geographical entities as a list, and crawled web pages will be linked to them by analyzing their content. The other one is retrieving web pages on demand with keywords given by the user, extract addresses from the pages to locate them to the ground. The 1st approach is more precise and able to acquire more information in general, so the approach is suitable for reputation / opinion extraction, however, no entities on the list can not be retrieved by the approach. Therefore, we have applied the 2nd approach to find new shops which are not on the list, from the web pages retrieved by the 1st approach. Since the web pages retrieved by the 1st approach contain many shop information in high probability, the proposed method can extract new shops efficiently. A prototype registration support system is also developed.
著者
帆足 啓一郎 上向 俊晃 松本 一則 滝嶋 康弘
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.3, pp.41-52, 2009-09-30
被引用文献数
1

本研究では,過去の研究において筆者らが提案した,位置情報付き写真共有 Web サイト上から収集した画像に対し,その位置情報と色特徴に基づいてクラスタリングを行うことにより,Points of Interest (POI) を表す画像群 (POI クラスタ) を自動的に抽出する手法に加え,抽出された POI クラスタに関連するランドマークの名称を自動的に推測する手法の提案と評価を行う.具体的には,POI クラスタの場所と領域に基づき,地図検索を行い,POI クラスタ周辺のランドマークの名称を収集し,次に,各ランドマーク名称を検索クエリとして Web 画像検索を行い,ランドマークに関連する画像情報を収集し,POI クラスタ内の画像との類似度を算出することにより,POI クラスタの画像との関連度が高いランドマーク名称を推測する.東京都心で撮影された画像群を対象とした評価実験により,提案手法によるランドマーク推測の有効性を実証する.This research proposes a novel method to associate specific landmarks to points of interest (POIs), i.e., areas that are expected to be of interest to many users, which can be automatically extracted by clustering geo-tagged images based on their geographical location and color features. Namely, the proposed method first collects images from the Web, by using the names of the landmark candidates of the extracted POIs as Web image search queries. The collected images are used as references of the respective landmarks. The landmark representing each POI is then determined, based on the content-based similarity between the images in the POIs, and the Web images of the landmark candidates. This approach makes possible the automatic construction of a landmark identification system for geo-tagged images. The effectiveness of the proposed method is proved by evaluation experiments conducted with images in the Tokyo metropolitan area.
著者
藤田 遼治 太田 学
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.3, pp.78-87, 2010-09-28

我々は,検索結果の推移を用いてユーザの検索意図を推測し,ユーザの代わりに検索質問を生成して検索する先読み検索を提案する.本研究では,検索結果の推移に加え,ユーザが入力した検索質問の変化パターンを利用してユーザの検索意図を推測する.本稿では実装したプロトタイプシステムを,擬似適合性フィードバックによる検索,および Google が示す検索キーワード候補による検索と比較することにより評価を行った.さらに,先読み検索において検索質問変化パターンを考慮することの効果を定量的に評価した.We propose a prediction search which infers a user's search intention based on a change in the search results and searches for an automatically generated query on behalf of the user. In addition to the change of search results, we also utilize a change of the user's queries for inferring its search intention. In this paper, we evaluated our implemented prototype system by comparing it with pseudo-relevance feedback retrieval and the retrieval of Google suggested queries. We also quantitatively evaluated the effect of utilizing a user's query change patterns for the prediction search.
著者
佐藤進也 風間 一洋 福田 健介 村上 健一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.46, no.8, pp.26-36, 2005-06-15
被引用文献数
4

巨大なデータベースであるWeb から知識を抽出する一手法として実世界指向Web マイニングを提案する.従来のマイニングでは主に統計的な処理によりデータの特徴が抽出されていた.これに対し,実世界指向マイニングでは,実世界を意識したデータの解釈,具体的には,実世界のエンティティがデータの中にどのように現れ,相互にどういう関係を形成しているかを調べる.この考え方をWeb における人物の識別に適用し,同姓同名人物の分離を行った.これは,与えられた人名が出現するWeb ページを同一人物ごとにグループ分けするタスクで,本手法を用いた場合,平均9 割以上の高い率で正しく処理できることを確認した.This paper proposes a technique called "real-world oriented Web mining" for extracting knowledge from the Web regarded as a huge database. While conventional mining techniques search for characteristics of data mostly by statistical analysis, the proposed technique interprets data from real-world oriented point of view. In more concrete terms, it locates real-world entities in the data and analyzes relationships among them. This idea has been applied for performing a task to distinguish between people on the Web with the same first and last name. The task is to classify Web pages with a given person's name into groups each of which corresponds to a person in the real world. With the proposed technique, people have been identified with accuracy more than 90% on average.
著者
油井 誠 森嶋 厚行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.44, no.12, pp.11-22, 2003-09-15
被引用文献数
3

我々はオープンソースのRDBMSであるPostgreSQLとそのXML拡張であるXMLPGSQLを利用し,多機能なXMLデータベース環境を構築した.本環境ではXMLをPostgreSQLに格納し,XMLとしてアクセス可能なインタフェース群を提供する.本環境が多機能であるとは,次の機能をすべて持つことを指している.(a)DOM準拠関数によるアクセス機能,(b)XPathによるアクセス機能,(c)格納されたXMLの更新機能.機能(a),(c)はすでにXMLPGSQLが提供しているので,構築にあたっては特に機能(b)の実装を行った.また,この機能の追加にともない,機能(c)の変更も行った.本論文ではこれらについて説明する.本論文の貢献は,研究コミュニティが開発した成果などを,オープンソースRDBMSに適用した事例を示すことである.本環境はさらに次の特徴を持つ.(1)現在まで別々に行われていた研究や開発の成果などを組み合わせ,多くの機能をそれ1つで提供するオープンソースの環境を提供する.(2)研究プロジェクトではあまり重要視されてこなかった詳細機能の実装も行う.(3)PostgreSQL専用とし,構築にあたってはユーザ定義関数などの,必ずしもすべてのRDBMSがサポートしていない機能も利用する.We developed a multifunctional XML database environment using PostgreSQL, an opensource RDBMS and XMLPGSQL, an XML extension. The environment decomposes XML documents into fragments and uses PostgreSQL to store them in a set of relations. Users do not have to know that they are stored as relations. It provides a variety of means to access XML documents; (a) DOM functions to build and traverse XML documents, (b) XPath engine to extract information from documents, and (c) update functions to modify documents. Since XMLPGSQL provides functions (a) and (c), our focus was on development of function (b) and modi fications of funcion (c). Our main contribution is to show a case where we applied the fruits of research and development activities to an opensource RDBMS. The features of the projects are as follows: (1) we combine separately-developped technologies to construct one integrated environment providing multi-functionality, (2) we implement details that tend to be ignored by research prototype systems, and (3) we do not hesitate to use PostgreSQL's features (such as user-de fined functions) to construct the environment.
著者
宮川 明子 清木 康 宮原 隆行 北川 高嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.41, no.1, pp.1-10, 2000-02-15
被引用文献数
2

画像データなどのメディアデータを対象としたデータベースシステムの実現において,検索者が求めるメディアデータを適切かつ高速に抽出することは重要である.本論文では,意味の数学モデルを拡張した意味的画像連想検索を対象とした高速化アルゴリズムの実現方式を提案する.意味の数学モデルは,文脈あるいは状況に応じて動的に変化するデータ間の意味的な関係を計算するモデルである.本論文で提案するアルゴリズムは,指定された時間内の限られた計算回数で有効な検索結果を得ることを目的としたものである.このアルゴリズムによる意味的画像検索の実験を行い,実験の結果よりその有効性を明らかにした.In the database system design for multimedia database, it is important to develop a correct and fast retrieval method for media data(e.g. image, music). This paper proposes a fast algorithm and its implementation method for semantic associative image search based on our mathematical model of meaning. This model has been designed for computing semantic relation between data items dynamically accoding to context and situation. The objective of this algorithm is to obtain the available and correct retrieval results within the given limited time in the semantic associative search. This paper also shows some experimental results of semantic image search to clarify the feasibility and effectiveness of the proposed algorithm."
著者
北山 大輔 宮本 節子 角谷 和俊
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.4, pp.65-81, 2010-12-21

近年,オンライン地図をはじめとする地図サービスが多く提供されるようになってきている.ユーザはこれらの地図サービスを用いて,旅行先や飲食店を探すなど,興味がある地理オブジェクトを探索する.しかしながら,これらの地図サービスにおいて地理オブジェクトの表示様式は,地図の提供者により決定されている.一方,地図を利用する目的はユーザにより異なり,すべてのユーザが同じ情報を求めているわけではない.そのため,状況に適合し,かつ,ユーザの意図に沿った表示オブジェクトを呈示する手法が必要とされる.そこで,本研究では,地図上の表示オブジェクトをカスタマイズする手法を提案する.本手法では,オンライン地図のユーザ操作と表示オブジェクトの出現パターンによりユーザの意図を抽出し,ユーザの意図に沿った表示オブジェクトを決定する.すなわち,ユーザの地図上での目的オブジェクトの発見支援を行うために表示オブジェクトをカスタマイズした地図を呈示する.本稿では提案手法に基づきプロトタイプを作成し,評価実験を行った.
著者
廣嶋 伸章 戸田 浩之 松浦 由美子 片岡 良治
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.3, pp.33-45, 2010-09-28

Web 検索において,あるクエリが入力された際に,そのクエリの種別を知ることができれば,それに応じてシステムの応答を変化させることが可能となり,適切な検索結果を提示することができる.たとえば,あるクエリの種別が 「グルメ」 であることが分かれば,レシピ検索とブログ検索の結果を提示することができる.このようなシステムの応答を変化させるための条件であるクエリの種別をクエリタイプと呼ぶことにする.クエリの属するクエリタイプを知ることで,上で述べたような利便性の高い検索サービスが実現できる.そこで本論文では,様々なクエリに対してクエリタイプを判定する手法を提案する.提案手法では,単語に対してその単語の分野を表す概念ベクトルが付与された概念ベースを参照して,クエリに関する文書から得られたクエリ分野ベクトルと各クエリタイプ分野ベクトルとのコサイン距離に基づきクエリタイプを判定する.実験では,27 のクエリタイプに対し,提案手法単独で 64.6%,Wikipedia などの情報を利用した手法を組み合わせることにより 77.1% の精度で判定を行うことができた.
著者
藤田 遼治 太田 学
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.3, pp.78-87, 2010-09-28

我々は,検索結果の推移を用いてユーザの検索意図を推測し,ユーザの代わりに検索質問を生成して検索する先読み検索を提案する.本研究では,検索結果の推移に加え,ユーザが入力した検索質問の変化パターンを利用してユーザの検索意図を推測する.本稿では実装したプロトタイプシステムを,擬似適合性フィードバックによる検索,および Google が示す検索キーワード候補による検索と比較することにより評価を行った.さらに,先読み検索において検索質問変化パターンを考慮することの効果を定量的に評価した.
著者
数原 良彦 宮原 伸二 植松 幸生 金田 有二 藤野 昭典 片岡 良治
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.3, pp.99-111, 2010-09-28

情報検索において,機械学習の枠組みでランキング関数の最適化を行うランキング学習が重要な課題である.従来のランキング学習手法では人手による適合性評価,もしくはクリックログから得られる訓練データを利用してきた.我々は,これらの複数情報源を適切に利用し,より高精度なランキング学習を達成することを目標とする.我々は複数情報源から得られる訓練データは,適合性分布が異なると考えた.そのため,訓練データの適合性分布が同一であることを仮定している従来の教師あり学習に基づくランキング学習手法では,複数情報源を用いたランキング学習の実現が困難だと考えられる.そこで我々は,分布が異なる訓練データを用いて転移学習の枠組みに着目し,転移学習をランキング学習に適用することによって適合性分布が異なる複数の情報源を用いたランキング学習の実現を試みる.本稿では,転移学習の枠組みに基づくランキング学習手法 TRankBoost を提案し,商用モバイルウェブ検索エンジンの実データを用いた評価実験によって有効性を検証した.評価実験により,TRankBoost によって,従来手法である RankingSVM,RankBoost と比べて NDCG@5,10 の値で上回る精度のランキングを実現することを示した.
著者
稲垣 陽一 中島 伸介 張 建偉 中本 レン 桑原 雄
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.3, pp.123-134, 2010-09-28

本研究ではブロガの体験熟知度に基づいたブログランキングシステムの開発を行った.ユーザが入力した検索キーワードに対して,関連するトピックを複数抽出し,各トピックに関するブロガの体験熟知度を算出する.これに基づいてブログエントリのランキングを行う.熟知度スコアが高いブロガ (熟知ブロガ) が書いたエントリは,熟知度スコアが低いブロガが書いたエントリよりもランキングが上位となる.ブロガの熟知度スコアは,ブロガが過去に投稿したエントリ内で,各トピックに関して共起に基づいて抽出した特徴語をどれほど使ったかを分析することで算出される.なお,開発したシステムは,視点の異なる複数のランキングを提示するとともに,エントリ投稿者 (ブロガ) の特性に関する補助情報を提示している.これにより,ユーザは閲覧するブログエントリの信頼性を自分なりに判断することが可能となる.我々は開発した実証実験システムをWeb上で公開するとともに,これを用いた評価実験を行った.提案システムにより提示される熟知ブロガおよびブログエントリの妥当性が十分に高いことを確認できた.
著者
平尾 努 鈴木 潤 磯崎 秀樹
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.1, pp.1-9, 2009-03-31

従来の文短縮手法の多くは,入力された文を構文木として表現し,その部分木を削除することで,短縮文を生成する.このようなアプローチは文法的な短縮文を生成するという観点からは理にかなっている.しかし,多くの場合,人間は構文木の刈り込みだけで短縮文を生成するわけではない.これは,構文情報に過度に依存することが,高品質な文短縮を行うための妨げとなることを示している.そこで,本稿では,構文情報を用いない文短縮手法を提案する.短縮文の言語としてのもっともらしさを構文情報を用いずに評価するため,原文と大規模コーパスから得た統計情報を組み合わせた新たな言語モデルを提案する.提案手法を文献 18) のテストセットを用いて評価したところ,自動評価指標においては,提案手法が従来法より優れていることを確認した.さらに,提案手法が日本語だけでなく英語でも有効であることも示す.