中島 伸介 張 建偉 稲垣 陽一 中本 レン
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.6, no.1, pp.1-15, 2013-01-23

本研究では,小さいコミュニティから徐々に広がり,最終的に多くの人々に知れわたるような流行語を拡張型流行語と定義し,ブログ記事を時系列解析することで拡張型流行語の早期発見する手法に関する検討を行った.具体的には,すでにメジャーな流行語となったトピックに対し,ブログ上でどのように拡散していったのかを分析することで,早期発見に必要な分析手法について検討した. kizasi.jp で扱っている 3,776,154 ブログサイトで過去 2 年間に投稿された 81,922,977 件のブログ記事データの分析の結果,流行語候補がメジャーな流行語に発達する過程において,総発言数に占める,対象トピックと関連の深いコミュニティからの発言割合が減少しつつ,関連の薄いコミュニティからの発言割合が増加する状況を確認した.また,対象トピックと関連の深いコミュニティの特定手法を検討するとともに,総発言数に占めるこのコミュニティからの発言数の割合の減少状況について分析を行った.さらに,ライバル関係にある複数の流行語候補のランキングに基づく,提案手法の妥当性の検証を行った結果,良好な結果を得た.In this paper, we focus on "gradual buzzwords" that begin from a restricted community, spread little by little to other communities, and finally become widely known to most people, and discuss a method for their early detection by analyzing time-series data of blog entries. We observe the process in which certain topics grow to become major buzzwords and determine the key indicators that are necessary for their early detection. From the analysis results based on 81,922,977 blog entries from 3,776,154 blog websites posted in the past two years, we find that as topics grow to become major buzzwords, the percentages of blog entries from the blogger communities closely related to the target buzzword decrease gradually, and the percentages of blog entries from the weakly related blogger communities increase gradually. We also discuss how to identify the blogger communities which are closely related to these buzzwords, and conduct a slope analysis of percentage variation of blog entries from these closely related blogger communities. Moreover, we verify the effectiveness of the proposed method through experimentation that compares the rankings of several buzzword candidates with popularity competition.
橋本 隆子 白田 由香利 真野 博子 飯沢 篤志
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.41, no.3, pp.71-84, 2000-05-15

放送のデジタル化に伴い,映像情報の補足情報をインデックスとして付加し,そのインデックスを用いて映像情報を検索する方式が各種研究されている.インデックスを利用した映像情報検索方式の一つとして,ダイジェスト視聴に注目し,視聴者ごとに意味的に重要なシーンを判定してパーソナルなダイジェストを可能とするシステムを試作した.またこのダイジェスト視聴システムでは,視聴者が複合事象に対して自分の嗜好を交えた抽象度の高い用語を使って検索できるように抽象インデックスを定義できるようにした.本稿では,まずダイジェスト作成モデルを説明し,それを実現するための映像スキーマ定義言語を説明する.そして,野球番組を対象にして,視聴者の嗜好情報登録及び各種検索が可能なダイジェスト視聴システム及びその検索インタフェースの試作を行ったので,その機能についても述べる.Beyond program contents, digital data broadcasting can deliver additional data as indexes attached to the contents. Using these indexes, users can browse and retrive parts of the program. We have developed a system that can construct a digest of the program on the fly using indexes. The system can extract scenes and restructure them based on the information cbtained from indexes and users would use in describing the scenes they are looking for to those terms actually used in the program indexes. The paper firstly describes a formal model of the digest prodiction and a program schene defintiton language to implement the model. Also, we explain our prototype system of the digest viewing system with a user interface to put in user preferences and various retrieval requirements for baseball programs.
秦 淑彦 廣瀬 竜男 中西 吉洋 田中 克己
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.42, no.4, pp.14-26, 2001-03-15

多数のカメラで撮影され相互に時間同期した多視点映像の応用として,運動会やコンサートなどのイベントにおいてユーザが興味を抱いた被写体を,ユーザが見ているシーンと比べ``よりよく''写している映像シーンを検索することが考えられる.このような応用に対する1つの技術課題は,検索の仕方や被写体に関する十分な知識を持たない一般ユーザが,興味ある被写体を見つけ簡単に問合せを形成できる仕組みを提供することである.もう1つは,ユーザが注目した被写体を``よりよく''写す映像,たとえばズームアップした映像や反対側から撮った映像シーンを探して表示する機能の実現である.本論文ではこれらの課題に対して,カメラメタファに基づく多視点映像の問合せ検索方式を提案する.まず,我々が慣れ親しんだカメラ操作を問合せ形成のためのメタファとする検索カメラを考え,検索カメラのファインダに写る被写体を観察し,興味あるものを探して指定する.次に,興味対象を指定した際の検索カメラの撮影時刻と撮影範囲を問合せ情報として,撮影時刻と撮影範囲をメタデータとして有する多視点映像を時空間上で検索し,興味ある被写体を``よりよく''写している映像区間の集合を得る.検索結果には映像実体データ以外に被写体の写り具合を計算するための情報が含まれ,ユーザの好みに応じた映像を選択して表示する.さらに,提案方式をプロトタイプとして実装し,時空間検索アルゴリズムに対する実験評価を行う.Suppose that, in an event such as a sports meeting or a concert, a user searches and gets video scenes taking interesting objects ``better'' from multiple perspective video that means a collection of mutually-synchronized video data taken by a lot of cameras. For such applications, one of the most important research issues is how to provide a mechanism that a user can find out interesting objects and create appropriate queries easily to get video scenes taking such objects, even if the user does not have enough knowledge about the objects and how to query them. Another issue is how to search video scenes that take the objects ``better''. In this paper, we propose a novel query method with camera metaphor for multiple perspective video. We consider ``query by camera'' with metaphor of video camera operations familiar with an ordinary user in order to create queries. A user finds out and specifies interesting objects while looking at scenes through a query camera's finder. Query parameters are time and focused object areas of the video interval taken by a query camera. Then multiple perspective video data with metadata of their time stamps and focused object areas are searched spatio-temporally. A user can get multiple stream video data taking focused objects and data indicating how the objects are taken in each video scene. We also describe a prototype of our query method and some experimental results of its search algorithm.
佐藤進也 福田 健介 菅原 俊治 栗原 聡
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.48, no.14, pp.69-81, 2007-09-15
1 6

文書に現れる語をノードとし,出現位置が近接しているものどうしをリンクで結び付けることにより得られる共起ネットワークでは,意味的関連性を有する語どうしがクラスタ構造と呼ばれる稠密な相互のつながりを形成している.本論文では,時間経過にともない文書が生成されていく,いわゆる文書ストリームから共起ネットワークを構成し,そこでクラスタ構造が生成される様子を調べた.その結果,共起ネットワークを(相対的に)古い語彙からなる部分と新しい語彙からなる部分に分けたとき,後者において,クラスタの出現という構造上の変化が,実社会の出来事などに起因する語の出現頻度の増大(バースト)に関連していることが明らかになった.In word co-occurrence networks, where two words appearing close to each other in documents are connected by a link, a group of relevant words forms a densely connected subnetwork called a cluster. In this paper, we analyze the process of emergence of the structure in co-occurrence networks generated from document streams. The analysis reveals that, if we restrict our scope to the subnetwork mostly consisting of (relatively) new words, we can associate emergence of the structure with the increase of word occurrence rate (bursts) that arises from real world events.
中村 聡史 山本 岳洋 後藤 真孝 濱崎 雅弘
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.6, no.3, pp.148-158, 2013-06-28

落合 桂一 鳥居 大祐
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.7, no.2, pp.51-60, 2014-06-30

矢野 絵美 北野 有亮 末吉 恵美 篠原 勲 ピンヤポンシニーナット 加藤俊一
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.44, no.8, pp.46-54, 2003-06-15

現状のレコメンデーションシステムでは,購入履歴をレコメンドの基準として利用しているため,消費者は満足のいく情報を受け取ることができない.我々は商品の物理的特徴に基づいて各消費者の主観的な商品の評価基準をモデル化する.そして,各消費者の評価基準に合う商品情報を提供するレコメンデーションシステムを,(1)イメージ語ネット,(2)感性レコメンデーションシステム,(3)匿名感性データベースという構成で構築する.Consumer cannot receive suitable recommendations by the present system because the system uses purchased logs as the criteria. Our research is aiming at modeling each consumer's evaluation process on the specific features of the items. And we have developed the matchmaking and recommendation system of items whose feature matches with the criteria of each consumer's. For this purpose the system is composed of following functions; (i) the taxonomy of impression words, (ii) matchmaking and recommendation systems, (iii) anonymous Kansei database.
鈴木 優
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.6, no.4, pp.46-58, 2013-09-27

本論文は,Wikipediaに記述されている情報の質に関する研究のサーベイである.Wikipediaは,不特定多数の利用者によって容易に編集を行うことができるという特徴から,従来の紙媒体による百科事典と比較して速報性が高いことや,広範囲な情報が得られる利点がある一方で,質が低い情報が含まれるという欠点も存在する.利用者は,必ずしもすべての情報に対して質が高い情報かどうかを適切に判定することができないため,Wikipediaに対して質の高さを測定しようという試みが数多く行われている.本論文では,質の定義についての議論を行ったうえで,現在までに行われているWikipediaに関する調査について紹介し,Wikipediaに含まれる情報に対して,情報の質を測定する研究について紹介する.Wikipedia is one of the most successful and well-known User Generated Content (UGC) websites. Because any user can edit any article, Wikipedia has more and fresher information than existing paper-based encyclopedias. Many experts submit texts to Wikipedia, and the texts should be informative for readers. However, these texts are not reviewed by experts, then the number of poor quality texts are also dramatically increase. On the other hand, many readers cannot easily identify texts which are good quality or not, because not all readers are experts. In this paper, we survey the studies for assessing a quality of Wikipedia articles.
吉田 光男 荒瀬 由紀
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.9, no.1, pp.20-30, 2016-03-31

服部 元 原 隆浩 滝嶋 康弘 菅谷史昭 西尾 章治郎
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.1, no.2, pp.26-37, 2008-09-30

近年,携帯電話やゲーム機,カーナビゲーションシステム,テレビなど,Web ブラウザを搭載している PC 以外の機器が増加している.しかしながら,それらの機器は一般にキーボードを搭載せず,数字ボタンや十字キーなどの限られた入力インタフェース(以下,リモコン型 UI と呼ぶ)のみを備えているものが多い.そのため,Web ページの閲覧は容易に行えるものの,Web ページの検索を行う場面では,試行錯誤しながら検索語入力を行い検索結果を絞り込むという PC と同等の検索手法は困難であることから,リモコン型 UI 端末向けの使いやすい Web 検索方法が求められている.そこで本論文では,閲覧中の Web ページに表示されている語の中からユーザが検索したい語 (注目語) を指定すると,システムが自動的に最適なページを提示するクリック型検索手法を提案する.本手法は,検索に重要な語を注目語の周辺から抽出することを特徴としており,品詞や意味,表示方法などに基づく語単独の重要度と,注目語との距離や共起の度合いに基づく重要度の2つの指標からなる周辺語重要度モデルを利用して,語の重要度を算出している.本手法を実装して検索結果に対する主観評価実験を行った結果,注目語のみで行った検索において評価が低かった検索結果のうち,最大で 63.6% のケースにおいて満足度が向上することを示した.また,2 クリック以内の検索結果に対しては,従来方式のみの場合と比較して,満足するケースが最大で 63.3% から 76.0% に向上することを示した.The Internet today provides an ubiquitous environment for viewing Web pages. Now we can view them on many kinds of terminals such as mobile phones, video game machines, car navigation systems, and television sets, besides PCs. On the other hand, most of them have limited input devices which consist of 9 number buttons and 4 direction buttons, which we call “Remote controller type input devices.” This limitation causes a difficulty to the Internet search task that we have to input correct key words by trying and erring until we find the best Web page. Therefore, we need a search system to make the task easier for Remote controller type input devices. This paper proposes a new search system, click based Web search system, which automatically searches related Web pages with a core word and surrounding words when a user clicks a specified word (the core word). The most important technique used in this system is a method to calculate the importance of each surrounding word based on a surrounding word weighting model. This model consists of the importance based on their parts of speech, meanings and expression, and the importance based on the distance and cooccurernce between a core word and the word. We performed subjective evaluation and showed that the proposed method have achieved a satisfaction rate of 63.6%, which is much higher than the results produced by other common methods on low evaluated cases. When applying to the second click the proposed method helps to increase satisfaction rate from 63.3% when only using common method to 76.0% of the final result.
山本 岳洋 中村 聡史
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.6, no.3, pp.61-72, 2013-06-28

本稿では,印象に基づく楽曲検索実現のために,動画共有サイト上に投稿された楽曲動画を,可愛らしい,切ない,元気がでるといった印象に分類する手法を提案する.楽曲動画の印象分類のため,ユーザの投稿した時刻同期コメントに着目し,単語の品詞,文字の繰返し構造,楽曲のサビ区間の3つを利用する.実験では1,314本の楽曲動画を7印象クラスに分類し,提案手法がF値のマクロ平均で0.659を達成しベースライン手法よりも高い精度を得た.また,楽曲の歌詞や音響特徴量を用いた分類手法とも比較し,提案手法の有効性を示した.This paper proposes a method to classify music video clips, which are uploaded to the video sharing service, into the mood categories such as "cute," "sorrow" and "cheerful." The method leverages viewers' time-synchronized comments posted to video clips to classify the video clips into moods. It extracts features from the comments in the terms of (1) parts-of-speech, (2) lengthened words and (3) chorus parts of the music. Our experimental results showed that out method achieved the best classification performance (Macro F-measure of 0.659) compared with some baselines. In addition, our method outperformed the conventional approaches that utilize lyrics and audio features of musics.
掛下 哲郎 原槙稔幸
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.42, no.SIG01(TOD8), pp.131-139, 2001-01-15

馬緤 美穂 笹野 遼平 高村 大也 奥村 学
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.11, no.3, pp.12-22, 2018-10-17

神谷 孝明 川島 英之 星野 喬 建部 修見
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.10, no.1, pp.24-39, 2017-03-22

本研究はフラッシュストレージをログ用のストレージデバイスとするときにふさわしいWALプロトコルとしてP-WALを提案する.フラッシュストレージは複数のメモリチップに対して並列にアクセスすることで高い性能を発揮する.P-WALはフラッシュストレージの特性を活用し,各ワーカが専用の領域にログを書き込む並列ログ書き込み方式を用いる.この方式により従来の直列WAL方式で発生する,排他制御処理とストレージI/Oにともなう性能低下問題を解決する.P-WALをトランザクションシステム上で実装し,性能評価を行った.その結果,P-WALは直列WAL方式に対してマイクロベンチマークで10.0倍,TPC-Cベンチマークにおいて2.3倍の性能向上を示した.This paper proposes a new WAL protocol, P-WAL. We first demonstrate that parallel write operations well perform on a flash storage. P-WAL exploits the features of the flash storage. P-WAL lets each worker writes log records to its dedicated storage space. This design eliminates both the contentions on WAL buffer and the inefficient I/O operations where the conventional sequential WAL method suffers from. We design and implement P-WAL on a prototype transaction manager, and evaluate it with benchmarks. The result of experiments showed that P-WAL outperformed the conventional WAL. The improvement factors were 10.0 on micro-benchmark and 2.3 on TPC-C benchmark respectively.
木村 文則 前田 亮 波多野 賢治 宮崎 純 植村 俊亮
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.49, no.7, pp.59-71, 2008-03-15

本論文では,Web 文書の言語横断情報検索において,Web ディレクトリの階層構造を利用して問合せの検索対象分野の推定に基づいた検索手法を提案する.提案手法では,Yahoo! カテゴリのような複数の言語版を持つWeb ディレクトリを問合せ翻訳における訳語の曖昧性解消のための言語資源として利用し,Web ディレクトリの下層のカテゴリを上位のカテゴリに統合したうえで,利用者が入力した問合せ語群から検索対象分野の範囲を推定することで,問合せ語群の最適な訳語に翻訳することにより,言語横断情報検索を行う.評価実験では,Web 文書の言語横断情報検索に適切なカテゴリ統合度がどの程度であるのか検証し,提案した検索対象分野の推定の有効性を検証した.In this paper, we propose a cross-language information retrieval (CLIR) method based on an estimate of query domain related with search results using hierarchic structures of Web directories. To get the most appropriate translation of the queries, we utilize the Web directories written in many different languages as multilingual corpus for disambiguating translation of the query and estimate a domain of search results using hierarchical structures of Web directories. Experimental evaluations showed that we could have an advantage in retrieval accuracy using our proposal for disambiguating translation in CLIR system.
谷 直樹 風間 一洋 榊 剛史 吉田 光男 斉藤 和巳
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.10, no.2, pp.31-41, 2017-06-28

村井 聡一 牛尼 剛聡
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.6, no.4, pp.24-34, 2013-09-27

「立ち読み」は書籍選別に有効な手段である.これまでにも,ユーザのクエリに基づいて効果的な選別を行う手法は提案されているが,未読の小説においては,ユーザは小説本文に含まれるキーワードをクエリとして指定することは困難である.本論文では,Web上で閲覧できる電子化された小説を対象とし,「立ち読み」を始める箇所の効率的発見を支援するインタフェースを提案する.本インタフェースでは,小説の選別においては,小説の内容に興味をひかれるかどうかが重要と考え,「物語の進行における興味をひく度合いの推移」を可視化した興味喚起度マップを利用する.興味喚起度マップでは,ユーザの興味をひく度合いが高い単語が密に出現する箇所が,ユーザの興味をひく度合いが高いと考え,単語の興味をひく度合いは,小説のレビューを用いて推定する.興味喚起度マップは,層構造を持ち,上位の層は全体像の把握ために利用し,下位の層は詳細な内容の把握のために利用する.本インタフェースでは,ユーザが興味喚起度マップ上の単語をクリックすることによって,効率的に「立ち読み」を行うことができる.被験者による実験によって,本インタフェースを利用した「立ち読み」によって,Webブラウザを用いた「立ち読み」よりも,電子化された小説を効果的に選別できることが示された.Book browsing is one of effective methods to select books in bookstores. Some techniques have been proposed for supporting effective book selection based on user queries, but people can hardly give sufficient queries for unread novel. In this paper, we proposed a browsing interface for supporting a user to decide whether the user reads an electronic novel effectively on the web. Our interface provides an attractiveness map, which visualize a transition of attractiveness in a target novel, for effective selection of a novel. An attractiveness map has a layered structure and a section where high attractiveness words appear in high density has high value. The attractiveness of a term in a novel is estimated automatically from online book reviews of the novel. A user can browse the electronic novel effectively by clicking on attractiveness terms on the attractiveness map. Experimental results show that browsing of our interface supports users to decide whether the user would like to read a target novel or not more efficiently than browsing of a web browser.
山家 雄介 中村 聡史 アダム ヤトフト 田中 克己
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.1, no.1, pp.88-100, 2008-06-26

ブログなどの普及により情報発信の裾野が広がるにつれて,Web 検索結果から有用なページを発見するのは困難になる一方である.最近ではユーザのブックマーク行動を集約することによって価値のあるページを抽出する,ソーシャルブックマークのような取り組みがさかんになりつつある.本稿では,ソーシャルブックマークにおけるページのブックマーク数などの情報を用いて,検索結果のページの内より有用なものを上位に提示する再ランキング手法を提案する.次に,提案手法を多数のクエリに対して適用し,検索結果に含まれるページの順位変動率や,ページの種類などを調査・分類し,どのような検索目的に本アプローチが有効なのかを明らかにした.
白川 真澄 中山 浩太郎 原 隆浩 西尾 章治郎
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.5, no.3, pp.51-63, 2012-09-28

語句をカテゴリ (トピック) に分類した概念辞書は,文書分類をはじめ様々なアプリケーションの基盤リソースとして必要とされている.代表的な概念辞書である WordNet は一般語を網羅的に定義しているが,固有名詞や専門用語,新語はあまり網羅されていない.一方,大規模 Web 百科事典である Wikipedia はそのような語句を数多く定義しており,また,語句を分類するためのカテゴリ構造を有している.しかし, Wikipedia のカテゴリ構造は,複数の親やループを許容するネットワーク構造であるため,ある語句がどのカテゴリに属しているかを判別するのは難しい.そこで本研究では,グラフ理論に基づいて Wikipedia のカテゴリネットワークを解析し,確率的に語句を分類する手法を提案する.また,語句の確率的分類の結果を教師データとし,ナイーブベイズによる文書分類を行う. Web 検索のスニペットを代表的な 8 カテゴリに分類するタスク,および科学に関するニュースのスニペットを 8 つの領域に分類するタスクにおいて評価を行い,提案手法の有効性を確認した.
内海 慶 小町 守
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.6, no.1, pp.16-28, 2013-01-23

近年のウェブ検索エンジンの多くはクエリ拡張機能やクエリ書き換えを備えている.これらの機能の実現にはシソーラスや同義語辞書を用いるが,人手での辞書作成はコストがかかる.そのため,ウェブ検索ログやクリックスルーログを用いた同義語獲得の研究が行われている.これまでに提案された手法では,生成モデルである Noisy Channel Model によって同義語獲得をモデル化しており,柔軟な素性設計が行えなかったため,クエリと同義語候補の表層の編集距離を素性として追加する等が難しかった.我々は,この問題に対処すべく,同義語獲得に識別モデルを用いた手法を提案する.クエリ書き換えのための同義語辞書では, 1 つのクエリに対してより適切と考えられる 1 つの同義語を登録する.そのため同義語獲得手法には,同義語候補が複数ある場合には最適な候補を 1 位に提示することが求められる.そこで提案手法では,クエリと同義語候補の表層に基づく素性を利用した ListNet を用いて 1 位正解率を直接最大化する.また,従来の識別モデルでは,有効な組合せ素性の追加等,素性エンジニアリングを行う必要があったが,我々は ListNet に隠れ層を導入することで,素性エンジニアリングなしに有効な組合せ素性の生成と重み付けを可能とした.これにより, Noisy Channel Model を用いた従来の手法に比べ,より高い精度で同義語を獲得することができた.Recent web search engines often employ query expansion and query reformulation techniques. These techniques use thesauri and synonym dictionaries, but manually making dictionary requires time and costs. Thus, automatic acquisition of synonymous expressions using web-search logs and click-through logs has been studied. One of the previous work formulates the synonym extraction problem as a generative process using the noisy channel model, but since generative models do not allow flexible feature design, it is difficult to use as features edit distance between the surface of a query and its synonym. To deal with this problem, we employed discriminative approaches for synonym extraction. When creating a synonym dictionary for query reformulation, only one synonym which better leads to appropriate search results is registered for each query. Therefore, it is required that the synonym acquisition method for query reformulation must pick an optimal entry if there are several synonym candidates. Hence we propose to maximize the 1-best accuracy using ListNet with features based on the surface of a query and its synonym to achieve the goal. Moreover, though most traditional discriminative methods require feature engineering to find efficient combinations of features, we automate this process by introducing hidden layers to the ranking function. Our proposed method outperformed previous method based on the noisy channel model in the task of synonym extraction.