著者
若宮 翔子 ヤトフト アダム 河合 由起子 秋山 豊和 荒牧 英治
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.9, no.3, pp.14-24, 2016-09-30

Twitterに代表されるソーシャルメディアはイベント検出で頻繁に活用されている.このようなシステムでは,ツイートを特定の時間や位置に割り当てるために,タイムスタンプ(日時)やロケーションスタンプ(緯度経度)などのメタデータが重要な役割を果たしている.一方で,コンテンツに書かれたテキスト文中の時間や位置に関する表現は曖昧な場合があり,メタデータよりも信頼性が落ちることから,十分な活用が困難であった.このため,我々はメタデータと時空間表現の差異分析を可能とする,大規模ソーシャルメディアデータの可視化システムを開発している.本稿では,特に空間に対する群衆の関心を分析するため,ツイートの発信位置(メタデータ)とコンテンツテキスト中の位置表現の差異を可視化するシステムを提案する.実験では,約3カ月分の米国で発信されたツイートを用いて3種類のデータビューを構築し,空間的な尺度に基づき群衆の空間的関心に関する分析結果の例を示して考察する.提案したフレームワークや考察は,ソーシャルメディアデータの地理的・社会的な側面に関心を持つユーザにとって有用であると考えられ,また,将来的に,テキストの位置情報を用いたメタデータの補完に有用であると期待される.
著者
本田 崇人 松原 靖子 根山 亮 櫻井 保志
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.9, no.3, pp.1-13, 2016-09-30

本論文では,車両走行データのための自動パターン検出手法であるTRAILMARKERについて述べる.TRAILMARKERは,位置情報をともなう様々な車両走行センサデータが与えられたときに,おのおのの道路や場所における車両走行の特徴を抽出し,それらの情報を統計的に要約,表現する.すなわち,走行データに基づく高度な道路地図情報を提供する.具体的に提案手法は,(a)車両走行データをテンソルとして表現した後,そこから複数の部分シーケンスに共通する主要な走行パターンを抽出する.(b)その際の計算量は入力データのサイズに対して線形である.さらに,最も重要な点として,(c)提案手法はパラメータに依存しない.すなわち,事前情報の付与またはパラメータのチューニングを行うことなく,大規模車両走行データの特徴抽出とパターン検出を自動で行うことができる.実データを用いた実験ではTRAILMARKERが様々な車両走行データの中から主要パターンや外れ値シーケンスを効果的かつ効率的に検出することを確認した.
著者
伊藤 正彦 豊田 正史 喜連川 優
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.8, no.1, pp.27-44, 2015-03-30

本稿では,Web上の画像や放送映像を含む多メディア画像を用いた時系列画像3次元可視化システムを提案する.近年,Webメディアは,従来型のマスメディアの影響を受けると同時に,マスメディアへ影響を与えるようになってきており,社会事象を分析する際には複数メディア間の話題の広がりを分析することが重要となってきている.また,これらのメディアでは,テキストの代用として積極的に映像・画像を用いることで,文章だけでは伝えきれない,その時々の話題および興味を視覚的に伝えており,社会分析において,これらの映像・画像情報を追跡した分析は不可欠となる.提案するシステムでは,Webメディアおよび放送映像から抽出された様々な話題に関する時系列画像群を画像ヒストグラムとして3次元空間に可視化することで,流行の推移,トピック間の違い,メディア間の関係などを視覚的に探索可能にする新たな可視化システムを実現した.実際に,本システムを,大規模なブログアーカイブとニュース映像アーカイブに適用したアプリケーションをいくつか紹介し,様々な探索事例を示すことで提案システムの有用性を示す.This paper proposes a novel 3D visualization system for exploring temporal changes in trends using image flows in multiple medium. Our use of media has changed dynamically in the last decade; mass and social media affect each other. It is important to compare how multiple medium are affected by real-world events and how each medium affects other media. Media provides many representative images, such as scenes of accidents and disaster, the design of products and commercial pictures, to explain the reality of events without text. It is important for analyzing media and society to trace and explore such images flowing on the media. Our system visualizes flows of images extracted from one or multiple medium in a 3D space. We arrange histograms of images related to multiple topics from different types of media in the 3D space by stacking them on timelines to explore changes in trends in each topic, and compare differences in exposure among topics and medium. We implement application systems using proposing visualization system on a huge blog archive and a news video archive, and report the usefulness of our system by using various exploration examples.
著者
上田 高徳 佐藤 亘 鈴木 大地 打田 研二 森本 浩介 秋岡 明香 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.2, pp.85-97, 2013-03-29

Webクローラは,クローリング済みURLの検出やWebサーバに対する連続アクセス防止といった処理を実行しながらデータ収集を行う必要がある.Web空間に存在する大量のURLに対して高速な収集を実現するために並列分散クローリングが求められるが,省資源でのクローリングを行うためにも,処理の時間計算量と空間計算量の削減に加え,計算機間の負荷分散も必要である.本論文で提案するWebクローラは,クローリング処理をProducer-Consumer型のモジュール群で実行することにより,これまでの被クロールWebサイト単位での負荷分散でなく,Webクローラを構成するモジュール単位での負荷分散を実現する.つまり,Webクローラを構成する各モジュールが必要とする計算機資源に応じた分散処理が可能になり,計算機間での計算負荷やメモリ使用量の偏りを改善することができる.また,ホスト名やURLを管理するモジュールは時間計算量と空間計算量に優れたデータ構造を利用して構成されており,大規模なクローリングが省資源で可能になる.Web crawlers must collect Web data while performing tasks such as detecting crawled URLs and preventing consecutive accesses to a particular Web server. Parallel-distributed crawling is carried out at a high speed for the enormous number of URLs existing on the Web. However, in order to crawl efficiently, a crawler must realize load balancing between computers in addition to reducing time and space complexities in the crawling process. The Web crawler proposed in this paper crawls the Web using producer-consumer modules, which compose the crawler, and it realizes load balancing per module and not per crawled Web site. In other words, it realizes load balancing that is appropriate to certain computer resources necessary for the modules that compose the Web crawler; in this way, it improves biases in computation loads and memory utilization between computers. Moreover, the crawler is able to crawl the Web on a large scale while conserving resources, because the modules that manage host names or URLs are implemented by data structures that are temporally and spatially efficient.
著者
奥 健太 中島 伸介 宮崎 純 植村 俊亮
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.SIG11(TOD34), pp.162-176, 2007-06-15

本論文では,ユーザの状況に応じて適切な情報を提供する状況依存型情報推薦システムのプロトタイプを提案する.膨大な情報からユーザの嗜好に合致する情報を提供する手法として,情報推薦システムに関する研究が行われているが,ユーザのそのときの状況(時間帯や天気,同伴者,予算など)に応じて変化するユーザの嗜好に対し,柔軟に対応することは容易ではない.そこで我々は,状況に応じて変化するユーザの嗜好を適切にモデル化する手法を提案した.本論文では,このモデル化手法を適用した状況依存型情報推薦システムのプロトタイプを提案し,検証実験に基づいて,提案手法の評価を行った.この中で,提案手法であるコンテクスト依存型情報フィルタリングとコンテクスト依存型協調フィルタリングの有効性や特長の違いを明らかにするとともに,対象コンテンツの特徴パラメータの最適化に関して考察した.
著者
高村 大也 松本 裕治
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.44, no.SIG03(TOD17), pp.1-10, 2003-03-15

Latent Semantic Indexing(LSI)などの次元圧縮手法による構成的帰納学習法を,サポートベクターマシン(Support Vector Machine,SVM)と組み合わせて文書分類に応用した場合の振舞いを論じる.SVM の分類能力は,通常用いられる次元圧縮では向上させることが困難である.しかし,次元圧縮手法により変換された文書ベクトルを素性として元のベクトルに追加することにより,その向上が可能であることを示す.実験では,次元圧縮に用いる未知データの量が十分大きい場合に精度改善が見られた.
著者
荻野 晃大 加藤俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.47, no.4, pp.28-39, 2006-03-15
被引用文献数
6

本論文では,感性検索システムを効率的に設計,開発するための手法として,「感性システムモデリング」を提案する.感性検索システムとは,マルチメディアコンテンツの間の類似性や印象に関する各個人の主観的な評価に基づいて,その人に最適なコンテンツをデータベースやインターネットから検索するシステムである.我々の提案する感性システムモデリングでは,システム開発者の感性検索システムの設計を支援するために,(1) コンテンツの間の類似性や印象を各個人が知覚,解釈する過程を抽象化し,その過程を模倣した感性検索システムを設計するための図式的なモデル「感性フレームワークダイアグラム」と,(2) 感性検索システムの設計工程とその工程でのシステム開発者の作業を示したモデル「感性システムプロセスモデル」を定義した.本論文では,この感性システムモデリングを用いた感性検索システムの設計法と設計事例を示す.In this paper, we proposed a design method, KANSEI System Modelling, for KANSEI retrieval systems, which retrieve multimedia contents suitable for individual's subjective criteria about similarity or impression to multimedia contents. In the KANSEI System Modelling, we defined two methods to help a design and development of KANSEI retrieval systems for system engineers. One method is KANSEI Framework Diagram, which is a diagram to simulate and design an individual's evaluation process of similarity or impression to multimedia contents as a system process. The KANSEI Framework Diagram expresses an individual's evaluation process by abstracting it to 4 levels, which are a physical, physiological, psychological and cognitive. Second method is KANSEI System Process, which shows a design process of KANSEI retrieval systems for a prompt and smooth design. We showed a usage and sample of the KANSEI System Modelling in this paper.
著者
宝珍輝尚 都司 達夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.41, no.1, pp.11-21, 2000-02-15
参考文献数
29
被引用文献数
3

本論文では,マルチメディアデータの内容表現に使用することを目的として,有向グラフ,再帰グラフ,ならびに,超グラフの概念を導入したデータモデルを提案する.提案するデータモデルでは,データ実体を再帰有向超グラフとして表現する.このデータ実体を表現するグラフを実体グラフと呼ぶ.また,実体グラフの集まりを集積グラフとして扱う.さらに,集積グラフの構造を表現するシェイプグラフを導入する.演算はグラフの書き換えによるものであり,再帰的な問合せたパス上の正規表現による問合せを可能としている.本論文では,概説に続いて定義を示し,その後,実体グラフの枝の終始要素の深さを利用すると実体グラフを分割して表現できるか決定できることを示す.また,書き換え演算は複合値を扱うように拡張したdatalogプログラムで記述できることを明らかにする.This paper propose a data model incorporating the concepts of directed graphs, recursive graphs, and hypergraphs in order to represent the contents of multimedia data. In the proposed data model, an instance is represented with a directed recursive hypergraph. This graph is called an instance graph. A collection of instance graphs is managed as a graph named a collection graph. A shape graph, which represents the structure of a collection graph, is also introduced. An operation rewriting collection graphs is introduced to manipulate the collection graphs. This operation enables users to make recursive queries, and specify regular expressions on paths. This paper presents an illustrative example, and the formal definition of the proposed data model. It is clarified that whether the instance graph may be divided can be decided by using the depth of the initial and/or terminal elements of the edges of an instance graph. Moreover,the operation can be converted into the datalog program extended to treating complex values.
著者
上川 伸彦 岩崎 一正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.42, no.1, pp.140-147, 2001-01-15
被引用文献数
1

近年,画像に対する高速類似検索への要求が高まっている.画像の類似検索は画像としての特徴を表す多次元ベクトルの距離計算で実現されることが多いため,多次元ベクトルに対するインデクス手法が注目されている.従来の多次元インデクス手法といえるツリー構造の多次元検索手法は,適用可能であるベクトルはせいぜい数次元程度である.しかし,画像の類似検索においては,特徴を表す多次元ベクトルは数十次元ないし数百次元に及ぶ.そこで,本論文では,画像の類似検索の特性に着目し,数十次元ないし数百次元のベクトルを対象にしても高速に類似検索を行うことができる多次元インデクス手法を報告する.Recently, requirement of fast similarity-search for images is increasing. The indexing method for n-dimensional vector has great interest, because methods of the similarity-search for images usually use n-dimensional vectors have features of the image to calculate similarity. A feature vector of an image often has dimensions over a hundred but precedent method of the similarity-search are not work effectively for High-dimensional vectors. In this paper we propose a method of the similarity-search who can work effectively for High-dimensional vectors.
著者
宮森 恒 中村 聡史 田中 克己
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.46, no.SIG18(TOD28), pp.59-71, 2005-12-15

本稿では,ウェブ上の実況チャットを利用することでテレビ番組のメタデータを自動的に抽出する手法を提案する.実況チャットは,テレビ番組と同期して視聴者によって書き込まれるウェブ上の掲示板である.番組実況チャットのデータを,利用者全体あるいは特定の傾向を持つ利用者のデータ集合として扱い,チャット上に表れる特徴的な表現を認識処理することで,番組の盛り上がり場面や,視聴者の嗜好・興味に沿ったリアクションなど,視聴者視点に関連するメタデータを効率良く抽出できる.実験の結果,提案方式により,視聴者の反応の大きさや喜び,落ち込みなどの感情度数などのメタデータを効率良く抽出できることを確認した.また,提案方式で得られるメタデータを利用した番組視聴システムを実装することにより,シーンのランキング表示やダイジェスト生成など視聴者視点を反映した多様な番組視聴へ応用可能になることを確認した.
著者
大塚 淳史 関 洋平 神門 典子 佐藤 哲司
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.4, no.3, pp.1-11, 2011-10-03

コミュニティ QA サイトでは,ユーザの疑問や知りたいことが自然言語で記述された質問記事として投稿されている.本論文では,Web 検索で必須な言語化された検索クエリの想起を,質問記事を提示することで支援する,クエリ拡張型 Web 検索システムを提案する.提案システムでは,検索者から入力されたキーワードと関連する質問記事を複数のカテゴリから抽出し,拡張するキーワードとともに提示するクエリ拡張を実現する.検索者は,提示された質問記事を閲覧することで,自身の情報要求を拡張の根拠として言語化された検索クエリとして確認することができる.潜在的意味インデキシングを用いてシステムを実装し,実運用されたコミュニティ QA サイトの質問記事を用いて評価を行い,提案システムによって多様なクエリ拡張と,根拠となる質問記事を提示できることを確認した.In community QA websites,huge number of questions written in natural language are posted by users. We propose a new query expansion system to support Web search users by using community QA resources. In our system, users can get diversified query candidates from questions in multiple Yahoo! chiebukuro (Yahoo! Answers) categories relevant to the search query, and will find queries relevant to their information needs by browsing question articles. We also report experimental results to extract diversified question articles with latent semantic indexing.
著者
若林 啓
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.7, no.2, pp.61-69, 2014-06-30

チャンキングは,単語の系列から名詞句や前置詞句といった浅い統語構造を抽出する技術であり,固有表現抽出や機械翻訳などで重要な前処理であると考えられている.これまでに提案されている多くのチャンキング手法は教師あり学習に基づいており,教師データに現れない文章表現を多く含むWeb上の文書には適用が難しい.本研究では,依存構造解析モデルの平坦近似に基づいた平坦近似依存文法モデル(FADG)を用いることで,チャンク間の局所的な統語構造を考慮した教師なしチャンキング手法を提案する.FADGは線形鎖モデルを階層的に接続した階層型隠れマルコフモデル(HHMM)の枠組みで形式化するため,HHMMの効率的な教師なし学習アルゴリズムを適用できる.実験により,提案モデルが局所的な統語構造を効果的に推定し,これによって高い精度で教師なしチャンキングを行えることを示す.Chunking is a natural language processing task to extract shallow syntactic structures like noun phrases or prepositional phrase, and it plays an important role in various applications such as named entity extraction and machine translation. Most chunking algorithms proposed so far are based on supervised learning, but they depend on the domain of supervision documents that often consist of news articles and are not effective for analyzing Web documents or microblogs. In this paper, we propose an unsupervised chunking method based on the Flat Approximated Dependency Grammar model (FADG) to capture local syntactic dependency structures between chunks. The FADG is formalized as a Hierarchical Hidden Markov Model (HHMM) and we can conduct the unsupervised learning of FADG efficiently by using a sophisticated inference algorithm for HHMMs. The experimental results show the effectiveness of the proposed method in chunking accuracy comparison.
著者
灘本 明代 服部 多栄子 近藤 宏行 沢中 郁夫 田中 克己
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.42, no.1, pp.103-116, 2001-01-15
被引用文献数
35

本論文では,膨大なWeb情報を容易に閲覧することを目的とし,チャンネルを選択するようにWebページを選択し,テレビ番組のような番組を作成し,Watch and Listen型インタフェースを通じて視聴する方式を提案する.受動的視聴とは,これまでテキストや画像で表示されていたコンテンツに代わり,音声やキャラクタアニメーションを用いた番組風コンテンツを作成して見ることである.この番組を作成することを我々は番組化と呼ぶ.これまでのWebブラウザと異なり,番組化においては,時間軸的同期や演出が問題となる.本論文では,この同期と演出に着目し,Webコンテンツの受動的視聴のための番組化の方法として,(1)現在のHTMLベースのWebコンテンツを自動で受動的視聴向けコンテンツに変換する自動変換方式,(2)受動的視聴コンテンツ作成のためのスクリプト作成マークアップ言語を提唱する.This paper proposes a passive Watching-and-Listening approach that makes it easier to view Web information. This approach utilizes a Watching-and-Listening interface that allows the user to choose Web pages in a similar way as we select TV channels, by converting the pages into TV-program-like cartoon animations. During the conversion process, which we refer to as programmization, voice and image-data presentations must be synchronized carefully so that they effectively convey the original information. Moreover, the overall presentation needs to follow a particular presentation structure, such as news and variety shows, in order to improve the familiarity of the program. Our approach solves these issues by developing a novel method of converting HTML documents into programs, and designing a new mark-up language, Scripting-XML (S-XML), which is suitable for describing programs. This paper also addresses the preliminary evaluation results of the current implementation.
著者
宮川 祥子 清木 康
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.40, no.5, pp.15-28, 1999-05-15
被引用文献数
17

本論文では 特定分野のドキュメント検索において 意味的連想検索を行うために意味の数学モデルを適用する際のメタデータ空間の作成方式を提案し その有効性を検証する. 本方式は 特定の分野に関連する情報群とその分野に関する用語集 そして一般的な辞典から特定分野におけるメタデータ空間を構築する。意味的連想検索は インターネット上で現在普及しているパターンマッチ型の検索エンジンでは扱うことのできない情報の意味を形式的に扱うことを可能にする. 本方式を用いることにより 特定の分野に関する情報群に対して 文脈に応じて意味的に近い情報を検索するための検索環境を提供することができる. 本論文では また インターネット上に実在する障害者・福祉関連のドキュメント群を対象としたメタデータ空間を構築し パターンマッチによる検索との比較において性能評価を行う.In this paper we present a new construction method for a metadata space. This method enables to establish a metadata space for the mathematical model of meanings from documents related to a specific area, a lexicon related to the area, and a general dictionary. Unlike ordinary search engines employing pattern matching methods, the semantic associative search function enables to deal with the "semantics" of the information. This method makes it possible to provide a semantic information retrieval environment for documents about a specific area on the Internet. We also evaluate the performance of the semantic information retrieval based on the proposed method. We construct an information retrieval system built upon the inetadata space related to information about welfare and people with disability distributed through the Internet and make a comparison with the pattern matching information retrieval system.
著者
鈴木 優 吉川 正俊
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.3, pp.20-32, 2010-09-28

本研究では,Wikipedia において記事の信頼度を算出する際に,重要となる著者であるキーパーソンを簡易な方法で推定し,それら重要な著者の情報だけを利用して信頼度を算出することによって,すべての著者の情報を利用して信頼度を算出する方法よりも高速で精度の高い信頼度を算出する手法の提案を行う.これは,記事の大部分は少数の著者によって記述されているため,多くの著者の編集はその記事の信頼度には影響しないと考えることができ,それら多くの著者が行った編集を信頼度算出に用いないことにより,信頼度の算出にとって不要なノイズを除去することができると考えたためである.評価実験において信頼度が正しく算出できたかどうかを確かめた結果,確かに信頼度の精度が向上したことを確認することができた.さらに,提案手法を用いることにより,信頼度を計算するための計算コストを削減することも可能となった.We propose a fast credibility assessment system of Wikipedia articles by identifying major contributors to reduce the calculation costs in determining the degree of credibility of Wikipedia articles. In our proposed system, similar to existing credibility degree measuring systems, the first calculates each editor's credibility values using the lifetime of versions, which is a number of versions includes the edits. Next, our system calculates the credibility values of articles by combining those of the article's editors. In this process, when the system identifies a small number of major contributors who have large effects to credibility degrees of articles, we can reduce calculation costs. Therefore, we propose three methods for identifying major contributors, such as number of versions based method, number of distinct document based method, and combined method of number of versions based method and number of distinct document based method. In our experimental evaluation, we unveil that our proposed system can reduce the calculation costs and increase the accuracy of credibility values of articles.
著者
早水 悠登 合田 和生 喜連川 優
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.7, no.2, pp.104-116, 2014-06-30

アウトオブオーダ型クエリ実行とは,動的タスク分解と非同期入出力発行に基づくクエリ実行方式であり,従前の同期入出力発行・逐次処理に基づく実行方式と比べて,大規模データに対する選択的クエリ実行において高い性能を発揮することが知られている.本論文では,既存データベースエンジンにおけるクエリ実行の挙動を変えることなく,その処理性能をアウトオブオーダ型クエリ実行と同水準まで向上させるために,アウトオブオーダ型クエリ実行に基づくデータベースエンジン加速機構を提案する.当該機構は既存エンジンのクエリ実行と並行して当該クエリを協調的にアウトオブオーダ型実行し,バッファプールを介して先行的にデータベースページを供給することで,既存エンジンの入出力待ち時間を縮減し,大幅な高速化を実現する.本論文ではオープンソースデータベース管理システムPostgreSQLを対象とした加速機構の試作実装PgBoosterの構成法を示すとともに,ミッドレンジ級のサーバ・ディスクストレージからなる環境において評価実験を行い,その高速性を明らかにする.Out-of-Order Query Execution is a query execution method which is based on dynamic task decomposition and asynchronous I/O operations. For selective queries on large scale data, it outperforms existing query execution methods. This paper proposes a pluggable database engine booster based on Out-of-Order Query Execution, which improves query execution performance of an existing engine to the same degree of Out-of-Order Query Execution with maintaining the compatibility of the engine. In parallel to a query execution in the engine, the booster runs Out-of-Order Execution of the query in a coordinated manner, and supplies database pages to the engine on ahead via the buffer pool. That reduces I/O waiting time of the engine and improves its performance significantly. This paper describes development of PgBooster, a prototype implementation of database engine booster, and its experimental evaluations on a mid-range class environment with a server and a disk storage system.
著者
落合 桂一 鳥居 大祐
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.7, no.2, pp.51-60, 2014-06-30

本研究では,Twitterなどの文章が短いマイクロブログを対象として,位置に関する特徴語を利用した地名の曖昧性解消手法を提案する.従来,同名地名の曖昧性解消には地理的に近い地名との共起が用いられていた.しかし,マイクロブログは文章が短いため,地名以外の単語も曖昧性解消に利用すべきである.そこで,マイクロブログの投稿にはその場所特有のトピックが存在することが多いと考え,地名ごとにその場所特有の単語(特徴語)を利用することで地名の曖昧性解消を行う.特徴語は季節変動などに依存しない定常的なものと,時間の経過によって変化する非定常的なものが存在する.そのため,定常的な特徴語(静的特徴語)を観光案内やWikipediaの説明文のような静的な文書から抽出し,地名と静的特徴語の共起により曖昧性解消を行う.ここでは季節変動や時期に依存しない特徴語を利用する.一方,非定常的な特徴語(動的特徴語)はマイクロブログの特徴であるリアルタイム性を反映し,場所のトピックが時間とともに変化すると考え,従来手法により曖昧性解消された投稿から地名ごとの特徴語を動的に生成し曖昧性解消に利用する.提案手法の有効性を確認するため,再現率および適合率を評価した.地名に対して人手により正解ラベルを付与し正しく抽出できる数を調査した.その結果,従来手法の地理的に近い地名との共起をベースラインとして,提案手法の有効性を確認した.In this study, we propose a disambiguation method for toponyms using words related to the location. Conventionally, toponym ambiguition has been resolved by using nearby toponyms based on the hypothesis that geographically-closed toponyms are appeared frequently in the same contenxt. In the case of microblogs, however, words other than toponyms are preferable to be used because short texts of microblogs have less information. To this end, we consider that microblogs have a topic related to the location and propose a method which uses words related to the location ("location-related words") as disambiguators for each toponym. The location-related words are categorized into two groups. One is static words independent of seasonal variations and so on. The other is dynamic one which depends on seasonal variations etc. The dynamic location-related words reflect immediacy of microblog (i.e., the dynamic location-related words vary with time). We evaluated our proposed method by recall and precision using manually labeled data. The result showed that the recall of our proposed method is higher than that of the conventional method.
著者
宮西 大樹 関 和広 上原 邦昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.7, no.2, pp.1-10, 2014-06-30

マイクロブログ検索には,単語を用いた疑似適合フィードバックによるクエリ拡張が有効である.しかし,単語は意味的・時間的な曖昧性を持つため,単語を用いたクエリ拡張は有効に機能しない場合がある.そこで,本稿では,単語や2語以上の単語の組合せであるコンセプトを用いた疑似適合フィードバックによるクエリ拡張手法を提案する.さらに,提案手法は検索クエリと同時期に出現するコンセプトの頻度の時間遷移に関する情報を疑似適合フィードバックに組み入れることで,マイクロブログサービスのリアルタイム性を考慮する.代表的なマイクロブログデータであるTweets2011コーパスを用いた実験から,提案するコンセプトを用いたクエリ拡張によって,検索クエリに適合し,かつ情報量の豊富な文書を効果的に検索できることを示す.Incorporating the temporal property of words into query expansion methods based on relevance feedback has been shown to have a significant positive effect on microblog searching. In this paper, we propose a concept-based query expansion method based on a temporal relevance model that uses the temporal variation of concepts (e.g., terms or phrases) on microblogs. Our model naturally extends an extremely effective existing concept-based relevance model by tracking the concept frequency over time. Moreover, the proposed model produces important concepts that are frequently used within a particular time period associated with a given topic, which have more power to discriminate between relevant and non-relevant microblog documents than words. Our experiments using a corpus of microblog data (the Tweets2011 corpus) show that the proposed concept-based query expansion method improves search performance significantly, especially when retrieving highly relevant documents.
著者
正田備也 高須 淳宏 安達 淳
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.11, pp.14-26, 2007-06-15
被引用文献数
4

文書分類のための代表的な確率論的手法にナイーヴ・ベイズ分類器がある.しかし,ナイーヴ・ベイズ分類器は,スムージングと併用して初めて満足な分類精度を与える.さらに,スムージング・パラメータは,文書集合の性質に応じて適切に決めなければならない.本論文では,パラメータ・チューニングの必要がなく,また,多様な文書集合に対して十分な分類精度を与える効果的な確率論的枠組みとして,混合ディリクレ分布に注目する.混合ディリクレ分布の応用については,言語処理や画像処理の分野で多く研究がある.特に,言語処理分野の研究では,現実の文書データを用いた実験も行われている.だが,評価は,パープレキシティという純粋に理論的な尺度によることが多い.その一方,テキスト・マイニングや情報検索の分野では,文書分類の評価に,正解ラベルとの照合によって計算される精度を用いることが多い.本論文では,多言語テキスト・マイニングへの応用を視野に入れて,英語の20 newsgroupsデータ・セット,および,韓国語のWebニュース文書を用いて文書分類の評価実験を行い,混合ディリクレ分布に基づく分類器とナイーヴ・ベイズ分類器の,定性的・定量的な違いを明らかにする.The naive Bayes classifier is a well-known method for document classification. However, the naive Bayes classifier gives a satisfying classification accuracy only after an appropriate tuning of the smoothing parameter. Moreover, we should find appropriate parameter values separately for different document sets. In this paper, we focus on an effective probabilistic framework for document classification, called Dirichlet mixtures, which requires no parameter tuning and provides satisfying classification accuracies with respect to various document sets. Many researches in the field of image processing and of natural language processing utilize Dirichlet mixtures. Especially, in the field of natural language processing, many experiments are conducted by using real document data sets. However, most researches use the perplexity as an evaluation measure. While the perplexity is a purely theoretical measure, the accuracy is popular for document classification in the field of information retrieval or of text mining. The accuracy is computed by comparing correct labels with predictions made by the classifier. In this paper, we conduct an evaluation experiment by using 20 newsgroups data set and the Korean Web newspaper articles under the intention that we will use Dirichlet mixtures for multilingual applications. In the experiment, we compare the naive Bayes classifier with the classifier based on Dirichlet mixtures and clarify their qualitative and quantitative differences.
著者
角田 史記 加藤 学 大塚 理恵子 助田 浩子 大関 一博
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.3, pp.187-196, 2013-06-28

鉄道で輸送障害が発生すると多くの利用者に影響を及ぼすため,鉄道事業者はその影響を最小化すべく様々なオペレーションを行う.このとき,利用者が実際に受けた影響から輸送障害を定量的に評価できれば,利用者視点でオペレーション改善を検討できる.しかしこれまで,鉄道事業者において輸送障害を評価する方法としては,運休した列車本数や運転再開時刻等オペレーションにおいて直接把握できるデータが一般的であり,利用者が受けた影響を確度高く定量化して把握することは困難であった.一方,急速に普及した交通系ICカードのログデータにより,利用者の鉄道空間における所要時間を測定することが可能である.本研究では,交通系ICカードのデータを利用して,各区間,各時間帯の利用者群の所要時間を集約して解析することで,鉄道輸送障害時に利用者群が実際に受けた影響を定量化する方法および鉄道事業者におけるオペレーション改善のための応用を検討した.