著者
橋本 隆子 白田 由香利 飯沢 篤志 北川 博之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.43, no.5, pp.1-11, 2002-06-15
参考文献数
14
被引用文献数
2

近年,放送のデジタル化により,各種のメタデータが付加されたビデオコンテンツの配信がさかんになっている.このようなデジタル放送環境において,動的なダイジェスト生成は重要なアプリケーションの1 つである.我々はこれまで利用者の嗜好を反映させたパーソナルなダイジェスト生成方式(Personal Digest Making Scheme ,PDMS )の研究を行ってきた.PDMS では,加点事象のような成功プレイの重要度を判定することは可能であったが,もし成功していたら試合の流れを変えたかもしれない惜しかったシュートのような,不成功プレイの重要度を判定することはできなかった.本稿では,ダイジェスト作成のための新しい概念として,「ターニングポイント解析」を提案する.ターニングポイント解析は,スポーツの各種試合における「勝利確率(Winning Probability ,WP )」に基づいている.勝利確率とは,試合の経過時間とその時点における得点差(ホームチームの得点からアウェイチームの得点を引いた値)が与えられたとき,最終的にホームチームがアウェイチームを破って試合に勝利する確率を示すものである.勝利確率を利用することにより,成功プレイのみならず,不成功プレイの重要度を判定することが可能となり,より正確なダイジェスト生成を実現できる.本稿ではターニングポイント解析をサッカーの試合を例にとって説明し,実際のサッカーの試合に適用した評価結果を述べる.Content providers have recently started adding a variety of meta data to various video contents.Digest viewing that uses the meta data is a new application in the digital broadcasting era.o build personal digests,we have developed a digest making method named PDMS (Personal Digest Making Scheme).PDMS extracts signi ficant scenes and constructs digests automatically using the video program meta data.In PDMS,only a successful play event such as a goal that scored was considered signi ficant,and a misplay event,such as a shot that did not score was not taken into account,although such event may affect game progress. This paper introduces a new concept of turning point analysis.The turning point analysis is based on a winning probability for sports programs.Winning probability indicates the probability of a home team beating an away team at the end of the game,given the current score and the time elapsed since the beginning of the game.Using the winning probability, we can more precisely evaluate the signi ficance of each event,not merely a successful play but also a misplay.This paper presents turning point analysis for soccer matches.It also gives evaluation results of this turning point analysis for a recently broadcasted professional soccer matches.
著者
土岐 真里奈 牛尼 剛聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.4, pp.35-45, 2013-09-27

本論文では,Twitterに代表されるソーシャルストリームに対するユーザの閲覧時の振舞いから,ユーザのプロファイルを構成する手法を提案し,被験者実験により有効性を評価する.本手法では,ソーシャルストリームの閲覧時におけるユーザのスクロール操作を利用し,各ツイートを読む時間(滞留時間)を推定する.そして,推定した滞留時間に基づいてユーザプロファイルを構成する.本論文で提案するユーザプロファイルは,単語に対する興味を表す「興味単語プロファイル」と,コンテンツの発信者に対する興味を表す「興味ユーザプロファイル」から構成される.興味単語プロファイルを構成するために,TF-IDF法を滞留時間によって拡張したTF-IDF-RT法を提案する.また,興味ユーザプロファイルを構成するために,滞留時間に基づいてユーザが興味を持つ投稿者を推定する手法を提案する.提案手法で構成したユーザプロファイルを利用して推薦されるツイートに対して,ユーザが興味の度合いを評価するタスクに関する被験者実験の結果に基づいて,提案手法の有効性を示す.In this paper, we introduce a method for composing a user profile of a user based on browsing behaviors of the user on social streams such as Twitter, and evaluate the effectiveness of our method based on subjective experiment results. The proposal method estimates the time of reading each tweet (retention time) in a timeline according to scrolling operations of the user on the timeline, then compose a profile of the user based on the estimated retention times. The user profile that is proposed in this paper consists of interest word profile and interest user profile; an interest word profile represents which subjects the user is interested in, on the other hand, an interest user profile represents which users the user is interested in. In order to compose an interest word profile, we introduce the IF-IDF-RT method, which is an expansion of the TF-IDF method with the retention time. On the other hand, in order to compose an interest user profile, we introduced an technique for estimating other users who interests the system based on the retention time. We evaluate the effectiveness of our method based on subjective experiment results on the tasks that extract tweets that interest the subjects from timelines by means of the user profiles that our method composed.
著者
若宮 翔子 李 龍 角谷 和俊
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.3, pp.159-176, 2013-06-28

今日の都市における交通ネットワークの複雑化や人々の活動領域の拡大などにより,都市空間での近接感は単に地理的な距離だけでなく移動時間や訪れる頻度によって歪んでおり,あらゆる場所間の近接関係を直感的に測ることが困難である.そのため,ユーザの目的ごとに距離や時間などの観点から都市空間での近接性の歪みを考慮して近接したところを容易に探せるようにする必要がある.本研究では,経験的・社会的な観点から生じる空間の歪みによる都市地域の複雑な近接関係を抽出するために,位置ベースSNSを通した群衆の移動経験に基づく地域間の近接性分析手法を提案する.具体的には,都市空間での膨大な群衆のライフログが簡単に得られるTwitterを用いて実空間における群衆の移動経験を観察し,市区町村を単位とした地域間の近接性を測定し,都市空間における地域クラスタ間の空間的な歪みを分析する.実験では,Twitterにおける群衆のライフログと社会調査の一環として地域間の移動量を集計したパーソントリップOD量データを用いて群衆の移動経験を抽出し,移動距離,移動時間,移動量の観点で測定した地域クラスタ間の近接性を比較する.また,日常生活における規則的な移動に関する調査結果であるパーソントリップOD量データと比べ,Twitterのデータを用いた群衆の移動経験では,より多様な目的の移動経験を中心とした地域クラスタ間の近接性を観察することが可能であることを示す.Due to the growing complexity of urban areas by sophisticated transportation network and dramatically expanding area of human activities, urban areas are conceptually distorted in terms of moving time and familiarity, consequently making it difficult to intuitively comprehend the overall distortion of urban areas. Hence, it is critical to support user's urban exploration considering the dynamic nature of the urban areas. In this work, in order to figure out and utilize the distortion of urban space, we propose a method to analyze urban proximity based on location-based social networks. In particular, we observe crowd movements through Twitter, which can provide lots of crowd's daily moving activity logs, for the purpose of deriving the distorted urban image as an index map. In the experiment, we examine the availability of Twitter as a source to observe crowd movements to analyze distortion of urban space, in comparison to person trip OD (Origin-Destination) data, which is a social survey to investigate people's movements between urban areas. Finally, we will show the significant benefit of Twitter utilization for crowd movement observation, particularly reflecting on a variety of human activities which cannot be easily acquired with the conventional social investigations.
著者
AARONJ.STOKES HIDEO MATSUDA AKIHIRO HASHIMOTO
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.40, no.SIG06(TOD3), pp.66-78, 1999-08-15

Complete DNA sequences (complete genomes) for an increasing number of organisms are becoming available each year for use in biological research. However genome project groups incorporate their own formats (or schemas) for representing the genome data accumulated by the projects. Such heterogeneity of their schemas prevents researchers from exchanging and comparing their data across genomes. In this paper we present a new method for exchanging and querying information on complete genomes. Since genomes and the genetic information encoded on them have a hierarchical structure they can be represented as a kind of structured document. We propose a document language called GXML for representing complete genomes. The document language based on XML can be used to exchange many kinds of genomic data and offers a high degree of extensibility. We also define a query language called GQL to operate on the genome documents. Using this language one can easily associate henes among different genomes and perform other biological analyses. We developed a prototype system based on the language. Using the system we executed several test queries. The results were consistent with those published in biological literature. The processor and memory requirements of the prototype system were accptable.
著者
蔵満 琢麻 望月 久稔
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.2, pp.96-109, 2009-06-29

自然言語処理における辞書構造として,トライ法が広く用いられているが,日本語のように分かち書きされていない言語のテキストからキーワードを検出するためには,解析対象となるテキストのあらゆる位置から探索する必要がある.より高速に形態素解析を行うため,複数のキーワードをテキストから線形時間で検出する AC 法を用いる手法が提案されているが,AC 法はトライ法よりも使用する記憶領域が大きい.本論文では,AC マシンにおける遷移のうち,多分岐の節点における遷移をダブル配列に,1 方向分岐の節点における遷移をダブル配列と異なる配列にそれぞれ定義することで,照合時に必要な記憶領域を抑制し,高速性とコンパクト性をあわせ持つ AC マシンを実現する手法を提案する.日本語形態素 40 万語を登録した実験で,提案手法はトライを用いた辞書システム Darts とほぼ同等の記憶領域で対象テキストを 60~87% の時間で照合した.Trie structure is used widely, such as dictionary for natural language processing. However, it is not so effective using a trie structure for the morphological analysis of languages without explicit word boundaries like Japanese because we have to perform dictionary lookup for all possible substrings of the text. This paper proposes an efficient dictionary structure that is Aho-Corasick Machine using Double-array defining multi-way branch and different arrays defining oneway branch. Our experiments show that the matching time of the proposal machine decreased to about 60%-87% against other structures.
著者
蔵満 琢麻 松浦 寛生 望月久稔
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.1, no.2, pp.1-14, 2008-09-30

パターン照合は文書処理やアンチウイルスなどのソフトウエアに用いられ,メモリ消費量が小さく,照合速度が高速なアルゴリズムが求められる.AC 法は複数パターンの照合に有効な手法で,AC マシンと呼ばれる一種の有限オートマトンを登録パターン集合から構築し,対象データを線形時間で照合する手法である.本論文では,ダブル配列を用いて遷移先関数を拡張した AC マシンを提案し,他手法との比較実験によりその有効性を示す.また提案マシンの応用例として,アンチウイルスソフト ClamAntiVirus に提案マシンを実装する.実験の結果,提案マシンは他手法よりも小さい記憶領域でデータ構造を実現し,対象データを高速に照合した.また,提案マシンを実装した ClamAntiVirus は,システムの稼働時間を 72%,照合時に必要な記憶領域を 70% にできることを示した.Pattern matching is used for word processing and software such as antivirus. It is important to high-speed response and compact memory. Aho-Corasick algorithm is an efficient multiple pattern matching algorithm. In this paper, we present a multiple pattern matching machine with a double-array structure. It has the transition function extended. And also, we implement the proposal machine to ClamAntiVirus as an applied example. Our experiments show that the operation time decreased to 72% and required storage area decreased to 70%.
著者
村上 直
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.3, pp.46-67, 2010-09-28

O/R マッピングフレームワークを用いることで,リレーショナルデータベース (RDB) を用いたアプリケーション開発の困難さを軽減できる.O/R マッピングでは,開発の容易さ (Ease of Development: EoD) とデータモデルの記述力が重要である.既存の O/R マッピングフレームワークでは,EoD と記述力がトレードオフの関係となっており,両方を兼備するのは困難である.すなわち,EoD を重視した場合はデータモデルの記述力を犠牲にせざるをえず,記述力を重視した場合は EoD を犠牲にせざるをえない.本研究では,EoD と記述力を兼備した O/R マッピング言語 DBPowder-mdl を提案する.DBPowder-mdl は,リレーショナルモデル (RM) の記法とオブジェクトモデル (OM) の記法を提供する.設定より規約 (Convention over Configuration: CoC) を推し進めることで設計記述量を減らすことができる一方,設計内容を明示的に記述することで高い記述力を得ることもできる.RM または OM のうち,その一部分を設計すれば CoC により多くが補われる.いっぽう,RM と OM の双方を制御する記法も提供しており,柔軟な O/R マッピングも実現可能である.DBPowder-mdl は,EoD と記述力を兼備することに成功した.これにより,開発のフェーズやスキーマの部分に応じて EoD と記述力から受ける恩恵を使い分けることを可能とした.O/R mapping frameworks reduce difficulties to develop applications with relational databases (RDB). While they are expected to take advantages of the ease of development (EoD) and enough descriptive power of the data model, it is difficult to take both of them since there are trade-offs between them. In this paper, we propose DBPowder-mdl: EoD featured and much descriptive domain specific language for O/R mapping. DBPowder-mdl describes a relational model (RM) and an object model (OM). DBPowder-mdl has the feature of Convention over Configuration (CoC) that reduces the amount of design and description. In contrast, DBPowder-mdl supports the style of explicit description which brings enough descriptive power. The result of O/R mappings can be derived from either of RM or OM since DBPowder-mdl complements the omissions. DBPowder-mdl also offers the flexible ways to describe with no omissions of RM and OM. In conclusion, DBPowder-mdl succeeded to take both advantages of EoD and enough descriptive power of the data model as the situations demand.
著者
内山 将夫 井佐原 均
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.43, no.SIG09(TOD15), pp.1-14, 2002-09-15

近似文字列照合による全文検索では,入力パターンと一定以下の編集距離にある部分テキストすべてをテキストから検索する.近似文字列照合による全文検索は,テキストを接尾辞トライにより索引付けし,それを利用して検索することにより実現できる.しかし,接尾辞トライの占める空間領域は大きいため,接尾辞配列を索引として利用することもある.接尾辞配列を索引として利用する場合には,従来研究では,接尾辞トライ上での探索を接尾辞配列上での2分探索により模擬している.それに対して,本稿では,2分探索ではなく,補助的な配列を用いることにより,高速に,接尾辞トライ上での探索を模擬することができる手法を提案した.さらに,2分探索による方法を利用した場合と提案手法を利用した場合とにおける検索速度を実験的に測定し,提案手法の方が検索速度が速いことを示した.
著者
打田 智子 加藤 誠
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.16, no.2, pp.1-15, 2023-04-14

情報検索システムのクエリ自動補完において,現在主流の手法では,クエリ補完候補を生成するため,過去に蓄積された膨大なクエリログを必要とする.本論文では,専門ドメイン検索システムなど,クエリログが入手しづらい状況下において,入手可能な他のクエリログおよびその文書コレクションと,ターゲットとする文書コレクションから,クエリ補完候補を生成するアプローチについて述べる.具体的にはまず,他のクエリログのクエリ中に出現する単語N-gramのN-gram確率と,対応する文書コレクション中のN-gram確率との比率(「クエリらしさ」を表現する係数)を推定する回帰モデルを構築する.次に,得られた回帰モデルをターゲットとする文書コレクションに適用することで,実際のクエリ補完候補を生成するN-gramモデルを構築する.実験により,提案手法は,他のクエリログのみ,またはターゲットとする文書コレクションのみを用いて構築したN-gramモデルよりも,ユーザクエリの予測タスクにおいて良い性能を与えることが示された.
著者
熊本 忠彦
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.12, no.1, pp.1-5, 2019-01-16

マイクロブログの1つであるTwitterでは,突発的な感情の発露を表すために,「日本が勝ったぁああ」や「それはやめて~~ーー」のような叫喚表現化したツイートを用いることがある.これまでの先行研究では,こういった叫喚ツイートの叫喚表現化された部分を検出し,元の表現(「勝った」や「やめて」)に変換することで,既存の様々な辞書を利用できるようにするための手法やツイートから叫喚ツイートを抽出し,投稿者の感情の大きな変化を検知するという手法が提案されている.しかしながら,抽出される叫喚ツイートの種類についてはあまり深く検討されておらず,比較的単純な正規表現により検索可能な叫喚ツイートのみが抽出されていた.そこで本論文では,先行研究で提案された正規表現を拡張し,より多くの叫喚表現に対応できるようにするともに,提案手法による叫喚ツイートの抽出割合や抽出精度を評価することで,その有効性を検証する.
著者
渡辺 知恵美 増永 良文
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.44, no.8, pp.65-77, 2003-06-15
被引用文献数
13

我々が開発を行っている仮想世界データベースシステムversion2 (VWDB2 )では,協調作業支援の視点からデータベース機能を備えたネットワークバーチャルリアリティ(NVR )システムの実現を目指している.VWDB2 はデータベース機能によってNVR システムをサポートすることにより,NVR システムで共有された仮想世界に対し高い信頼性および同期性を保障することを目的とする.我々はまずNVR システムで共有される仮想環境の信頼性を保障するために,複数のVR システムと1 台のバックエンドデータベースシステムによるクライアントサーバ形式のシステム構成をとり,仮想環境で行われるすべての更新操作をデータベースへのトランザクションとしてデータベースサーバで管理するためのトランザクションモデルを導入してきた17) .本稿では,仮想環境の同期性を保障するための仮想世界同期法を提案し,その有効性を検証する.VWDB2 では移動などの連続的な操作を行う場合,一定時間ごとに更新要求を行うことによって各クライアントとサーバとの同期を行う.この更新要求を発行する間隔を縮めることによって同期性を高めることができるが,その一方でサーバへのアクセス集中がおこり,全体のパフォーマンス低下を引き起こす可能性がある.そこで,「共有ゴーストオブジェクト」という同期法を新たに導入した.共有ゴーストオブジェクトの導入によりサーバへの同期間隔にかかわらずクライアント間で一定に高い同期性を保つことができる.実験では本同期法の有効性を確認し,サーバへのアクセス集中を大幅に軽減できることを示した.In this paper, the VWDB2, a network virtual reality system with a database function, is investigated particularly from the cooperative work support point of view. In order to realize the database function in the VWDB2, a set of virtual reality systems are system-integrated with a single back-end database system. A novel transaction model is introduced where three types of transactions are introduced, namely primitive transactions, group transactions, and continuous transactions. In the shared work environment provided by the VWDB2, more than one worker may issue continuous transactions concurrently. In that case, some abnormal phenomena are observed mainly due to the inconsistency of database states among virtual reality front-end systems. In order to resolve these phenomena, the neighboring ghost objects are introduced. The ghost objects are effective at eliminating the above difficulties. Based on the neighboring ghost objects, a novel synchronization model is implemented on the VWDB2 to realize a shared work environment. To verify the effectiveness of our approach, some experiments are done by using a new game named the block composition game created for this purpose. It is shown that the approach proposed in this paper ensures both high reliability and high synchronism which are known as the essential features for realizing an efficient shared work environment.
著者
正田備也 高須 淳宏 安達 淳
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.SIG11(TOD34), pp.14-26, 2007-06-15

文書分類のための代表的な確率論的手法にナイーヴ・ベイズ分類器がある.しかし,ナイーヴ・ベイズ分類器は,スムージングと併用して初めて満足な分類精度を与える.さらに,スムージング・パラメータは,文書集合の性質に応じて適切に決めなければならない.本論文では,パラメータ・チューニングの必要がなく,また,多様な文書集合に対して十分な分類精度を与える効果的な確率論的枠組みとして,混合ディリクレ分布に注目する.混合ディリクレ分布の応用については,言語処理や画像処理の分野で多く研究がある.特に,言語処理分野の研究では,現実の文書データを用いた実験も行われている.だが,評価は,パープレキシティという純粋に理論的な尺度によることが多い.その一方,テキスト・マイニングや情報検索の分野では,文書分類の評価に,正解ラベルとの照合によって計算される精度を用いることが多い.本論文では,多言語テキスト・マイニングへの応用を視野に入れて,英語の20 newsgroupsデータ・セット,および,韓国語のWebニュース文書を用いて文書分類の評価実験を行い,混合ディリクレ分布に基づく分類器とナイーヴ・ベイズ分類器の,定性的・定量的な違いを明らかにする.
著者
落合 桂一 山田 渉 深澤 佑介 菊地 悠 松尾 豊
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.9, no.2, pp.11-22, 2016-06-29

本研究では,Twitterの投稿文章とプロフィール情報から生成した特徴量に基づき,機械学習によりPoint-of-Interest(POI)の公式アカウントを判定する方法を提案する.公式アカウントを判定するため,あらかじめ用意したPOIデータベースを使いPOI名称とTwitterのユーザ名を比較する方法では,1)POIデータベースにないPOIは抽出されないという課題,2)POI名称が正式名称のために通称や略称などが使われるユーザ名と一致しないという課題,3)一般ユーザがユーザ名にPOI名称を利用している場合があるという課題がある.そこで,Twitterの投稿内容やプロフィール情報に基づいてPOI公式アカウントを判定する手法を提案する.本研究では,POI公式アカウント抽出のための特徴量として,従来用いられていた投稿文章や自己紹介文のBag-of-Wordsに加え,POI固有特徴量(場所情報,営業時間,連絡先など),知名度に関する特徴量(フォロワ数やリストに登録されている数など),プロフィール画像の画像特徴量を提案する.実験によりPOIデータベースを利用した場合と比較し,約3倍のPOI公式アカウントが抽出可能であることを示した.また,提案した特徴量を利用した場合,従来手法の特徴量を利用した場合と比較し分類性能を表す再現率0.933,F値0.938で最大になることを示した.
著者
西川 伸紀 獅々堀正幹 柘植 覚 北 研二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.20, pp.28-38, 2007-12-15
参考文献数
15

本研究では映像内の文字情報である字幕に着目した字幕検索システムを開発する.従来,字幕検索は映像内に出現する字幕に対して文字認識を行う手法が主流であった.しかし,この手法では,事前に文字認識を行うための時間コストが必要であり,また,完全な文字認識結果が得られない場合には検索精度が低下するという問題があった.本論文では,上記の問題点を解決した高精度かつ高速な字幕検索手法を提案する.字幕検索を実現するためには,映像中に出現するすべての字幕を正確に認識する必要はなく,検索キーに対する字幕だけを認識できれば適切な検索結果を得ることができる.そこで本手法では,各字幕の文字画像特徴量と検索キーに対応する文字画像特徴量との距離に基づいて該当の字幕が出現するフレームを検索する.また,各字幕の文字画像特徴量を多次元索引化することで,検索キーの文字画像特徴量との距離計算を高速化する.さらに,本手法では検索過程で特徴量照合を行うため,前処理で文字認識処理が必要でなく,時間コストを軽減することができる.実際に3時間分の映像データに対して映像中の出現頻度が比較的多い91単語を用いて検索実験を行った結果,1-gram特徴量を用いた場合には最大98.61%,2-gram特徴量を用いた場合には最大99.59%の平均適合率を得ることができた.検索時間に関しても,2-gram特徴量を用いた場合でも約0.5秒で検索結果を得ることができた.Video telop retrieval methods based on telop characters can retrieve the corresponding telops to the query from the huge video data. The conventional methods make the text data from the image data of telop characters by recognizing all telop characters in the video data, and then the full text search is operated toward the recognized text data. The conventional methods can not retrieve with high precision, because all telop characters can not recognize as their right characters perfectly. In this paper, a new video telop retrieval method based on telop characters is proposed. In order to specify the suitable telop, this method recognizes the only corresponding telop characters to the query keyword not all characters. This method calculates the distance between each image features of telop characters and template image features of query keyword. The number of distance calculations can decrease by indexing the multidimensional data for image features of telop characters. Experimental results, using 91 query keywords, show that the average precision of proposed method using 1-gram feature becomes 98.61%, and using 2-gram feature becomes 99.59%. Moreover, the retrieval time can be obtained in about 0.5 seconds when using 2-gram feature.
著者
荒澤 孔明 服部 峻
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.13, no.2, pp.1-18, 2020-04-16

ユーザの言動に影響を与える人物(インフルエンサ)を精確に推定することは,消費行動の促進や学習への動機づけなど様々なタスクをサポートするための重要な基礎技術となる.そのなかでも,社会的に影響を与えている人物(著名人など)のような,ユーザに共通したインフルエンサだけでなく,身近な人物(友人など)のような,個々人に依存した異なるインフルエンサを推定する技術は,より高度にパーソナライズされた情報推薦システムへの発展にもつながる.そこで本論文では,他者に影響されているであろうことがうかがえるSNS(Twitter)上の反応や関心を分析することで,ユーザごとに影響を受けている人物を推定する手法を複数提案し,それらの推定性能に関する比較実験を行う.
著者
今林 広樹 石巻 優 馬屋原 昂 佐藤 宏樹 山名 早人
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.10, no.1, pp.1-12, 2017-03-22

医薬品や遺伝子などの機密性の高いデータに対する各種処理をクラウドなどの第三者のサーバ上で行う場合,第三者のサーバからの機密情報漏洩が懸念される.解決策として,機密情報そのものではなく匿名化したデータを第三者のサーバに保存し各種処理を行う方法が考えられるが,医療分野など,処理の正確性が求められる分野では匿名化を採用することが困難である.この問題を解決するため,本稿では,完全準同型暗号(FHE: Fully Homomorphic Encryption)を用いてデータを秘匿した状態で各種処理を行うことを考える.そして,各種処理の対象として頻出パターンマイニングを取り上げる.FHEを用いた各種処理を行ううえでの問題は,膨大な時間・空間計算量を要する点である.FHEの頻出パターンマイニング手法への適用例としては,Aprioriアルゴリズムを対象としたLiuらのP3CCがあるが,やはり膨大な時間・空間計算量を要する.これに対して本稿では,1) 暗号文パッキングによる暗号文数の削減,および2) 暗号文キャッシングによるサポート値計算の高速化によって,時間・空間計算量を削減する手法を提案する.実験評価では,10,000トランザクションのデータセットにおいて,P3CCの430倍の高速化と94.7%のメモリ使用量削減を達成した.
著者
鈴木 優
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.6, no.4, pp.46-58, 2013-09-27

本論文は,Wikipediaに記述されている情報の質に関する研究のサーベイである.Wikipediaは,不特定多数の利用者によって容易に編集を行うことができるという特徴から,従来の紙媒体による百科事典と比較して速報性が高いことや,広範囲な情報が得られる利点がある一方で,質が低い情報が含まれるという欠点も存在する.利用者は,必ずしもすべての情報に対して質が高い情報かどうかを適切に判定することができないため,Wikipediaに対して質の高さを測定しようという試みが数多く行われている.本論文では,質の定義についての議論を行ったうえで,現在までに行われているWikipediaに関する調査について紹介し,Wikipediaに含まれる情報に対して,情報の質を測定する研究について紹介する.
著者
根本 潤 遠山 元道
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.13, no.1, pp.33-44, 2020-01-27

本研究では第1にゲートレス鉄道サービスを提案する.タッチレスゲートが入退場確認のために必ず改札の通過を求めるのに対して,ゲートレス鉄道サービスは改札自体を不要にすることで,柔軟かつ効率的な運賃徴収への道を拓く.導入や保守に要するコストの観点から,本研究では,ゲートレス鉄道サービスの実現のため,GPS位置情報に基づく乗車区間判定を行う.利用者数ならびに列車本数が莫大であるため,乗車区間判定の処理コストも莫大となる.そこで,本研究では第2に,この判定処理コストを削減する方式を提案する.提案方式はデータの内挿とユークリッド距離に基づく,利用者と列車のGPS位置情報シーケンスのマッチングである.国土交通省が提供する実際の鉄道軌道データを用いた実験により,GPS位置情報を正確に取得可能な条件下においては,欠損をともなうようなデータに対しても提案方式が頑健な精度を実現できることを示す.さらに,判定処理の計算コストがシーケンス長に対して線形であること,従来方式に比べて15倍以上の高速化を達成することを示す.
著者
武智 峰樹 徳永 健伸 松本 裕治 田中 穂積
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.44, no.SIG12(TOD19), pp.51-63, 2003-09-15

要素技術としての文書分類は,質問応答やWeb ナビゲーションにおける主要な構成要素である.特に表層的なテキストの特徴を主に利用する質問応答では,与えられた質問のタイプに応じて適切な回答候補を抽出できる分類エンジンが重要である.またWeb ナビゲーションにおいては,従来の質問応答が扱ってこなかった質問も扱う必要があり,そのような質問に対しても適切な回答候補を選び出すための分類技術が求められる.本研究は,Web ナビゲーションが扱う質問のうち,特に手順に関する質問を取り上げ,その回答候補の分類に有効な特徴量を明らかにすることを目的とする.その試みとしてWeb ページにおいてHTML のリストタグが付与されたテキストを記事集合として,それを手順について書かれたテキストとそれ以外のテキストに分類するタスクを考える.検索エンジンを用いて箇条書きを収集し,機械学習の一手法であるSupport Vector Machine を用いた文書分類を行い,その結果の観察に基づいて手順について書かれた箇条書きの抽出に有効な特徴量を考察した.N-gram や語の頻度情報をベースにした手法により,コンピュータ分野に関しては90%以上の精度で分類可能な特徴量の組合せを得た.
著者
図子泰三 吉田 尚史 清木 康
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.43, no.SIG02(TOD13), pp.216-230, 2002-03-15

本論文では,ドキュメントデータ群を対象とした文脈依存動的クラスタリングの再帰的適用による意味的知識発見方式を提案する.本方式の特徴は,次の2 点にまとめられる.文脈に応じて動的にドキュメントデータ群のクラスタリングを行い,さらにクラスタ群からの知識発見を実現する点,および,共通の性質を有するより多くのドキュメントが含まれるクラスタの抽出を可能とする点である.本方式により,分析対象であるドキュメントデータ群を対象として,文脈や視点に応じた意味的分析結果を動的に得ることが可能となる.応用分野として,医療ドキュメントデータ群を用いたシステム構築,および,実験結果を示し,本方式を適用したマイニングシステムの実現可能性および有効性を明らかにする.