著者
栗山和子
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2013, no.3, pp.1-8, 2013-09-19

本研究では,国立大学の附属図書館が Twitter をどのように利用しているのか,簡単な実態調査を行い,大学図書館の PR ツールおよびサービスツールとしての Twitter の有効性について考察した.まず,全ての国立大学の附属図書館について,Twitter のアカウントを収集し,ツイートの発言者の属性をプロフィールや図書館の公式サイトを用いて公式アカウントを同定した.次に,TwitterAPI を用いて,各アカウントのユーザ情報およびツイート 100 件を抽出し,その内容をいくつかのカテゴリに分類した.結果として,大学図書館のツイートの内容は,従来の館報や掲示による広報の範囲内に収まっており,双方向的なやりとりやリツイートによる情報拡散などの Twitter の特性を十分活用しているものではなく,主に簡易的な広報ツールとして使用されていること,また,公式アカウントがフレンドとしてフォローしているユーザの 4 割はフォロワと重複しており,必ずしも,Twitter 上での有用な情報源をフレンドとして登録しているわけではないことなど,まだ,大学図書館の Twitter 利用には課題が多いことがわかった.
著者
奥野峻弥 浅井洋樹 山名早人
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014, no.12, pp.1-6, 2014-07-25

従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,推定対象を限定した,少人数に対する著者候補者群が取り扱われてきた.これに対し,我々はマイクロブログを対象にした,不特定多数の候補者群に対する著者推定の提案を行った.その際,精度向上のためマイクロブログ特有の叫喚フレーズに対する正規化手法,および計算量削減のため推定に必要となるメッセージ数を削減する手法を提案してきた.本稿では,より多くのマイクロブログ利用者を対象にした著者推定を行う上での問題点,特に学習用データとテストデータの取得期間の差異が精度に与える影響について検証し,学習用データの取得期間が精度に与える影響を小さくする手法を提案する.実験では Twitter ユーザ 10,000 人に対して著者推定を行い,Precision@1 で 0.535,MRR で 0.602 を達成した.
著者
竹中 姫子 古宮 嘉那子 小谷 善行
出版者
情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.1, pp.1-6, 2011-03-21

Twitter ではハッシュタグという,自分の投稿 (ツイート) に則した内容のインデックスをつける機能が提供されている.本研究ではハッシュタグのついていないツイートにたいしてハッシュタグを推定することを目的とする.そこでハッシュタグのついたツイートを学習し,そしてあるツイートがどのハッシュタグに属するかの推定を行った.分類器としてベイジアンフィルターを使用し,それぞれのタグについて 2 値分類を行い,複数のハッシュタグの推定を行った.実験では 50 種類のハッシュタグのつきの約 4 万件のツイートを学習データとして使用した.ツイート文にベイジアンフィルターを適用する場合は既知語に限定して処理を行うことで良い結果が得られるとわかった.In this paper, we propose a method of discovering hashtags, which are indexes in Twitter. We estimate hashtags of tweets without hashtags using tweets with hashtags. Binary classifier was developed for every tweet so as to they have more than one tags, and Bayesian filtering was used to classify. In the experiment, about 40,000 tweets with 50 kinds of hashtags are classified. The result shows Baysian filtering with limiting known words is effective in estimating hashtags of tweets.
著者
宇陀 則彦 松村 敦 阪口 哲男 三森 弘 水嶋 英治 逸村 裕
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2013, no.6, pp.1-8, 2013-09-19

本稿は、筑波大学図書館情報メディア系のプロジェクト研究 「図書館情報専門職の歴史的資料の保存と利用に関する総合的研究:図書館情報学アーカイブの構築に向けて」 を進めるにあたり、デジタルアーカイブの意味を再考した。その結果、アーカイブズ学におけるデジタルアーカイブとは、原本が基本であること、したがって、「出所原則」 「原秩序尊重原則」 「原形保存原則」 がデジタルアーカイブ上でも容易に理解可能であること、また、永久保存を意識したマイグレーションが行われていることが条件であるとした。さらに、今後、アーカイブズ学におけるデジタルアーカイブを構築するためには、情報アーキテクチャの方法論を用いて設計することが重要であることを指摘した。This paper reconsidered "digital archives" to progress the project "Study on archives and use of historical records of library and information professionals: construction of library and information science archives". As a result, digital archives are defined as mapping of original archives, which have principle of provenance, respect for original order, preservation of original shape, and permanent preservation. The real digital archive must be constructed based on methodology of information architecture.
著者
荒牧 英治 久保 圭 四方 朱子
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014, no.23, pp.1-6, 2014-07-25

言語能力は人生における経験の結晶であり,加齢によって損なわれることがないとされる.しかし,その一方で,文法能力など,一部の能力の加齢による低下が示されることもある.このように,老化と言語能力の関係については不明な点が多い.この原因は,次の 2 つによるところが大きい.まず,研究対象である高齢者から大規模なデータを得るのが困難であること.次に,言語はさまざまな能力の総体であり,調査ごとに測っている言語能力が異なることである.そこで,本研究では,Web 上の文章を利用する.まず,50 代から 80 代の高齢者や小中学生,第二言語習得者,認知症患者のブログや作文を集めた.また,測定に関しては,語彙に関するものや構文に関するものなど,さまざまな指標を用いた.この結果,高齢者は,使う言葉の種類が減る可能性があること,さらに,難易度の高い言葉から使用頻度が減ることが明らかになった.この知見を応用することによって,老化や認知症の早期発見の可能性があり,今後の応用が期待される.Preceding study claims that one's language abilities develop over long period of time and improve with age. On the other hand, some study reports that some parts of language abilities, such as grammatical ability, show some decrease in elder people. Since one's language ability is often shown as the aggregation of multiple human abilities, it is difficult to solely extract his/her language ability out of his/her written texts. This study, thus, analyzes texts by using multiple linguistic measures. The corpora cover school students (children attending primary to junior high school, age 6 to 15 years old), elders (age 50 to over 80 years old), Japanese as the Second Language learners, and a dementia patient (Alzheimer type). As a result, this study shows that the lexical richness decreases, and difficult vocabularies tend to be especially lost from elders. This study also displays the possibility of detecting dementia in its early stage.
著者
白木原 渉 大石 哲也 長谷川 隆三 藤田 博 越村 三幸
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2010, no.2, pp.1-8, 2010-07-28

情報検索エンジンでは最新の情報,特に流行している事柄を検索するのは難しい.近年,Twitter が急激に普及し始めた.Twitter では,世の中で流行している事柄 (流行語) について,多くの人が発言する傾向がある.Twitter のユーザーの中でも特に流行に敏感な人 (trendspotter) を知ることができれば,その人の発言に注目することで,流行している事柄についての情報をさらに簡単に手に入れることができる.本システムを実現する手法として,一般のバースト検出アルゴリズムを用いたが,これが Twitter の発言に対しても利用できることがわかった.さらに,本システムによって,5277 人のユーザーの中から,24 人の trendspotter を抽出することに成功した.It is too difficult for us to find out trends with search engines. Twitter, a popular microblogging tool, has seen a lot of growth since it launched in October, 2006. Information about the trends are posted by many twitterers. If we find out trendspotters from twitterers, and follow them, we can get it more easily. Our system uses the burst detection algorithm, and we verified its effectiveness for Twitter's posts. Finaly, we succeeded in detecting the 24 trendspotters by 5277 users.
著者
簗瀬 拓弥 増田 英孝 山田 剛一 荒牧 英治 中川 裕志
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2013, no.1, pp.1-6, 2013-02-21

本研究では電車の運行状況をリアルタイムに一般の Twitter のユーザのツイートから取得することを目的とする.対象として常磐線をキーワードとして含むパブリックタイムライン上のツイートを半年分収集した.このデータを用いて単位時間あたりのバースト数を元に定常時と異常時を判別し,通知を行うシステムを試作した.また,遅延や運転見合わせ時のユーザのツイートの特徴の分析を行った.Our goal is to extract train services from ordinary twitter users' tweets in real-time. We have collected tweets which includes '常磐線' from public time line over six months. We distinguish abnormal state from normal state by using a burst per minutes in the collected tweets, and we implemented a prototype system which can be notified abnormal state. Also, we analyzed the characteristic of users' tweets when trains are delayed or postponed.
著者
奥野峻弥 浅井洋樹 山名早人
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014-IFAT-115, no.12, pp.1-6, 2014-07-25

従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,推定対象を限定した,少人数に対する著者候補者群が取り扱われてきた.これに対し,我々はマイクロブログを対象にした,不特定多数の候補者群に対する著者推定の提案を行った.その際,精度向上のためマイクロブログ特有の叫喚フレーズに対する正規化手法,および計算量削減のため推定に必要となるメッセージ数を削減する手法を提案してきた.本稿では,より多くのマイクロブログ利用者を対象にした著者推定を行う上での問題点,特に学習用データとテストデータの取得期間の差異が精度に与える影響について検証し,学習用データの取得期間が精度に与える影響を小さくする手法を提案する.実験では Twitter ユーザ 10,000 人に対して著者推定を行い,Precision@1 で 0.535,MRR で 0.602 を達成した.
著者
大場 みち子 伊藤 恵 下郡 啓夫
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2015-IFAT-118, no.2, pp.1-4, 2015-03-23

我々は数学思考力を研くことでプログラミング力が向上できるとの着想から,プログラミングの思考過程の構造と数学の問題解決過程に相関があるとの仮説を立て,プログラミング力向上のための数学学習材の開発を目指している.また,数学学習教材の開発によりプログラミング力向上を目指すだけでなく,論理的文章作成力も同時に養成できると考えた.このためには,プログラミング思考過程での 「論理的思考力」 と 「論理的文章力作成」 に必要な 「論理的思考力」 の類似性を調べる必要がある.つぎに,類似性がある場合,この類似性と数学学習を行うことで転移される 「論理的思考力」 との相関を調べる必要がある.そこで,本稿ではプログラミング力と論理的文章作成力との類似性を分析する.両者の類似性を評価するために,初年次プログラミング教育科目の成績とレポート課題による論理的文章作成力との相関を分析し,プログラミング力と論理的思考力の関係を明らかにする.
著者
神田 峻介 森田 和宏 泓田 正雄 青江 順一
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014, no.11, pp.1-6, 2014-07-25

トライ法とはキー検索を実現する手法のひとつであり,自然言語処理などにおいて幅広く活用されている.トライ法を実現するデータ構造としては,ダブル配列や LOUDS などがあげられる.ダブル配列は,トライのノード間の遷移を O(1) で実現する高速性を備えたデータ構造であるが,簡潔データ構造である LOUDS と比べ,記憶量は大きい.LOUDS は,ビットベクトルによりトライを表現するため,コンパクト性に優れたデータ構造であるが,ダブル配列に対し検索速度は劣る.本稿では,近似直線との差分値を用いたダブル配列の圧縮法を提案する.また,Wikipedia 日英タイトル各 20 万語~100 万語に対する実験により,提案手法は従来のダブル配列と比べて,記憶量を約 60%に圧縮し,且つ LOUDS より約 12 倍高速に検索がおこなえることが実証された.A trie is one of the method for key search algorithm and utilized in natural language processing and so on. It is represented by a double array and LOUDS. The double array provides fast retrieval at time complexty of O(1), but its space usage is larger than that of LOUDS. LOUDS is a succinct data structure using bit-vector. Its space usage is extremely compact, but its retrieval speed is not so fast. This paper presents a compression method of the double array using approximate straight lines. From simulation results for 200,000~1,000,000 keys, it turned out that the space usage of the presented method becomes about 60% compared with the double array and its retrieval speed is about twelve times faster than that of LOUDS.
著者
矢代 寿寛 宮澤 彰
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2011, no.7, pp.1-6, 2011-11-15

博物館資料と図書館資料の機械的な Linked Open Data 化を行うために,展覧会カタログに着目し,実際のメタデータが機械処理に適しているか分析・評価を試みた.展覧会カタログメタデータ作成機関として主要な役割を担っている博物附属図書室のうち,NACSIS-CAT 参加機関の WebOPAC の書誌レコード約 4 万件について,記述率や一貫性を分析した.JAPAN/MARC および独自フォーマットの書誌レコードと,サンプルにおける正確性を比較し,Linked Open Data 化に適しているか,評価した.Exhibition catalog metadata have the potential to mediate library resources and museum resources, because of the specialty. we tried to analyze and evaluate metadata, with the aim of generated of linked open data. Analyzed the completeness and consistency of about 40,000 bibliographic records from a museum Libraries WebOPAC, that uses the NACSIS-CAT format. Compared the metadata with original format and JAPAN / MARC format in sample bibliographic records, evaluate the suitability for automatic linked open data generation.
著者
西出 頼継 本間 維 永森 光晴 杉本 重雄
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2013, no.4, pp.1-8, 2013-09-19

近年,誰もが利用・アクセスを行え,再利用や再配布が許可されたデータセットである Open Data が増えてきている.しかし,Open Data の構造は複雑なものが多く,スキーマ定義がないと再利用が難しい.また日本において LOD として公開されている Open Data の数は世界全体と比べると少ない.本稿では,日本で公開されている Open Data を LOD として活用することを目的に,CKAN 日本語などで公開される日本のデータセットを対象にスキーマの分析やリンク関係などの調査を行った.その結果日本の Open Data ではスキーマ定義やデータセット間のリンクが少ないということが分かった.そして,Open Data を LOD として活用するためにはスキーマ定義を行うためのメタデータ語彙の推薦や,リンクで結ぶためのリソースの同定が必要であると考察した.In recent years, there has been an increase in the use of Open Data. These datasets are freely available to everyone to reuse and republish. Unfortunately, many Open Data structures are complicated and are difficult to reuse without a schema definition. Compared with the rest of the world, Japan releases relatively little Open Data as LOD. We investigated Japanese Open Data, focusing on CKAN-Nihongo schemas and links to improve the use of datasets as LOD. We found that there are few Japanese Open Data schemas and links. Therefore, we recommend that metadata vocabularies and identification of links to connect resources should make use of Open Data released as LOD.
著者
本間 維 永森 光晴 杉本 重雄
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2011, no.8, pp.1-8, 2011-11-15

Web 上で公開されている Web ページ中にメタデータを記述するために,RDFa や Microformats,Microdata など複数の標準的な記述フォーマットが提案されている.しかし,標準的な記述フォーマットに従ったメタデータを持つ Web ページの数はまだ少なく,メタデータを利用した情報流通支援を行うには,より積極的なメタデータ付与が求められる.本稿では,DCMI Description Set Profile を基にした情報抽出テンプレートによる,相互利用性向上や作成コスト軽減を意識したメタデータ生成手法を提案する.Standard metadata formats, such as RDFa, Microformats, and Microdata, have been recommended to embed metadata in HTML or XHTML documents. However, many web pages have no metadata written in those formats. The other side, non-standard formats describing information for layout of web pages is used widely. For increasing metadata more proactively, we regard information in non-standard formats as metadata, and integrate with metadata in standard formats. This paper proposes a method to create metadata from resources with embedded metadata in standard and non-standard formats.
著者
齋藤 準樹 湯川 高志
出版者
情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.2, pp.1-8, 2011-03-21

本稿では,ソーシャルブックマークに含まれるタグの共起関係から階層的な類語辞書を作成し,それを用いてユーザの興味語を抽出する手法および興味語の類似性によりユーザ推薦を行う手法を提案する.また提案した手法について,Twitter を対象として興味抽出および推薦の精度と意外性に関する評価実験を実施し,有用性の確認を行った結果についても述べる.In the present paper, as a means of extracting user interest for the purpose of user recommendation, the authors propose a method for constructing the hierarchy of words based on SBM tags and to emphasize characteristic word by using this relation. Additionally, the user recommendation system based on this interest extraction is proposed. As a result of a survey on Twitter, the authors discovered that the tags in SBM and their hierarchy have a rich vocabulary for extracting the interests of Twitter users. Moreover, experimental results have indicated that the user recommendation system attains approximately 0.41-0.48 precision if the friend relations in SNS are also utilized as a user preference data.
著者
中路紘平 藤村厚夫
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014, no.12, pp.1-1, 2014-03-22

ニュースアプリ 「SmartNews」 は、ソーシャルメディアの解析による配信コンテンツの選定から、ユーザーの快適な情報取得のためのレイアウト調整まで、全てアルゴリズムによって行っています。そのアルゴリズムは機械学習や自然言語処理などの成果を組み合わせた高度なテクノロジーによって支えられています。 SmartNews とは何か? のご紹介から、現在の技術、今後取り入れていく技術について触れながら、良質な情報を世界中の人々に届けるための我々のサービス作りの可能性についてご紹介します。
著者
齋藤 彰 竹内 孔一
雑誌
研究報告情報基礎とアクセス技術(IFAT) (ISSN:21888884)
巻号頁・発行日
vol.2017-IFAT-124, no.1, pp.1-5, 2017-02-03

テキスト含意認識問題の先行研究では,文に含まれる内容語の含有率などを含意の識別に用いていた. しかし,文中に現れる内容語の順序を考慮しない手法では,含意の識別において誤りが多くみられた.そこで,本研究ではテキスト含意認識を文の構造の包含関係を調べることにより,含意の識別を行うアプローチを提案する. 自然言語文から文の構造を生成する際に述語項構造解析エンジン Predicate-Argument Structure Analyzer (ASA) を利用した.従来の ASA による解析ではコピュラ文における述語について,内容語と機能語の分類が不完全であった.そのため,本研究ではその点について ASA を改良し,NTCIR-10 で提供されたRITE2 の問題セットを利用して評価実験を行った.評価実験の結果,ASA の改良により含意の識別に成功した事例が 3 件増加したことを報告する.
著者
関洋平
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2012, no.2, pp.1-8, 2012-09-18

インターネット, Web を利用した電子メディアの発展とともに,ユーザ個人が発信する意見の影響は大きくなり,その利用方法は変遷し続けている.電子的に蓄積された意見情報を分析することにより,消費活動や行動判断に有用な情報へのアクセスを支援する研究として,主に自然言語処理,情報検索,データ工学などの分野で,意見分析あるいは意見マイニングの研究が行われている.意見を分析するための表層的な特徴は,文書ジャンルあるいはメディアごとに異なることが知られており,ニュース,レビュー,ブログ,マイクロブログなど,様々なメディアごとにコーパスが重要な役割を果たす.本稿では,意見分析についての最近の研究におけるコーパスの使用状況を明らかにするとともに,意見分析コーパスの代表的な事例について紹介する.
著者
鈴木 俊哉 鈴木 敦 菅谷 克行
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2015-IFAT-118, no.5, pp.1-6, 2015-03-23

甲骨文字のデジタル化において,文字符号化して問題ないか,あるいは画像として扱うべきかは,拓本資料の鮮明さや掲出例数を考慮して判断しなければならない.我々は印刷物として公表されたデータベースである 『殷墟卜辭綜類』 と 『殷墟甲骨刻辭類纂』 に基づいた検討をすすめているが,全て手書き資料であり,また,そこに模写された文字の集合も明確ではないため,文字認識的な手法をとることができない.本研究では,掲出例数を概算するため,両書に共通するレイアウト構造をもとに模写テキストを画像分解する方法を検討した.両書の画像分解精度が大きく異なる結果が得られたが,この原因は両書の編集・出版方針の違いによると推測される.また,本研究の手法の適用範囲についても報告する.
著者
栗山和子
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2013, no.3, pp.1-8, 2013-09-19

本研究では,国立大学の附属図書館が Twitter をどのように利用しているのか,簡単な実態調査を行い,大学図書館の PR ツールおよびサービスツールとしての Twitter の有効性について考察した.まず,全ての国立大学の附属図書館について,Twitter のアカウントを収集し,ツイートの発言者の属性をプロフィールや図書館の公式サイトを用いて公式アカウントを同定した.次に,TwitterAPI を用いて,各アカウントのユーザ情報およびツイート 100 件を抽出し,その内容をいくつかのカテゴリに分類した.結果として,大学図書館のツイートの内容は,従来の館報や掲示による広報の範囲内に収まっており,双方向的なやりとりやリツイートによる情報拡散などの Twitter の特性を十分活用しているものではなく,主に簡易的な広報ツールとして使用されていること,また,公式アカウントがフレンドとしてフォローしているユーザの 4 割はフォロワと重複しており,必ずしも,Twitter 上での有用な情報源をフレンドとして登録しているわけではないことなど,まだ,大学図書館の Twitter 利用には課題が多いことがわかった.
著者
西村章宏 土方嘉徳 三輪祥太郎 西田正吾
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014, no.14, pp.1-6, 2014-07-25

マイクロブログサービスの 1 つである Twitter では,その時々で話題になる政治家や芸能人など有名人に関する一般ユーザの発言を豊富に得ることができる.さらに近年では,SNS から得られる評判情報をマーケティングやその他サービスに応用しようという試みが活発に行われている.そこで本研究では,Twitter から得られる評判情報のうち,一般ユーザの有名人に関する発言とその発言を行ったユーザのプロフィール等に着目する.これらの各情報源から得られるデータに対し,抽出の妨げとなるノイズへの前処理を経て,一般ユーザの観点が反映された特徴量であるトピックの抽出を行う.そして得られたトピックの分布を元に人物の類似関係を獲得し,それを基に各人物を平面上に配置することで,人物関係の可視化を行う.この可視化結果に対しては使用した情報源毎に妥当性と発見性に着目して特徴の分析を行う.