著者
大塚 博紀 吉岡 真治
出版者
一般社団法人情報処理学会
雑誌
研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2009, no.35, pp.9-14, 2009-03-18

Web 文書の特徴はリンクによりお互いの文書の関係が示されている点にあり、この情報は PageRank に代表される Web 空間の解析手法に用いられている。しかし、これらの解析では、サイト内、サイト外といった分類は考慮されているものの、ページの中でのアンカーテキストの役割には、注目していない。本研究では、このアンカーテキストの役割の違いに注目し、適切に分類することで、リンク構造解析や Web ページ上でのユーザーの行動解析に役立てる事を目標としている。本稿では、人手による役割分析の結果に基づいたアンカーテキストの自動分類システムを提案する。また、その有効性を検証するために、実際に人手の分類とシステムの出力を比較した結果について報告する。A Link Structure among Web documents represents the relationship among these documents. Web structure analysis methods such as PageRank use this information. However, most of these methods pay little attention to the type of link (e.g., most of the methods use simple classification such as link to the same site or not). In this research, we proposed a method to classification criteria of anchor texts based on the role analysis of the text in Web documents for better link structure analysis and the users' behavior analysis on the Web page. In this paper, we propose an automatic classification method based on the result of manually classification experiment. In order to evaluate this method, we compare the result of automatic classification results with manually classified ones.
著者
石川 雅弘
出版者
情報処理学会
雑誌
研究報告デジタルドキュメント(DD) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.3, pp.1-6, 2011-03-21

ウェブ上にはブログをはじめとして一般ユーザにより生産された大量のテキストデータが蓄積されており,その量は今後も継続的に増加すると考えられる.我々はタイムスタンプ付きテキスト集合のクラスター構造とその経時変化を可視化するための手法を提案してきたが,そこでは文書ベクトルの次元削減と潜在意味処理を行なうために全データを一括して処理する必要があった.そのため,ブログなど大量のテキストが生産される続ける漸増的環境に適用するには問題があった.本稿では,ブログのような漸増的動的環境下でも,潜在意味処理を伴なったクラスタリングと可視化を効率良く行うための、文書ベクトル生成手法を提案し,例として収集したブログ記事集合への適用結果を示す.Nowadays, huge amount of user generated texts is produced and accumulated on the web. They will be continuously increased in the future too. We have proposed a method for visualizing cluster structures of time-stamped texts and their changes over time. However, in the method, the whole dataset had to be processed at a time for dimension reduction of document vectors and incorporating latent semantics of words. Thus, the method have some problem in dynamic incremental environments, such as blogs, to apply. In this paper, a new method for document vector generation which can enable efficient text clustering and visualization in dynamic environments is proposed. As an example, the proposed method is applied to blog articles to demonstrate its effectiveness.
著者
中村 哲三
出版者
情報処理学会
雑誌
研究報告デジタルドキュメント(DD) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.6, pp.1-6, 2010-09-17

マニュアルなど製品付属ドキュメントのローカリゼーション (多言語展開) をスムーズに進めるために、そのローカリゼーションのマスターとなる英語版を世界中の読者に対してわかりやすくする方策を検討する。世界中の読者を対象とした英文ライティングを検討することで、「世界共通語」 としての 「グローバルイングリッシュ」 を目指していく。The purpose of this report is to find out and employ appropriate methods to make English documents easy-to-understand for readers and translators around the world, which facilitate localisation†2 process of documents bundled with products, accordingly, since the English versions are usually used for the source of localization. Writing and pursuing easy-to-understand English documents for the audience of the world leads us to form "Global English" as a Lingua Franca in the modern world.
著者
三島木 一磨 戸田 真志 川嶋 稔夫
出版者
情報処理学会
雑誌
研究報告デジタルドキュメント(DD) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.5, pp.1-8, 2010-02-25

近年様々なメディアが簡単に保存できるようになった.写真もそのひとつであり,人々はそれらをどんどん保存しているが,それらの多くは整理されないまま保存されており,このままではそれらの写真は価値を失ってしまう.これらの有効な再利用のために,我々は複数人で写真を閲覧しおしゃべりをするシーンに着目した.このようなシチュエーションを解析することで写真に関する情報を抽出し,付加することが可能でないかと考えた.本論文では閲覧者の行動モデルと写真の情報モデル及び「タグの伝搬」モデルを定義する.そしてこれらのモデルに基づき画像処理によって写真の状態を解析しタグを付加するシステムを提案する.さらにそれを用いて実験を行い,モデルの正当性を検証する.Many media forms can be stored easily at present. Photographs, for example, can be easily stored even though most of them have not been edited. This means they will gradually lose their value and become essentially unusable. To make better use of photographs, we tried to make use of information provided by viewers who had seen and commented on them. We felt that analyzing this information would enable us to make maximum use of photographic data. To do this, we defined a "tag propagation" model and relationships between photos. We also proposed a system that uses image processing to analyze viewers ' handling of photos and how the photos are relevant to each other. We then validated our model by using it.