著者
阪井 誠 中道 上 島 和之 中村 匡秀 松本 健一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.11, pp.2575-2586, 2003-11-15
被引用文献数
11

WebTracerはWebサイトをブラウズするユーザの視線と操作の記録,再生,分析を支援するユーザビリティ評価環境である.WebTracerは,ユーザがどこを注視しつつ操作を行ったかをコンパクトに記録することが可能である.評価実験の結果,WebTracerは既存のビデオ圧縮方式であるMPEG-2やMPEG-4に比べ1/10から1/20のデータサイズで,Web操作画面を記録し再生することができた.また,Webページのメニューが2カ所に分かれている場合は注視点の移動速度が速かったなど,視線とユーザビリティが関連している可能性が示された.WebTracerを用いれば,ユーザビリティの共同研究や,ユーザビリティ評価者と開発者の間でデータ交換することが可能になる.また,視線データを利用して問題のあるページを容易に探せるなど,ユーザビリティ評価を効率的に支援できる可能性がある.WebTracer is a new usability evaluation environment which supports record, reproduction,and analysis of a gazing point and operation while a user is browsing a website.WebTracer can record a user's gazing point and operation compactly.Results of an experimental evaluation showed that the size of the operation history taken by WebTracer was from 1/10 to 1/20 of the size of data recorded by an MPEG-2 and MPEG-4 format.Thus, with its compact form,the result of usability testing with the gazing point can be efficiently shared.It is expected that we can easily share empirical data between researchers.Also,evaluators can easily send the testing results as a feedback to the developers.Moreover, the results shows that a possibility that gazing points related to usability.For example, if the menu of a Web page is divided into two panes,gazing points moved quickly.It seems that WebTracer improves usability evaluation efficiently,since gazing point data helps to find out problems from Web page.
著者
中渡瀬 秀一 木本 晴夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.1995, no.87, pp.41-48, 1995-09-14
被引用文献数
16

本論文では字面処理によって,テキストから重要語(キーワード)を自動抽出する方法について述べる.日本語の場合まず文章から単語を得るために,形態素解析が必要であるが,形態素解析には未知語や曖昧性の解消などの問題があり,これを解決するために,従来は複雑な規則や人間がメンテナンスしなければならない辞書が必要であった.本手法はNグラムの頻度情報を用いた完全な字面処理になっている.その手順では()まずNグラム頻度情報を使って重要な文字列を抽出し,()次にその中から無意味な文字列を排除する.実験ではこの手法が未知語や複合語の範囲を正しく識別し,抽出精度を向上させることを確認した.This paper describes a new method to extract free keywords automatically from a Japanese text. Morphological analysis is necessary to recognize words from a text for extraction of keywords. There exist, however, problems of unknown words recognition and ambiguity of compound words recognition, so dictionaries and complex heuristics are necessary to resolve them. Our method is based on the n-gram method and consists of 2 steps: (1) Evaluation of major strings using the n-gram statistics, and (2) Exclusion of nonsense strings. It was found that our method extracts keywords that is unknown word more precisely than conventional methods.
著者
佐々木 浩 中野 鐵兵 緒方 淳 後藤 真孝 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.10, pp.57-62, 2009-01-30
被引用文献数
3

ポッドキャストの音声認識における言語モデルの適応手法を提案する.ポッドキャストは,幅広い話題,タスクの音声データが日々増え続けるという特徴を持っているため,言語モデルをいかにして学習,構築するかが認識性能を左右する大きなポイントとなる.本稿では,言語モデリングにおいて,あらかじめポッドキャストが持つメタ情報と「語彙情報サービス」を活用することで,ポッドキャスト音声認識の性能向上をはかる.具体的には,あらかじめ用意された言語モデリング用学習テキストを各テキスト毎に特徴語を抽出し,ポッドキャストのタイトルや概要などに記載された語との共起を基準にテキストの選択を行い,ポッドキャスト毎に特化された言語モデルの学習を行う.加えて,学習テキストやポッドキャストのメタ情報上の語の不足から生じる,テキスト選択の精度低下の問題を解決するため,語彙情報サービスのタグ情報を活用する.本手法で適応された言語モデルを実際に用いて,その性能を単語パープレキシティと未知語率で評価した結果,単語パープレキシティがベースラインの86%,未知語率もベースラインの80%となり,言語モデルの性能が改善されたことが確認された.This paper presents a language model adaptation method for automatic transcription of podcasts. Since podcasts include speech data that contains a variety of topics and many newly created words, well designed language models are indispensable to achieve sufficient speech recognition rate. In this paper, we propose a new topic dependent language modeling method by using meta information of podcasts and vocabulary information service. In this method, a large amount of training data are collected from the Internet such as web news and blogs on a daily basis. By using RSS texts of podcasts, topic dependent texts are selected from these training data, and proper language models are created for each podcast. In addition, we utilize the tag information of the vocabulary information service to solve the problem of the precision fall of the text choice that the lack of the word in a learning text and a meta information of Podcast cause. The assessment result showed that the performance of the language model using this method is improved because the word perplexity of the result using this method is 86% of that of the baseline and the out-of-vocabraly rate of the result using this method is 80% of that of the baseline.
著者
平島 大志郎 勅使河原 可海
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.6, pp.25-30, 2007-01-25

本研究の目的は,企業や大学で行われる会議で運用されるシステムとして,発表者に対し有益なテキスト発言録を協調して作成できるシステム,CollabMinutesを確立することである.発言録をリアルタイムにテキストで記録することは記録係に少なからず負担を強いることになるために,このシステムを継続的に運用するためには,記録係の負担を軽減することが必要である.そこで我々は,既存システムのテキスト協調記録方式を分析し,用いるのに望ましいテキスト協調記録手法の検討を行った.また発言者名の記録手法に関しても検討し,その機能をCollabMinutesに実装した.開発されたCollabMinutesは評価の結果,記録された内容は量的な向上だけでなく質的向上も確認することが出来,発言者名を記録する手法に関しても4割以上の労力の削減が出来た.本稿では,CollabMinutesの開発から運用,評価について述べる.The objective of this research is to realize a meeting supporting system, which is named CollabMinutes, in a company or a university for making meeting minutes collaboratively by using texts. Because real-time voice comments recording work needs much labor for comments takers, it is necessary to reduce the labor for continuous system use. Therefore, we analyzed existing systems for collaborative minutes making, and we considered a much better approaches for our system. We also considered a efficient method of adding speaker names, and implemented it in the CollabMinutes. In results, we can find not only quantitative, but also qualitative increase in the recorded contents. In addition, we can reduce labor more than 40 percent for adding speaker names by using our method. In this paper, we describe system development and operation of the CollabMinutes. Moreover, we evaluate its validity.
著者
川口 喜三男 呉敬軍 和田 幸一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告アルゴリズム(AL) (ISSN:09196072)
巻号頁・発行日
vol.1993, no.48, pp.119-126, 1993-05-28

一定の面積の自動倉庫を十分利用するためにより多くの部品を保管し,かつ効率よい出荷作業が要求されている.それを実現するために,平面自動倉庫に置ける荷台の移動操作の最小歩数についての研究がなされている.本論文は,未だ解決されていない三つの空位を持つN×M(≧)平面自動倉庫において任意の位置にある荷台を自動倉庫の出口まで移動するのに要する最小歩数関数を決定する.又,M=2の場合の最小歩数関数は一般の場合の解においてM=2と置く事によっては解は得られないので,M=2の場合に対して最小歩数関数を別個に決定する.The minimum number of sliding operations (steps) for moving a palette in an automatic warehouse was considered. In this paper, we consider the function of the minimum number of steps for a palette at any position in the aotumatic warehouse of size N×M(M≧2) with three spaces to be moved to the exit of the automatic warehouse.
著者
ましこ ひでのリ
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告.IM, [情報メディア]
巻号頁・発行日
vol.97, no.89, pp.1-6, 1997-09-12

いわゆるワープロ機能における漢字論議をみていて痛感されるのは, コスト感覚を度外視しているのではないかとおもわれる前提-たとえば「第2水準漢字程度の字数は不可欠」といった-である. たとえば固有名詞におびただしくあらわれる特異な表記をともかく伝統どおりに再生産しなければという官公庁等のこだわりは, 時代錯誤的なアナログ・フェティシズムとはいえまいか. 先天性の全盲者のおおくがのりこえてしまっている「日本語表記には漢字は不可欠」というおもいこみ. これらの再検討をふまえない, モジ・セットの議論は, 一歩距離をおいたとき, 悲喜劇としかいいようがない. 梅棹忠夫氏のといた, ワープロ=かなタイプ論は, いまだに検討にあたいする.
著者
平野 亮太 田中 譲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.6, pp.1684-1693, 2001-06-15

部品の再利用と,組立て方式によるアプリケーション開発では,アプリケーションの仕様をいくつかの部分的な仕様に分解し,個々の部分的仕様を満たす部品を合成部品に組み立てることで,目的のアプリケーションを構築することができる.こうしたアプリケーション開発を支援するには,分解,再合成可能なアプリケーションの仕様記述法が必要である.また,大量のソフトウェア部品を管理し,仕様の類似性に基づく部品検索を実現する必要がある.本論では,著者らが提案した部品の抽象的な仕様記述を,部品の型記述として利用した類似部品検索の実現方式について述べる.部品の管理手法は,部品の型記述における半順序関係の定義を行い,その関係を表す一般化階層構造(束)を利用するものを提案する.また,ハッシュ法を用いることで,部品検索の高速化を図る.In our previous research, we introduced a component--pattern description method, based on IntelligentPad architecture, to describe the interface and the abstract behavior of each component. In this paper, we apply component--pattern descriptions to the search for desired components within a component library. The characteristics of component--pattern description method are the establishment of methods for composition and decomposition of patterns, and the use of the same form both for individual components and composites. Consequently, we can decompose a pattern into subpatterns, and later assemble the components that match those subpatterns to form composite results. For managing patterns, we propose a lattice structure representing the partial order over the patterns. We also introduce a coding method for pattern descriptions, and a hashing method for improving the efficiency of pattern search.
著者
増原 英彦 松岡 聡 米澤 明憲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. PRO, [プログラミング]
巻号頁・発行日
vol.95, no.82, pp.65-72, 1995-08-24

並列アプリケーションのための機能拡張や最適化を行う手段として、自己反映計算によるメタレベルプログラミングが有効であることが認められつつあるが、実際のアプリケーションに応用した場合の有効性は、メタアーキテクチャの設計に大きく左右される。現在我々は、並列オブジェクト指向言語ABCL/fのメタアーキテクチャを設計している。特徴は、メタインタプリタ・メタオブジェクトによる拡張、annotationによるメタレベルへの指示、継承によるメタプログラムの再利用などである。本論文では、いくつかの並列プログラムにおける機能拡張の例を挙げ、それらがどのように記述されるかを検討することで、メタアーキテクチャの有効性を確かめる。
著者
長野 翔一 高橋 寛幸 中川 哲也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.65-70, 2008-09-17
被引用文献数
6

情報爆発時代において,情報の個人化を実現するプロファイル技術が注目されている.しかし,現在のプロファイル技術は獲得した閲覧履歴全体からユーザの全閲覧行動における要求の傾向を推測するため,要求の変化を検出するのは困難である.本稿が扱う 「要求」 とは行動への動機の事を指し,10 分程度で変化する性質を持つ.ユーザは要求に基づいてウェブページの閲覧を行う.我々は,ユーザの要求変化は各閲覧履歴の意味的類似度を利用することで検出可能であると考え,閲覧履歴の分類方式を提案する.既存の分類方式では,同じ要求内でも時系列に従い少しずつカテゴリが変化する,複数の異なる要求が並存する,といった閲覧行動の性質のため精度を下げることとなる.そこで,提案方式はこれらの性質を考慮し,クラスタ重心付近に十分な閲覧履歴数が確保できないことを前提とした,局所解重視の分類方式の構築に取り組む.また,既存の分類方式と比較実験を行い,提案方式が既存方式に比べ有効であることを確認した.We propose a clustering method for detecting the change of intention from user's browsing behavior. It is necessary to treat the user's intention accurately in information explosion age. However, treating dynamic intention is difficult for a conventional method, as behavior targeting model. Because the category change little by little in the same intention, and any other intentions exist at same time. For detecting user's intention change in browsing-behavior, we analyze each of browsing-history based on the similarities, and clustering based on local part similarities, in case web history have not a normal distribution. In addition, we evalute on result of an experiment to effectiveness for conventional clustering method.
著者
石橋 直樹 清木 康 中神 康裕 佐藤 聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.71, pp.529-534, 2003-07-16

高域ネットワークに散在する未知楽曲を対象とした検索を実現するために 楽曲の与える印象を表すメタデータの抽出方式を提案する. 提案方式は 個々の楽器に対応する音符列から 印象を表す形容詞群 および それらと個々の音符列の相関量を動的に抽出し また 音符列毎の印象を合成することで 楽曲のメタデータとして動的に定義する. 本論文では 実現システムを用いて 提案方式の実現可能性 および 有効性を示すFor music data on the global area network, we propose an automatic extraction method of metadata that represent impression. The proposed method dynamically extracts adjectives and correlations according to each instrument of a datum, and it dynamically integrates the results of each instrument to generate the metadata of the datum. We clarify feasibility of the proposed method with an implemented system.
著者
大坐畠 智 川島 幸之助
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システム評価(EVA) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.63, pp.7-14, 2007-06-22
被引用文献数
1

P2P オーバレイネットワーク上では主として音楽、動画ファイルが交換されている。P2P アプリケーションは、これまでのクライアント/サーバ型のアプリケーションと比較して非常に大きなトラヒックを生成しており、ネットワークへの膨大なトラヒックの源となっている。しかし、匿名性の高い通信方式を用いているピュア型の P2P アプリケーショントラヒックの実態は、あまり良く知られていない。そこで、これを明らかにするため、まず日本で最も人気のある P2P ファイル共有アプリケーションである Winny に対するトラヒック特定方式を開発した。提案する特定方式はピア間のトランスポート層でのクライアント/サーバ関係に着目して特定を行うものである。つぎに、提案方式を用いて特定した対象とするトラヒックの特性を明らかにする。In P2P networks, it is mainly music and video files that are transferred, and it is known that the traffic volume is much larger than that of classical Client/Server applications. However, the nature of current P2P application traffic is not well known because of the anonymous communication architectures used. To solve this problem, we have developed an identification method for pure P2P application traffic, especially for Winny, the most popular pure P2P file sharing application in Japan. Our proposed method relies only on Client/Server relationships among the peers, without recourse to application header information. In addition to describing the method, we also give an evaluation of the characteristics of the identified traffic collected in an ISP.
著者
小野田 透 角谷 和俊
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.65, pp.393-398, 2007-07-03

現在、Web に対するキーワードの検索結果である URL 集合を、様々な観点から分類しユーザに提示することで検索を支援する技術が多く提供されている。しかし、従来の分類手法では検索結果として提示される URL の「現在の内容」を解析するものがほとんどで、URL の過去の更新に注目して解析するものは少ない。また、過去のページの中にはユーザにとって有用な情報を含むものが数多く存在すると考えられ、これらを利用することでユーザに対し、より有用な検索結果を提示できると考えられる。本研究では、ユーザによって入力された複数の質問キーワードが、検索結果の URL においてどのような時間的関係で出現しているかを解析し、キーワード間の時間的な関係に基づいて URL の分類および補完を行う手法を提案する。質問キーワード間の時間的な関係の解析は、Web アーカイブに蓄積されている過去の Web ページ情報を用いることで行う。解析の結果、判定された質問キーワード間の時間関係によって URL の分類を行う。さらに、本研究では提示する Web ページに対し、その過去のページを抽出して現在のページと共に提示することで情報の補完を行う。本稿では、提案するこれらの Web 検索支援手法について述べる。Classification and clustering search engines analyzing of Web page's content and returning serch results by topic have been provided. However, most conventionally classification and clustering methods analyzed "current contents" of URL shown as search results. And there are few what kind of things which analyzed update of the past. We analyze what kind of relations the plural query keywords which a user input appears with in this study in terms of time in a Web page shown as search results. We suggest method classifying Web pages in based on time relations between query keywords. We perform analysis of time relations between quesry keywords by using past Web page information accumulated to a Web archive. Furthermore, We supplement information in this study for a Web page to show by We extract a page of the past, and showing it with a current page. In this paper, We explain these Web search support methods.
著者
鈴木 雅人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ヒューマンコンピュータインタラクション(HCI) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.11, pp.87-91, 2008-01-31
被引用文献数
1

論文を読む際、一つ興味のある論文に対して参考文献や類似論文などを検索し、それらの概要を確認して読みたいと思う論文を読むということを繰り返す。しかし現在多く用いられている、キーワード検索を主とした検索サービスでは、膨大な検索結果の中から目的の論文を見つけることが難しく、このような読み方に適していない。そこで本研究では一つの論文を入力として、それに類似・関連する論文を視覚的に検索・表示することができるインターフェースを提案する。関連する論文の概要などの情報を確認しながら検索することで、容易かつ効率的な論文検索が可能となる。これにより、専門的な単語の知識が無くても類似する論文を見つけることができる。It is repeated to read the thesis that wants to retrieve a reference literature and a similar thesis, etc. to a thesis interesting by one, to confirm those outlines, and to read when the thesis is read. However, it is difficult to find a target thesis, and it is not suitable for such a pronunciation in a lot of retrieval services that center on retrieval by keyword being used now from among a huge retrieval result. Then, one thesis is assumed to be an input in this research, and it proposes the interface that can retrieve and display the thesis that resembles and relates to it in the sight. An easy, efficient thesis retrieval becomes possible because it retrieves it while confirming information on the outline etc. of the relating thesis. As a result, a similar thesis can be found even if there is no knowledge of a special word.
著者
中村 聡史 山本 岳洋 田中 克己
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2008, no.50, pp.111-116, 2008-05-21

近年,人々の情報検索を支援する研究が盛んに行われている.我々は膨大な検索結果を効率的に閲覧し,目的とする情報にたどり着くための手法として強調・削除操作に基づく検索結果の閲覧手法を提案している.しかし,これまでのシステムでは検索のランキングのためのインタラクションを引き出すには不十分であった.そこで本稿では,検索結果に対するインタラクションを引き出すため,検索結果のページ中に含まれる味覚や嗅覚,視覚や聴覚など各種の感覚情報に注目し,感覚情報の抽出方法や感覚の可視化手法,感覚情報に基づくリランキング手法について提案および実装する.また,本提案をベースとした応用について議論を行う.Recently, there are many works to support user's information finding. In our previous work, we proposed and implemented the reranking method of Web search results by using emphasis and delete operations. However, our previous work is not safficient to encourage users to rerank search results. In order to solve this problem, we pay attention to senses (taste, smell, sight, hearing and touch) on the Web. In this paper, we propose the extracting method of information about senses from the Web and the reranking method based on senses. Then, we demonstrate our system and explain about the potential applications.
著者
山本 英子 内山 将夫 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.104, pp.101-106, 2002-11-12

本研究では,文字認識の分野で用いられている補完類似度をテキストコーパスから事物間の関係を推定する問題に適用する際に,事物が持つ各文書における頻度を考慮した場合を考える.補完類似度は,ベクトルで表された文字の画像パターンの類似度を測ることによって劣化印刷文字を認識するために経験的に開発された尺度である.この扱うベクトルをコーパス中の事物の出現パターンに置き換えると,補完類似度は事物間関係の推定に適用できる.そこで,これまでに二値ベクトルを対象として事物間関係の推定を行った.しかし,二値ベクトルでは,Document Frequency しか考慮しておらず,Term Frequency(文書内頻度)を考慮していない.そこで,Term Frequencyを考慮した多値ベクトルを対象とした補完類似度を用いて事物間関係の推定を行った.その結果,Term Frequencyを考慮した補完類似度のほうが推定能力が高かったことを報告する.In this paper, we applied CSM (Complementary Similarity Measure) considering term frequency to estimate relationship between entities. Here, term frequency is times that certain entity appears in a document. CSM was developed experientially for robust character recognition. This measures inclusion degree of vectors expressing character image pattern. We have even estimated relationship between entities by replacing the image pattern to occurrence pattern of entity in corpus. However, we have considered only document frequency and have not considered term frequency. From experimental results, we reported that CSM considering term frequency obtained higher performance than original CSM.
著者
桑原 一聖 服部 哲 速水 治夫
出版者
一般社団法人情報処理学会
雑誌
研究報告グループウェアとネットワークサービス(GN) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.33, pp.109-114, 2009-03-11
被引用文献数
2

近年,Google マップ API やタイムライン API などの登場により,それらの Web サービスを用いて情報を管理・表示する研究は数多く存在するようになった.しかし,それらの情報を同時に表示し,その 2 つの関係を感覚的に理解できるようなシステムの研究は少ない.本論文では,地理位置情報と時系列情報を表示し,その関係が感覚的に理解できるように,地図 API とタイムライン API のマッシュアップによる時系列地理位置情報表示システムについて述べる.評価実験の結果,本システムを用いて時系列情報と地理位置情報の 2 つの情報を同期させて表示することにより,各 API 単体で動作するシステムより 2 つの情報の関係が感覚的に理解できるという結果を得た.Recently, a number of Web service API such as Google Maps API have been developed. And there are many systems which use these APIs. However, as long as we know, there is no system which uses both APIs to manipulate a map and a timeline. Using them together enables us to understand geolocation information along with a timeline. In this study, we propose a system using Google Maps API and TimeLine API and developed a prototype system. As the results of the experiment using our prototype, we found that handling a map and a timeline synchronously was effective for providing information.
著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.41-47, 2003-01-20
被引用文献数
2

本報告では 語彙の意味的概念の空間内での表現に関し 空間の性質によらない評価基準を示し 確率的表現が従来のベクトル空間での表現より優れていることを見る.また 計算量上問題となる概念空間の次元数に対し AICによる最適次元数の決定を試みた.This paper proposes a neutral metric of semantic coherence independent of the inherent property of semantic spaces. Using this metric, we show that PLSA representation excels than LSA, and try to find an optimal setting of semantic dimensions based on minimum description length criterion.
著者
小島 一浩
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告知能と複雑系(ICS) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.85, pp.123-130, 2004-08-05

本研究では,Peer-to-Peer(P2P) システムにおいて,コンテンツ発見を容易にするために,ユーザの嗜好に着目する.Peer が公開しているテキスト・コンテンツからPeer の嗜好を定義する.さらに,嗜好の類似したPeer をネットワーク上で近くになるように自己組織化的に再配置し,P2P ネットワーク上にクラスタを形成する.これにより,ネットワークの通信負荷を抑制しつつ,コンテンツの発見率を維持させることができる.さらに,自己組織化されたネットワークの1) ネットワーク直径,2) WS クラスタリング係数を測定したところ,Small-World ネットワークが形成されていることが分かった.また提案プロトコルの実装例として,研究者向けサービス,論文の分散アーカイブ・検索システムの開発例を紹介する.In this paper, to improve the Peer-to-Peer(P2P) search performance, I focus on the user's preferences. A user preference is calculated from the documents that are shared by user. The P2P network is reconfigurated according to the proposed algorithm, so that clusters are self-organized. I evaluate the performance of the self-organized network through simulations. These results show that the self-organized community network keeps the high query hit rate without overflow. Moreover, the self-organized network shows the properties of Small-Worlds, that is, 1) low diameter and 2 ) high clustering coefficient. As an example of implementation, I show the P2P archive and search engine system of articles for researchers.
著者
竹内 孔一 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.6, pp.2679-2689, 1999-06-15
被引用文献数
13

近年 インターネットの普及により OCRを用いたテキストの電子化がますます重要な課題となってきた. 日本語におけるOCR誤り訂正の先行研究には OCRの文字候補と品詞タグ付きコーパスを利用した研究がある. しかしながら 分野が異なれば単語の出現分布などが変わることから 誤り訂正を行う分野と同分野のタグ付きコーパスを用意する必要があり それには大変コストがかかる. また 分野によっては統計学習に必要な電子化テキストデータがない場合も多い. そこで まず我々は学習用として電子化された大量テキストデータを仮定したOCR誤り訂正システムを構築し ランダムに生成された文字置換誤りテキストに対する訂正実験を行った. 次に 電子化テキストがない分野に対して OCR処理された誤りを含むテキストを学習に利用するシステムを作成し評価を行った. システムは 文字trigram 統計的形態素解析システム 単語trigramを用いた. 大量テキストを仮定したシステムでは 90%の文字読み取り精度のテキストを92.9%まで改善し 95%の精度のテキストを96.4%にまで改善した. また 電子化テキストデータがない場合について 実際のOCR処理されたテキストに対する訂正実験を行い その有効性を示す.In recent years, OCR error correction is getting more and more important for the purpose of converting printed texts into electronic ones on computers. As a previous work, there exists a study of OCR post processing which uses OCR's character candidates and a morphological analyzer trained on part-of-speech-tagged corpus. However, too much cost is required to prepare pos-tagged corpus for each domain. In this paper, we present an OCR error correction method which uses stochastic language models trained on large texts. We also construct an OCR error correction system which uses OCR's output texts in a domain in which no large scale training text exists. Our system consists of the models of character trigram, a stochastic morphological analyzer and word trigram. We show that the models trained on large texts improve a text of 90% correct character rate into that of 92.9% correct rate and a 95% correct text into a 96.4% correct one. We also show how the models trained on OCR's output texts correct errors in the OCR's output texts.