著者
石崎 俊 田中 茂範 今井 むつみ
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.28, pp.17-24, 1994-03-17
被引用文献数
6

自然な発話状況における対話では、従来の文法に基づいて判断するとおかしいが、意味は自然でよく分かる文が多く見られる。そのような対話文では意味を主体にした解析手法が望ましい。しかし、従来の意味解析手法や辞書の機能では「固い」ため、そのような意味解析を実行するには不十分なことが多い。そこで、本研究では、従来よりも柔軟な意味解析機構をもつモデルの構築を目標とし、それに適した意味解析法と、概念辞書における距離空間の導入について基礎的な検討を行う。概念辞書において概念間の距離を、従来のように階層構造をたどるのではなく、多次元尺度法を用いて定量的に距離を測ることによって距離空間を構成することを検討する。次に、状態を表す概念を指標としたSD法を用いて意味空間における距離を計算し、動的な意味の変化について基礎的な検討を行う。In spontaneous conversation, we have many ungrammatical but semantically natural sentences. Analysis based on semantics or context seems appropriate for such conversational texts. The traditional methods for semantic analysis or structures of concept dictionaries are not enough to treat with such texts. This paper discusses, therefore, a computational model which has a flexible mechanism for semantic analysis and discusses functions and a structure which concept dictionaries should have. For example, using cognitive psychological experiments, MDS method, a metric space among concepts can be organized. Then, SD method using concepts of state as parameters introduces a metric space where dynamic semantic analysis can be formalized. This paper discusses possibilities of these new approaches.
著者
鷲山 真澄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.79, pp.61-63, 1993-09-16

本研究において、エスペラント語は国際語として人工的に作られた言語であり、その特性を探求し応用理論へと提示することが、目的である。エスペラント語の音声と文法を中心に検討する。エスペラント語の音声について、アクセント、音節、又、文字についてその特徴を明らかにする。エスペラント語の文法について、品詞を重視して、動詞、名詞、形容詞、人称代名詞、指示代名詞、複数形、疑問、否定、冠詞、前置詞、無生物主語、比較、仮定法、.樟続詞、関係作名詞に,ついて考察をすすめるが、エスペラント語がいかに合理的な人工語であるかを示したい。The Esperant is international language. I consider phonology and grammar of the Experanto. I will show how the Esperanto is the rational artificial language.
著者
山田 寛康 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.44, pp.57-64, 2002-05-23
参考文献数
10
被引用文献数
3

本稿では 機械学習アルゴリズム Support Vector Machine を用いた英語構文解析法を提案する. 高精度な構文解析を行うには 句のラベルだけでなく 句の主辞がもつ語彙情報をも考慮する必要がある. しかし従来の統計的構文解析モデルは データスパースネスの問題から 主辞の語彙情報を素性として大量に使用することは 逆に精度低下の要因となっていた. 機械学習アルゴリズム Support Vector Machine は 素性空間の次元数に依存しない高い汎化性能と Kernel 関数によって素性の組合せまでも考慮した学習が可能である. そのため主辞の語彙情報を含めた多くの素性とその組合わせを考慮した学習が行える. しかし SVM は 確率を推定するのではなく 2つのクラスを識別する分類器であり 従来多くの統計的構文解析モデルが採用している確率モデルへの直接的な適用が困難である.本稿では 上昇型解析アルゴリズムを用い 構文解析の各段階を 文脈に適切な解析木構築手続きへの分類問題とみなすことでSVMを適用し 解析木構築規則の学習を行う. 解析木は SVMが分類器であることから 決定的に構築される. 本手法を Penn Treebank コーパスを用いて評価した結果 labeledrecall/precision で 88.2/89.0%という高い精度を得ることができた.In this paper, we propose a parsing method for English sentences with machine learning algorithm called Support Vector Machines (SVMs). The performance of statistical parsing strongly depends on how to deal with lexical information and incorporate them into the statistics for parsing. Data sparseness problem arises when using large number of features like head words. As a result, we cannot estimate correct statistics for construction of parse trees. SVMs not only have high generalization performance in sparse data using a large number of features like head words, but also can take into account the combinations of features by virtue of polynomial kernel functions. However, SVMs are classifiers, not probabilistic estimator. Thus, it is difficult to apply SVMs to the probabilistic parsing model directly. Our parser constructs a parse tree for an input sentence with a deterministic bottom-up algorithm. Each parsing process is regarded as a classification task which classifies the context into a procedure for constructing parsed trees. We evaluated our parser using the Penn Treebank corpus, and the result attained over the 88.2/89.0% labeled recall/precision.
著者
内元 清貴 黒橋 禎夫 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.114, pp.143-150, 1996-11-18
被引用文献数
1

文脈や状況を考慮した日本語文生成システムを構築するために、語彙選択の過程は必要不可欠である。本稿では、計算機上で柔軟な語彙選択を実現するために語彙選択を決定する様々な要因を具体的なパラメータとして取り出し、選択の手がかりとして用いる。本稿で提案する語彙選択の枠組には、次のような利点がある。1.本枠組では、概念と表層の単語が一対多に対応すると考えるため、一つの概念から様々な要因に応じて語彙を選択できる。例えば、「言われる」と「仰る」の違いのように単語そのものが異なる場合の語彙選択も扱える。これは従来の枠組では扱えなかった。2.要因の性質を利用することによって、ある単語の選択が同じ文内の他の単語の選択に影響を及す現象も扱える。Lexical selection is a prerequisite to construct a system for generating Japanese text that takes into account context and circumstances. This paper uses causes and their properties as search keys to achieve flexible lexical selection. The proposed framework for lexical selection has the following advantages: 1. The framework enables a wide choice of words representing a certain concept, unlike in other systems, because it assumes that each concept corresponds to several words, allowing the selection of suitable words given a set of causes. 2. Lexical selection of words is influenced by the selection of other words in the same sentence, taking into account the scopes of the words' contexts and their individual causal properties.
著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.95, pp.155-162, 1999-11-25

本論文では,単語の意味を単語間の連想関係を表す確率分布として表現し,その定式化と連想確率の獲得について述べる.単語の意味的な重みを表す指標として単語の共起確率分布の情報量から計算される連想情報量を提案し,共起確率との組み合わせにより連想確率を計算する.連想はMarkov過程の上で行われ,その状態確率分布として意味が定義される.状態遷移として連想を行うことによって,直接共起しない語の意味的な関係が表現できる.また,確率ベクトルとして捉えた意味のスケール変換として文脈を捉え,先行単語集合の数を仮定しない非線型な更新式を提案し,これにより文脈の強化と順序への依存が表現できることを示す.現実のテキストから意味を獲得し,文脈をモデル化することで,意味的類似度や文脈解析だけでなく,情報検索などにおいて様々な実際的な意味処理が可能になる.This paper describes meanings of a word by stochastic association. First, we propose a new indicator of semantic informativeness of a word by its co-occurrence distributions. Second, we define the association probability by a combination of co-occurrence probability and the indicator. Then, regarding context as a vector of scaling factors against semantic vector, we propose a nonlinear formula of context succession to show its validity in modeling reinforcement and order depencency of context. Stochastic treatment of meaning and its aquisition from texts is useful in real semantic processing.
著者
水野 淳太 緒方 淳 後藤 真孝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.46, pp.31-38, 2008-05-15

本稿では,エピソードと呼ばれる音声ファイルの集合から成るポッドキャスト(音声ブログ)を対象とした,類似エピソードの検索手法について述べる.動画共有サイト等で,あるコンテンツの再生後に関連・類似したコンテンツを提示する機能を持つものが多いが,それらは書誌情報やタダユーザの視聴履歴に基づいている.本稿では,エピソードを音声認識した結果に基づいて,音声認識結果を confusion network に変換し,そこからエピソードを特徴づけるキーワードセットを抽出して,キーワードセット間の類似度を計算することで,関連エピソードを検索・提示できる手法を提案する.単語正解率や話者数など,傾向の異なるいくつかのエピソードに対して実験を行い,本手法がどのような場合に有効であるかについて評価を行った.本成果は,音声認識に基づくポッドキャスト検索サービス PodCastle で,関連エピソードを提示するためにも利用できる.Given podcasts (audio blogs) which are sets of speech files called episodes, this paper describes a method for retrieving similar episodes. Although video sharing services usualy have a function of showing a set of relevant /similar content after playing back a piece of content, they are based on bibliographic information, tags, and users' playback behaviours. In this paper, we propose a method that extracts keywords from confusion networks converted from speech recognition results and then retrieves and shows relevant episodes on the basis of similarity between those keywords. We evaluated this method using several episodes including a variety of speech recognition accuracy and the number of speakers. This result can be applied to show relevant episodes on PodCastle, a podcast search service based on speech recognition.
著者
長谷川 隆明 高木 伸一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.1, pp.73-80, 1998-01-19
被引用文献数
15

一度に多数の人に情報を伝達できる電子メールは、送信する側にとって都合が良い。しかし受信する側では、人手を介さずに情報を抽出して再利用することができないという問題がある。本稿では、電子メールを介したコミュニケーションにおいて用いられる言語の特徴を分析し、それに基いて構成したパターンを用いたパターンマッチングによって、電子メールからイベントの開催日時や開催場所、期限付きの返信依頼等のスケジュール情報を抽出する方法を提案する。任意の電子メールを対象として、スケジュール情報の抽出を行った実験の結果、十分に実用に耐え得る程度の高い精度が得られたことを報告する。E-mail is convenient because senders can communicate information to many people at one time. A problem is that receivers cannot extract and process the information within the e-mail automatically. We analyze the characteristics of the language used in e-mails and propose a way to extract schedule information, such as event date, event location, and RSVP date, from the text of e-mails by using pattern matching. Experiments using actual e-mails confirm the accuracy of our proposal; schedule information can be extracted from any e-mail with practical levels of performance.
著者
徳永 健伸 岩山 真
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.28, pp.33-40, 1994-03-17
被引用文献数
18

本論文では,新しい文書のインデックスの重み付け手法を提案し,これを文書の自動分類に応用した実験結果について報告する.本論文で提案する手法は情報検索の分野で一般的に使われている重み付け手法IDFを改良したもので,これをWIDFと呼ぶ.200から6000程度の文書の自動分類実験の結果,WIDFを使うことによってIDFに比べ最大で7.4%精度を改善することができた.This paper proposes a new term weighting method called weighted inverse document frequency (WIDF). As its name indicates, WIDF is an extension of IDF(inverse document frequency) to incorporate the term frequency over the collection of texts. WIDF of a term in a text is given by dividing the frequency of the term in the text by the sum of the frequency of the term over the collection of texts. WIDF is applied to the text categorization task and proved to be superior to the other methods. The improvement of accuracy on IDF is 7.4% at the maximum.
著者
山田 寛康 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.112, pp.33-38, 2001-11-20
被引用文献数
7

本研究では 日本語固有表現抽出タスクを題材に 機械学習アルゴリズムSupport Vector Machine(SVM)を多値分類問題に適用する手法を提案し 代表的な従来手法である one vs. rest 法 及び pairwise法 との比較を行なう. 二値分類器であるSVMを固有表現抽出タスクに適用するためには 多値分類器に拡張する必要がある. しかし分類するクラス数に比例して計算コストが増加するため 現実的な時間での学習 及び分類が困難となる. 我々は 多値分類問題を 比較的分類が容易な二値分類へ分割し 二分木を構築する手法を応用し 効率的な学習 及び分類ができるよう SVMの多値分類器への拡張を行う. 固有表現抽出実験では 従来法である pairwise 法 及び one vs. rest 法と比べ ほぼ同等な抽出精度を維持し 抽出時間を削減できることを確認した.This paper proposes a method for multi-class classification with Support Vector Machines(SVM) and evaluates its effectiveness using Japanese named entity extraction task. Multi-class problems with more than two classes have typically been solved by combining independently produced binary classifiers, such as pairwise and one vs. rest method. However, these methods require large computational cost with increasing the number of classes. We propose a method to reduce multi-class classification to binary using a method called as tree-structured model for efficient learning and classifying. Results of our extraction experiments suggest that the method is comparable to the one vs. rest and pairwise methods, and it can reduce the extraction time.
著者
西澤 信一郎 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.56, pp.89-95, 1996-05-28
参考文献数
7
被引用文献数
2

本稿では,日本語の会話中において,発話間の因果関係がどのような形式で記述されているのか,をコーパスを用いて検討した結果について述べる.このような談話構造は,発話者の「思考の流れ」を示しているものと考えられ,発話者は,地図課題対話など目的の定まった会話の場合はもちろんのこと,雑談など特定の目的に左右されない自由会話の場合でも,この構造をある程度認識し,協調的な会話を進めているものと考えられる.そこで,本稿では,地図課題など目的の定まった会話からなるコーパスではなく,飲み会の席上での会話データを対象とした自由課題コーパスを用いた検討を行なった.また,この検討結果を利用し,因果関係を記述するような談話構造をコーパス中から取り出すために必要な手順について提案した.We discuss here how a discourse structure representing a causality relation among two or more sentences is described in Japanese task-free dialogue. The structure, we think, shows "the stream of consideration" of a speaker. We argue that the speaker recognizes the structure and have a conversation cooperatively even in the case of task-free dialogue. Then, we discuss the causality relation with a corpus of Japanese task-free dialogue and show how to find out discourse structures for the relation from the corpus systematically.
著者
サイウス・シャウル 多田 智之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.2, pp.9-15, 1999-01-20

20世紀後半になって、電子化したドキュメントは最も一般的な通信手段のひとつになった。インターネットなどのネットワーク上で入手できる電子化ドキュメントが増加するにつれ、必要なドキュメントを見つけるのがますます困難になってきている。インターネットやイントラネットの検索エンジンはWWW全体を検索できるように取り組んできた。WWWは急速に成長しており、月に100%以上の成長をする場合もありうる。またその内容はほとんど管理されていないに近く、ドキュメントは頻繁にあらゆるタイミングで、内容が更新されたり、場所が移動したり、消されたりしている。ユーザにとって直感的に分かりやすいインターフェースを提供するために、検索エンジンはインデックス作成や検索実行に形態素解析を使っている。本稿では、高性能のインターネット/イントラネット検索エンジンが直面しているこれらの問題について述べる。Digital documents have become one of the most common means of communication for the human race in the latter half of the 20^<th> century. As the number of digital documents available over data networks, such as the Internet, has increased, so has the difficulty in finding documents on these networks. Internet/Intranet search engines have tackled the problem of allowing people to search the entire set of documents that make up the World Wide Web. The WWW is a set of documents that grows at a rate that is hard to measure, but may be over 100% per month. The content of the WWW is administered in a completely decentralized manner, and documents can change content, location or disappear completely at any time, usually with high frequency. For a search engine to provide an intuitive interface for users to search for pages, search engines use morphological analysis to create and search the index. We will try to review in this paper the issues that face a high performance search engine in the Internet/Intranet environment.
著者
北村 美穂子 下畑 さより 介弘 達哉 池野 篤司 坂本 仁 折原 幾夫 村田 稔樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.67, pp.97-102, 2008-07-10

近年インターネットの普及と価値観の多様性の拡大により,様々なサービスやコンテンツが提供される時代になっているが,多種多様化しているサービスやコンテンツは様々な言葉や形式で表現されているため,従来のキーワード型の検索サービスだけでは自分のニーズに合ったものを見つけることができない.我々は,対話システムにおいて,「対話の中で徐々に掘り下げた質問を繰り返すことにより,ユーザの真のニーズや価値観を引き出す」 ラダリング手法を用いることによりシステムがユーザに質問を投げかけ,ユーザが単独では表現できなかったキーワードや表現を引き出し,多種多様でかつ大量のサービスやコンテンツの中からそれとマッチするものを探し出す 「ラダリング型検索サービスシステム」 を構築した.本稿は,対話エンジン部を中心に本システムの全体概要を説明する.It has become common to search needed services and contents using the Internet, but it is difficult to find exactly what one is looking for through keywords as each service is described in just too many ways. We developed "Laddering" Search Service System that matches users with the search targets by communicating with the users through interviews. The system consists chiefly of the laddering dialog engine employing "laddering method" which enables the engine to ask questions to users and extract keywords and expressions that users probably would not have been able to express on their own. This paper describes the outline Laddering Search Service System, focusing the laddering dialog engine.
著者
松本 和幸 湊 純子 土屋 誠司 任福継
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.33, pp.69-75, 2008-03-28
被引用文献数
4

本稿では,日英両言語における感情表現の特徴をコーパスに基づく統計的調査により導出し,得られた結果を用いた感情表現抽出手法の提案を行なう.感情タグ付きパラレルコーパスから得た感情カテゴリごとの感情表現の特徴には感情表現そのものが持つ特徴と周辺の形態素等が持つ特徴とがある.提案手法では,これらの複数の特徴を組み合わせることで,感情表現が示す感情の種類を判定する.具体的には,感情表現を構成する品詞,感情表現の出現位置,感情表現の前後の単語の品詞に着目し,感情表現の抽出を行なった.評価実験の結果,品詞特徴を用いた手法は"喜び" と"嫌悪" において判定精度90%以上という結果を得た.This paper statistically studies the emotional features of Japanese and English based on an emotion annotated parallel corpus and proposes a method for extracting emotional expressions. The proposed method estimates the emotion category of the emotional expressions by focusing on the three kinds of features: part of speech of emotional expression, position of emotional expression and part of speech of the previous/next morpheme of the target emotional expression. The evaluation experiment resulted over 90.0% (joy, hate) of accuracy in the method based on part of speech features.
著者
坪井 祐太 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.20, pp.17-24, 2002-03-04
被引用文献数
2

本研究では、機械学習手法(Support Vector Machines)を用いてメーリングリストの著者識別を行った。また、メーリングリストのデータで学習した識別器によって、Webの文書の著作識別を試みることで異なるタイプのドキュメントに対する性能を調べた。この際、従来から使われていた単語N-gramとともに、データマイニング手法(PrefixSpan)によって抽出された単語の連続パターンを素性に用いることでより高い性能が得られた。使用されたパターンは隣り合わない単語列にもマッチするパターンであり、実験結果より著述すタイルを表現するのに適当な特徴の一つであると考えられる。The study of authorship identification in Japanese has for most part been restricted to literary texts using basic statistical methods. In the present study, authors of mailing list messages are identified using a machine learning technique (Support Vector Machines). In addition, the classifier trained on the mailing list data is applied to identify the author of Web documents in order to investigate performance in authorship identification for more heterogeneous documents. Experimental results show better identification performance when we use the features of not only conventional word N-gram information but also of frequent sequential patterns extracted by a data mining technique (PrefixSpan).
著者
南野 朋之 鈴木 泰裕 藤木 稔明 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.23, pp.129-136, 2004-03-05
被引用文献数
4

近年注目され始めている情報源としてblog (Weblog)がある.現在,blogというと,blogツールと呼ばれる管理ツールを使用して作成されるWebページを指すことが多いが,日本ではblogツール登場以前から,Web日記という形で個人による情報発信が行われており,非常に有用な情報源となっている.そこで本研究では,このようなWeb日記も含めてblogと呼び,特定のツールやメタデータに依存しない,HTML文書の解析に基づいた手法で,これら個人の発信する時系列に沿って掲載される情報を網羅的に収集,監視するシステムを提案する.We present a system that tries to automatically collect and monitor Japanese blog collections that include not only ones made with blog softwares but also ones written as normal web pages. Our approach is based on extraction of date expressions and analysis of HTML documents. Our system also extracts and mines useful information from the collected blog pages.
著者
好田 勲 柘植 覚 獅々堀正幹 北 研二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.17-22, 2003-03-06
被引用文献数
4

ベクトル空間モデル(Vector Space Model;VSM)は情報検索における代表的な検索モデルであり,検索対象文書および検索質問を多次元ベクトルで表現するう特徴を持っている.しかし,これらのベクトルは一般にスパースかつ高次元であるため,計算機のメモリによる制限や検索時間の増大などの問題が生じる.また,次元が増加するに連れ,文書中に含まれる不必要な索引語がノイズ的な影響を及ぼし検索精度を低下させてしまうという現象も起こってくる.以前,我々はこの問題を解決するため,Non-negative Matrix Factorization(NMF)を用いたVSMの次元圧縮手法を提案した.しかし,メモリの問題がまだ存在する.そこで,本稿では,k-means NMF を用いたVSMの次元圧縮手法を提案する.また,スパースな行列に対し有効な検索手法である検索質問拡張にNMFを用いる手法を提案する.MEDLINEコレクションを用いた検索実験を行った結果,NMFを用いた場合とk-means NMFを用いた場合では,検索精度を劣化することなく計算に必要なメモリを約$1/10$に軽減することができた.また,NMFを用いた検索質問拡張もVSMよりも高い検索精度を示すことができた.The Vector Space Model (VSM) is a conventional information retrieval model, which represents a document collection by a term-by-document matrix. Since term-by-document matrices are usually high-dimensional and sparse, they are susceptible to noise and are also difficult to capture the underlying semantic structure.Additionally, the storage and processing of such matrices places greatdemands on computing resources. Dimensionality reduction is a way toovercome these problems. We proposed non-negative matrix factorization(NMF) for dimensionality reduction of the vector space model.However,this method did not overcome memory problems. Hence, we proposek-means NMF for dimensionality reduction of the vector space model. And,we propose query expansion using NMF in this paper.Using MEDLINE collection, we experimentally showed that k-means NMF offers great improvement over the vector space model.
著者
長野 翔一 高橋 寛幸 中川 哲也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.65-70, 2008-09-17
被引用文献数
6

情報爆発時代において,情報の個人化を実現するプロファイル技術が注目されている.しかし,現在のプロファイル技術は獲得した閲覧履歴全体からユーザの全閲覧行動における要求の傾向を推測するため,要求の変化を検出するのは困難である.本稿が扱う 「要求」 とは行動への動機の事を指し,10 分程度で変化する性質を持つ.ユーザは要求に基づいてウェブページの閲覧を行う.我々は,ユーザの要求変化は各閲覧履歴の意味的類似度を利用することで検出可能であると考え,閲覧履歴の分類方式を提案する.既存の分類方式では,同じ要求内でも時系列に従い少しずつカテゴリが変化する,複数の異なる要求が並存する,といった閲覧行動の性質のため精度を下げることとなる.そこで,提案方式はこれらの性質を考慮し,クラスタ重心付近に十分な閲覧履歴数が確保できないことを前提とした,局所解重視の分類方式の構築に取り組む.また,既存の分類方式と比較実験を行い,提案方式が既存方式に比べ有効であることを確認した.We propose a clustering method for detecting the change of intention from user's browsing behavior. It is necessary to treat the user's intention accurately in information explosion age. However, treating dynamic intention is difficult for a conventional method, as behavior targeting model. Because the category change little by little in the same intention, and any other intentions exist at same time. For detecting user's intention change in browsing-behavior, we analyze each of browsing-history based on the similarities, and clustering based on local part similarities, in case web history have not a normal distribution. In addition, we evalute on result of an experiment to effectiveness for conventional clustering method.
著者
山本 英子 内山 将夫 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.104, pp.101-106, 2002-11-12

本研究では,文字認識の分野で用いられている補完類似度をテキストコーパスから事物間の関係を推定する問題に適用する際に,事物が持つ各文書における頻度を考慮した場合を考える.補完類似度は,ベクトルで表された文字の画像パターンの類似度を測ることによって劣化印刷文字を認識するために経験的に開発された尺度である.この扱うベクトルをコーパス中の事物の出現パターンに置き換えると,補完類似度は事物間関係の推定に適用できる.そこで,これまでに二値ベクトルを対象として事物間関係の推定を行った.しかし,二値ベクトルでは,Document Frequency しか考慮しておらず,Term Frequency(文書内頻度)を考慮していない.そこで,Term Frequencyを考慮した多値ベクトルを対象とした補完類似度を用いて事物間関係の推定を行った.その結果,Term Frequencyを考慮した補完類似度のほうが推定能力が高かったことを報告する.In this paper, we applied CSM (Complementary Similarity Measure) considering term frequency to estimate relationship between entities. Here, term frequency is times that certain entity appears in a document. CSM was developed experientially for robust character recognition. This measures inclusion degree of vectors expressing character image pattern. We have even estimated relationship between entities by replacing the image pattern to occurrence pattern of entity in corpus. However, we have considered only document frequency and have not considered term frequency. From experimental results, we reported that CSM considering term frequency obtained higher performance than original CSM.
著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.41-47, 2003-01-20
被引用文献数
2

本報告では 語彙の意味的概念の空間内での表現に関し 空間の性質によらない評価基準を示し 確率的表現が従来のベクトル空間での表現より優れていることを見る.また 計算量上問題となる概念空間の次元数に対し AICによる最適次元数の決定を試みた.This paper proposes a neutral metric of semantic coherence independent of the inherent property of semantic spaces. Using this metric, we show that PLSA representation excels than LSA, and try to find an optimal setting of semantic dimensions based on minimum description length criterion.
著者
國府 久嗣 園田 勝英
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.35, pp.15-20, 2007-03-28

日本語テクストに含まれる語彙項目間のコロケーションに着目し、その状況を視覚化することでメッセージ分析を行なう方法について考察した。このとき統計手法としては主に多次元尺度構成法を用いている。本発表ではコロケーション定義のうち重要な部位をなす Span について、値や判定法を変化させた際の分析結果との相関について検討した。これによって語彙項目以外を Span に含まない方式には、分析結果が span の値によって過敏には左右されない特徴があることを明らかにしている。対象テクストが恒常的に有していると考えられるメッセージを抽出し分析するという観点からはこの性質はのぞましい点にも言及した。In this paper we will suggest that it will be useful for interpreting the message(s) of a Japanese text to visualize its frequencies of lexical collocations. The visualization is based on MDS. We explore into the effects of various settings of span. Span is currently considered to be the central parameter of the notion "collocation" in that two elements are said to be in collocation when they cooccur in a certain specified span. It is shown that various settings of the span length do not significantly affect the final configurations obtained through visualization, when span is defined with non-lexical, i.e. functinal, elements excluded. The result supports our initial suggestion because the message of a text we are trying to capture is one of its constant properties.