著者
伊藤 彰則 王 欽悦 鈴木 基之 牧野 正三
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.50, pp.41-46, 2005-05-26
参考文献数
9

自然な対話の映像の中から笑いを検出するための手法について述べる。笑いは対話中の表情としてもっとも多く見られるものであり、これを検出することはユーザの心的状態の推定にとって有用であると考えられる。また、笑い声を高精度に検出できれば、対話音声の認識誤り削減に有効である。本稿では、カメラで撮影したユーザの顔から表情を認識する手法と、マイクで収録したユーザの音声から笑い声を検出する手法を組み合わせることで、笑いの検出精度を向上させる方法を検討する。顔画像による表情認識では、顔の特徴点検出に基づく特徴量を用い、特定話者の場合で再現率・適合率とも80%以上の精度で自然な対話映像から笑いの表情を認識することが可能になった。また、GMMによる音声の識別と画像情報を組み合わせた笑い声の検出手法を提案した。実験結果より、音声と画像の統合により適合率が向上することが示され、最終的には再現率・適合率とも70%以上の値が得られた。This paper describes a method to detect smiles and laughters from the video of natural dialogue. A smile is the most common facial expression observed in a dialogue. Detecting a user's smiles and laughters can be useful for estimating the mental state of the user of a spoken-dialogue-based user interface. In addition, detecting laughter sound can be utilized to prevent the speech recognizer from wrongly recognizing the laughter sound as meaningful words. In this paper, a method to detect smile facial expression and laughter sound robustly by combining a image-based facial expression recognition method and an audio-based laughter sound recognition method. The image-based method uses a feature vector based on feature point detection from face images. The method could detect smile faces by more than 80% recall and precision rate. A method to combine a GMM-based laughter sound recognizer and the image-based method could improve the accuracy of detection of laghter sounds compared with methods that use image or s und only. As a result, more than 70% recall and precision rate of laughter sound detection was obtained from the natural conversation videos.
著者
向井 誠 青野 雅樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2005, no.94, pp.27-32, 2005-09-29

本研究では,RSSで記述されたWebコンテンツ群からユーザの嗜好に沿ったコンテンツの取得にかかる労力を最小限に抑えることを目的に,Webコンテンツの推薦を実現するプロトタイプシステムの設計,実装を行う.既存の検索エンジンでは見つけにくい最新ニュース記事やBlogなどの更新頻度の高いWebサイトに対し,その概要の記述にRSSを用いることが多くなった.しかし,RSSフィードが増加するにつれこれまで同様"情報の洪水"が問題となっている.提案手法ではRSSに記述されたコンテンツに対して内容に基づくフィルタリングを適用し,ユーザの興味に沿ったコンテンツの推薦提示を実現する.Recently, we can find a large amount of contents on the WWW. However, it has been difficult to extract some valuable information for us. In this paper, we propose a recommendation system which is based on Content-based Filtering. Our method aims at helping users to find information from RSS Feed that are in accordance with their personal interests. A method of generating User Profiles based on user preference is a very important task for providing recommendation systems. Therefore, we propose two method of generating User Profiles: Dynamic User Profile and Static User Profile. These Profiles corresponds to some kind of user preference.
著者
田中 久美子 岩崎 英哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.87, pp.107-114, 1996-09-12

コーパスから得られた共起情報は,共起関係を枝,語をノードとするグラフと見なすことができる.同じ語が複数の意味を持つことがあるという曖昧性によって,この共起グラフは全体でひとつの大きなグラフを形成している,本稿では,曖昧性を「共起関係の推移律」という観点から捉え,共起グラフから同じ意味・話題を成す部分グラフを推移律が成立するように抽出して全体をクラスタ分けするための手法を提案する.クラスタ分けされたグラフの性質などについても考察する.さらに,実際に20Mのコーパスから作成した共起グラフに対して本手法を適用した結果,および,それを用いた主成分分析による記事の分類を行なった結果も合わせて報告する.Co-occurrence information, obtained from a corpus, is a graph, regarding words as nodes and co-occurrences as branches. Subgraphs of different themes stay connected because of ambiguous words. This paper assumes the ambiguity as the non-transitivity in co-occurrence relationship and tries to cluster a graph into subgraphs in which transitivity holds. Several properties of such subgraphs are also discussed. The clustering method is applied to a co-occurrence graph obtained from 20M Japanese newspaper articles and its results are analyzed. They are also used to classify the articles.
著者
村上 明子 那須川 哲哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.73, pp.117-124, 2004-07-16
被引用文献数
1

大量のテキストを分析し傾向を捉えるテキストマイニングにおいて、分析の観点で同義表現とみなせる語を代表的な表現に集約することは、表層表現の出現頻度のみで分析をするよりも有効である。そのためには、一般的な同義表現のみならず、分析対象の文書と目的に特化した同義表現の辞書が必要になる。本稿では、筆者別に分けられた文書集合を、表現の一貫性が保たれた文書集合として用いることにより、同義表現抽出の精度を向上させる手法を示す。我々は同一の筆者であれば一つの対象を表現するために、常に同じ表現を使う傾向があると仮定した。この仮定によれば、筆者別に分けられた文書内で似た文脈をもつ語あるいは表現のほとんどが類義表現であっても同義表現ではないといえる。コールセンターの対応記録データを用いて実験を行った結果、この仮定と本手法の有効性が示された。We present a text mining method for finding synonymous expressions based on the distributional hypothesis in a set of coherent corpora. This paper proposes a new methodology to improve the accuracy of a term aggregation system using each author's text as a coherent corpus. Our approach is based on the idea that one person tends to use one expression for one meaning. According to our assumption, most of the words with similar context features in each author's corpus tend not to be synonymous expressions. Our proposed method improves the accuracy of our term aggregation system, showing that our approach is successful.
著者
辻河亨 吉田 稔 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.1, pp.155-162, 2004-01-14
被引用文献数
4

文書中から用語抽出を行う手法としては様々なものが提案されているが,多くはコーパスにおける用語候補の使用における統計量を利用するものであった。本稿では,これまで光が当てられていなかった用語を構成する語基間の関係について,そのグラフ構造に着目する。まずグラフにおける局所的ないし大域的構造を反映する用語抽出の指標を新たに提案し,その上で提案した用語抽出のいくつかの指標,およびそれらの組み合わせを,複数のコーパスを用いて実験的に評価した結果について報告する。Many methods to evaluate termhood of word sequences extracted from documents have been proposed. The majority of them use the statistics of term candidates appearing the corpus. The ignored side, however, is the graph structure whose nodes are basic terms that consist of complex terms. That is exactly what we focus on in this paper. We propose term extraction algorithms which utilize this graph structure. More precisely, the proposed methods assume the whole set of compound terms as a graph and applies web mining method to term extraction. The nodes are element words, the edges coincide with modifying relations between words in the definition of graph, and the importance of terms are ones used to find web communities or in ranking pages by Web search engines. Finally we experimentally evaluate the proposed algorithms with terminology dictionaries on Web.
著者
平野 耕一 古林紀哉 高橋淳一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.117, pp.21-26, 2005-11-21
被引用文献数
4

消費者の個別のニーズや文脈を検出することは、ネットビジネス企業にとってだけでなく、消費者自身の生活者の質向上のためにも非常に重要である。最近のブログの流行によって、消費者の日常生活についての情報や日々考えていることを低コストかつリアルタイムに取得することが可能になった。本論文では、ナイーブベイズ法に基づく多重トピック分類などの自然言語処理技術を、日本語圏ブログのリアルタイム分類とトピック定量化に適用した最初の試みを報告する。本論文で提案した方法によって、ブログエントリのリアルタイム多重トピック自動分類と、ブログ圏における多重トピックの強度の定量化が可能であることを実証した。Identifying individual's needs and context is of paramount importance not only from the net business player's perspective but also for improving consumers' quality of life. The recent blogging boom provides consumers' everyday life information and thinking accessible at a low cost in real time. This paper discusses the first attempt to apply some NLP techniques, such as multi-class document classification build upon the naive bayes method, to a real-time classification and quantification of their topics in the Japanese blogosphere. The results show that the proposed method is capable of classifying blog entries in real-time and is also capable of quantifying the intensity of multi-topics in the blogosphere.
著者
坂田 浩亮 新保仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.113-119, 2007-09-26
被引用文献数
1

言語教育において,学習者の言語習得度を知ることは教師にとって重要なことであるまた,言語学習者の言語習得度を客観的に量る手段があれば 学習者は教師がいなくても自分の言語習得度を評価できるため,学習効率の向上につながると考えられる.本発表では 言語学習者の作文と習得度別コーパスとの類似度に基づいて 学習者の言語習得度を推定する手法を提案する.NICT JLEコーパスを用いて行った提案手法の評価実験と,その結果について紹介する.We propose methods for automatically evaluating second language learners' proficiency levels. These methods not only help teachers evaluate students' proficiency levels, but also accelerate students' learning, since they can evaluate their proficiency levels whenever they like without consulting their teachers. The proposed methods compute students' proficiency levels on the basis of the similarity between their free compositions and the corpus of compositions divided into skill levels.
著者
中村 康正 望月久稔
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.94, pp.117-122, 2005-09-30

トライ法は,自然言語処理システムの辞書情報構築を中心に広く用いられている.このトライ法のデータ構造として,青江らが提案したダブル配列法がある.ダブル配列法は高速性とコンパクト性をあわせもっており有効なデータ構造であるが,動的検索法に比べデータの更新処理が高速であるとはいえない.そこで現在では未使用要素を単方向リストとして連結する手法が知られているが,トライ木の希点を追加および削除する際に大きなコストを必要とする.そこで本論文では,未使用要素を双方向リストとして連結することにより追加処理を高速化し,さらに削除時間を抑えるアルゴリズムを提案する.10万語の辞書データに対する実験を行った結果,追加速度は単方向リストよりも約1.5倍,削除時間は未使用要素リストを用いない従来法と同等となることが判った.A trie is used widely, such as dictionary information construction of natural language processing system. As a data structure of trie, there is the double-array structure which Aoe and others proposed. A double-array structure is an efficient data structure combining fast access with compactness. However, the updating processing is not faster than other dynamic retrieval methods. Then, although the technique of connecting empty elements as linked list is known now, big cost is needed in the node of a trie tree is inserted and deleted. In this paper, we presents a fast insertion algorithm by connecting empty elements as doubly list and reduction algorithm of deletion time. From the simulation results for 100 thousands keys, it turned out that the presented method for insertion is about 1.5 times faster than the linked list method, and deletion time is equivalent to original method which is not used 1Inked list.
著者
浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.49-56, 2003-01-20
被引用文献数
1

一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組み合わせによる.形態素解析出力結果をそのままチャンカーの入力にすると,形態素解析結果より小さい単位の固有表現を抽出することは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn次解までの品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャンカーにより決定的に固有表現となる語の語境界を推定する.この手法により,1次解のみを用いる場合より豊かな素性をチャンカーに与えることができ,固有表現抽出の精度を向上させることができた.CRL 固有表現データを用いて評価実験(交差検定 5-fold)を行った結果,F 値約 88% という高精度の結果が得られた.Named Entity (NE) extraction is a task in which proper nouns and numerical information are extracted from texts. A method of cascading morphological analysis and chunking is usually used for NE extraction in Japanese. However, such a method cannot extract smaller NE units than morphological analyzer outputs. To cope with the unit problem, we propose a character-based chunking method. Firstly, input sentences are redundantly analyzed by a statistical analyzer. Secondly, the input sentences are segmented into characters. The characters are annotated redundantly with the character types and POS tags of the top n best answers that are given by the statistical morphological analyzer. Finally, we do chunking deterministically based on support vector machines. The method can introduce richer features for chunkers than the method based on single morphological analysis result. We apply our method to IREX NE task using CRL Named Entities data. The cross validation result of the F-value being 88% shows the effectiveness of the method.
著者
江上 修平 永井 秀利 中村 貞吾 野村 浩郷
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.108, pp.83-88, 2004-11-05
被引用文献数
1

本研究では新聞社説記事を対象に自動要約を行う.従来の文単位で抽出を行う自動要約システムでは文内に残る冗長性が高圧縮率での情報量の低下を生み出していた.そこで,少ない文章中で情報量の増加を目指し文より小さい単位として区を抽出し要約文章を生成する.また,要約文章の論述展開の流れを考慮するために直接関係や段落間の類似度から文章構造解析を行い要約文章の生成処理を行う.その結果,従来の文抽出によるシステムより評価値の向上が見られた.This paper describes a system that makes a summary of an editorial. The system that makes a summary by extracting some sentences cannot eliminate redundant components of the sentence. Thus such a system cannot produce a highly condensed good quality summary. In order to remove such inconvenience, we propose a method which finds important phrases and then constructs the summary from them. Our system analyzes the text structure so that it can recognize a logical stream and connective relationship of adjacent sentences. And furthermore, it analyzes the similarity between adjacent paragraphs. Based on the result of these analyses, the system construct a summary. According to our examination, our system could generate a better summary than that of the traditional one.
著者
亀田 雅之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.85, pp.119-126, 1997-11-12
被引用文献数
5

文書中の重要文を抽出するために、高順位の段落中の文を優先して文の重要レベルを付与する段落シフト法を主体にした手法を述べる。段落や文内のキーワード候補群間で構成単語レベルでの重複を計数して得た段落間及び文間関速度を、正規化分母の相違に応じて参照関連度と被参照関連度とに区別し、見出しは参照関連度平均値、段落は被参照関連度平均値、文は両関連度平均値の線形和を基本スコアとして順位付けする。この上で、見出しは見出し群内での順位値により、本文中の文は段落内での順位値を段落の順位でシフトして、各々重要レベルを付与し、さらに、見出しとの関連度等で補正を行う。本手法による重要文抽出の小実験(平均12.1文,42新聞記事)を行い、最高レベルの文で再現率約64%/適合率約71%の結果を得た。This paper describes a method to extract key-sentences from texts based on preference-ranking sentences within preference-ranked paragraph. Two types, a referring type and a referred-to type, of degree of relevance between two elements, determined by counting component words common to the two groupes of keyword-candidates, are used for ranking the elements, such as paragraphs or sentences. The key-sentence level assigned to a sentence is calculated by shifting the rank-value of the sentence within the paragraph by the rank-value of the paragraph including the sentence. The result of the highest level key-sentence extractions from 42 newspaper articles shows 64%-recall and 71%-precision compared to sentences selected by human readers.
著者
市丸 夏樹 飛松 宏征 日高達
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.23, pp.43-48, 2004-03-04
被引用文献数
3

本稿では,論説文を読みやすいinformativeな要約文へと自動的に要約するための手法を提案する.まず,文章を段階的に段落分けし,階層的な結束構造を構築する.その際,文間,段落間の繋がりを計測するために,従来の語彙結束性に代えて話題間の連想による話題の流れのよさを表す値を用いる.論説文中の段落列に着目すると,導入部を表す段落から展開部を通って結びへ至る大きな話題の流れが見られることが多い.そこで,我々の要約システムはその大きな流れこそが書き手の主張を表す文脈の本流であるとみなす.最後に,流れを構成する文とその流れへの寄与度が高い文を抽出することによって,流れのよい読みやすい要約文が得られる.In this paper, we propose a method of automatic summarization to produce easy-to-read, informative summaries of editorial articles. Firstly, the document is segmented hierarchically to form a multi-layer paragraph structure. Instead of lexical cohesion, associative relations between subjects are used to measure subject-flow consistency between sentences and between paragraphs. In a paragraph, the most significant subject-flow stream runs from an introductory subparagraph to conclusive one through some intermediates. Thus, our system regards this flow as the contextual main stream of the document. Finally, several sentences which have greater contribution ratio in the flow are extracted gradually, to form a multistage summary which has maximum consistency.
著者
原 一夫 乾 健太郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2008, no.4, pp.75-80, 2008-01-22

本研究では事態の事実性解析に焦点をあてる。テキストに記述されるすべての事態を対象にした情報抽出を行う上で、事実性解析は述語項構造解析とともに必須の技術といえるが、これまでのところ、十分には研究されていない。本稿では、事実性解析の応用例としてブログ記事からの経験抽出を想定し、そのための事実性解析を時間情報、極性、話者態度の観点から抽象化する枠組みを提案する。また、ブログ記事を対象とする予備実験についても報告する。In this paper we concentrate on the analysis of the events in terms of factuality. We consider that the identification of factuality is an inevitable step towards practical information extraction after completing the predicate argument structures, however, it has not been studied well up to now. Then, as a case study, we shall propose a framework for examining the factuality of personal experiences in terms of tense, aspect, and mood, and we also give experimental results using Web log texts.
著者
王玉馨 清水 伸幸 吉田 稔 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2008, no.46, pp.7-14, 2008-05-15
被引用文献数
3

コーパスから同義語の対を抽出するための一般的な方法では、通常二つ単語間の類似度 (例えば、cosine 類似度) が必要である。類似度を使用することで、特定のクエリ単語に対しての類似語ランキングが可能になり、同義語候補リストから正しい同義語が認定できる。この論文では、それに加えて、単語類似度ネットワークを分析する新しい方法を提案する。単語類似度ネットワークでは閾値以上の類似度をアークとして、単語をノードとして定義する。提案する自動同義語候補選択ためのランク閾値(Rank Threshold for synonym candidate Selection RTS) によって類似度の順位が閾値以内のアークが構成される単語類似度ネットワークはスケールフリーグラフである。 この性質に基づいて、我々は新しい同義語候補のリランキング手法を提案する。これを相互リランキング法 (Mutual Re-ranking Method MRM) と呼ぶ。同義語獲得における提案手法の有効性を示すために MRM 方法を Reuters-21578 に適用した。 実験結果によって、RTS と MRM が同義語抽出の品質の向上させることが示された。Popular methods for acquiring synonymous word pairs from a corpus usually require a similarity metric between two words, such as cosine similarity. This metric enables us to retrieve words similar to a query word, and we identify true synonyms from the list of synonym candidates. Instead of stopping at this point, we propose to go further by analyzing word similarity network that are induced by the similarity metric for the edges with the similarities that are ranked as top threshold number. By introducing the rank threshold for synonym candidate selection method (RTS), our analysis shows that the network exhibits a scale-free property. This insight obtained from the network leads us to a method for re-ranking the synonym candidates -a mutual re-ranking method (MRM). We apply our methods to Reuters-21578 to show the generality of the methods on synonym acquisition. The results show that RTS and MRM boosts the quality of acquired synonyms.
著者
宇津呂 武仁 颯々野 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.86, pp.9-16, 2000-09-21
被引用文献数
3

本論文では,人手によって作成された少量の初期固有表現リストと大量の人手未解析コーパスから,ブートストラップにより日本語固有表現抽出規則を学習する手法を提案し,その実験的評価結果を報告する.実験の結果,ブートストラップのサイクルを経るにしたがって,初期固有表現リストによる固有表現抽出の性能(F値)が徐々に改善されるという結果が得られた.この結果により,少量の初期知識と大量の人手未解析コーパスを用いたブートストラップ法のアプローチが,日本語の固有表現のまとめ上げの問題においても,ある程度有効に機能することが確認できた.Approaches to named entity recognition that rely on hand-crafted rules and/or supervised learning techniques have limitations in terms of their portability into new domains as well as in the robustness over time. For the purpose of overcoming those limitations, this paper evaluates named entity chunking and classification techniques in Japanese named entity recognition in the context of minimally supervised learning. This experimental evaluation demonstrates that the minimally supervised learning method proposed here improved the performance of the seed knowledge on named entity chunking and classification. We also investigated the correlation between performance of the minimally supervised learning and the sizes of the training resources such as the seed set as well as the unlabeled training data.
著者
望月 源 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.86, pp.17-24, 2000-09-21
被引用文献数
4

本研究では,genericでinformativeな要約の作成を目指し,「指定された要約率の範囲で,元のテキストの情報をできる限り含めること」と「作成された要約が文章として自然で読みやすいこと」の実現のための重要個所抽出による要約作成を行なう.本稿では,重要個所抽出の際に,構文情報と語彙的結束性の情報を考慮して,同じ内容を表わす語の繰り返しによる冗長性を抑える手法,文としての意味を維持するために必要な他の部分を補完する手法,内容的に一貫性のある読みやすい要約を作成する手法について述べる.また,指定された要約率の範囲で内容がどの程度保持できているかを人間による重要個所抽出型要約との比較で評価する.In this research, we aim to develop a summarization system which is capable of making an informative and generic summary. We require the system to have two abilities; to include as much information as possible on the original text in the summary of the specified rate, and to produce natural sentences with higher readability which can be exchanged for the original text. We adopted the method of extracting important parts of sentences for our first summarization system. Since important parts are smaller than important sentences, it can be considered that a fine-grained summary can be produced by using these parts. In this paper, we describe an automatic summarization method of extracting important parts which result in an improvement of readability and an exclusion of redundancy. We also make a content-based summary comparison by measuring the similarities between the summaries extracted by some automatic summarization methods and those extracted by human subjects.
著者
佐々木 稔 新納 浩幸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.76, pp.109-114, 2007-07-25

ディレクトリ型の検索サービスはあらかじめ Web ページが項目別にまとめられているので、初心者でも簡単に WWW (World Wide Web) 検索をすることができる。このようなサービスを運営する側は Web ディレクトリへのサイト登録や分類、管理といった作業を人手により行っているため、膨大な Web ページを処理することが困難となる。そのため、我々は人手で行っている Web ディレクトリの管理作業を自動化するシステムの構築を目指している。これまで、サイトの内容語を扱わず、ホームページに記述された meta タグの name 属性値である keyword と description をキーワードとして階層のトップレベルで分類を行い、その結果として分類精度が 82% となり、本文を利用した場合の 55% を大幅に上回る分類性能を得ることができた。本稿では、これまでトップレベルで行っていた分類を拡張し、ディレクトリ階層全体を対象として Web サイトを分類する手法について述べる。階層構造全体を対象とすることで、より現実的で、実用的な Web ディレクトリの構築を行うことが可能となる。階層的な分類においても keyword、description 属性値をキーワードとして利用することの有効性を確かめるために、未分類のデータを利用して実験を行った結果、meta タグのみをキーワードとして利用したシステムは平均 62.7% の分類精度を得ることができた。比較として、meta タグを使わずに HTML 文書の本文を利用した場合の分類結果を求めると 42.3% であった。これより、階層的な分類においても HTML 文書の本文を利用するより meta タグのみを利用した方が有効であることが分かった。また、平均精度が 60% を超えていることから、半自動での Web ディレクトリの構築が可能であると考えられる。A web directory is a directory on the World Wide Web. For example, Yahoo! Directory and Dmoz are well known web directories. Some categories have a lot of web site links across an extensive range of topics. So we browse the categories below to find helpful resources and information. The web directories are created and maintained by human volunteers who are experts in particular categories. So many submissions of registering URLs are delayed due to not selecting the most specific category for them. In our research, we construct a system of automatic classification into a web directory which is maintained by human. In former experiments, the keywords and the description value of the meta tag in HTML documents are very efficient for Web site classification and the effects of the common words cause misclassification of Web sites. In this paper, we describe a classification system for hierarchical web directory structure. Using the whole directory hierarchy, we consider that the system enables to construct a practical and useful web directory. To evaluate the efficiency of this system based on the values of meta tag, we make an experiment on classifying web sites into the Dmoz directory using the web site registered in the Yahoo! directory. As the results of these experiments, the average precision using meta tag is about 62.7% and that using text of HTML document is about 42.3%. The precision using meta tag is higher than using text and we find the efficiency of the meta tag in the hierarchical classification as well as the classification to flat categories.
著者
佐藤 敏紀 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.7-14, 2007-09-25
被引用文献数
7

本稿では日本語の比較表現に対する知見から得られたルールと 構文情報とセンタリング理論を用いることで blog 記事中に含まれる比較表現から比較関係を抽出する手法を提案する.比較関係は〈対象 基準 属性 評価〉の4つ組 または属性が非明示な〈対象 基準 評価〉の3つ組で構成される.提案手法では4つ組と3つ組の両者の抽出を試みる.提案手法ではこれらの組を抽出する.比較関係は構成する要素が全て単文中に存在する場合と複数文にまたがって存在する場合がある.提案手法は両方の場合に対応する.実験により提案手法は blog 記事中の単文または複数文にまたがる比較表現から比較関係の4つ組を高い精度で抽出できることがわかった.In this paper, we propose a new method for extracting comparative relations from comparative expressions in Japanese Weblogs. A comparative relation is expressed with <object, criteria, attribute, evaluation>, or <object, criteria, evaluation> when the attribute is not explicitly shown. Our proposed method extracts relations of both types. We can observe the fact that all elements of a comparative relation are in a simple sentence or range over multiple sentences. Our proposed method can apply to both cases. Experimental results show that our proposed method can extract the comparative relation with high precision.
著者
深谷 亮 山村 毅 工藤 博章 松本 哲也 竹内 義則 大西 昇
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.73-79, 2003-01-20
被引用文献数
2

本研究では,他人の文章を真似して作成された文章を発見するための文章間類似度の計算法を提案する.真似した文章の多くは,もとの文章に含まれる文と類似した文から構成され,類義語・同義語へ言い換えることなどにより表層的な表現を変化させる.そこで,本手法では各文章を構成される文単位で照合し,表層的な表現の変化に対応するため単語の頻度と概念辞書を用いる.本手法による類似度により,同一テーマで記述された文章と真似して書かれた文章とを明確に区別することができることを示す.In this research, we propose a method of calculating the similarity between documents for identifying the imitated document. Many of imitated documents consist of the sentences similar to the sentence contained in an original documents, and their surface-expression changes by transposing to a synonym etc. Then, our method compares two documents in the sentence unit that constitutes each document by using term frequency and concept dictionary. We show that we can distinguish clearly the document described by the same theme, and the imitated document by using our method.
著者
森 信介
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.65, pp.101-107, 1996-07-18

入力文を単語に分割し品詞を付加する形態素解析は、日本語処理における基本的な処理である。日本語には単語間に明確な区切り記号がないので、この処理は入力文の全ての部分文字列に対する辞書検索を含む。本論文では、辞書を決定性オートマトンに変換し、辞書検索を高速に実現する方法を提案する。この方法は、AC法(失敗関数を持つトライ)に基づく方法と比較して、計算時間が少ないという利点と、大きい記憶域を必要とするという欠点がある。これらの方法を実装し実験を行なった結果、決定性オートマトンによる方法はAC法に基づく方法に対して、必要な記憶域は16.1倍であり、辞書検索の速度は11.7倍であった。Morphological analys is, which segments the input sentence into words and attaches parts of speech to them, is the most fundamental process of Japanese language processing. This process contains dictionary look-up of all substrings of input sentence. In this paper, we propose a method to convert the dictionary into a deterministic finite automaton and realize high-speed dictionary look-up. An advantage of our method is that it enables faster dictionary look-up and a disadvantage is that required memory space is larger than AC method-based dictionary look-up. The experimental results tells that our method requires 16.1 times as large memory space as AC method and is 11.7 times as fast as AC method in dictionary look-up.