著者
佐々木 稔 新納 浩幸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.145-152, 2003-03-06
被引用文献数
3

本稿では,文書要約の支援を目的としたシソーラスの自動構築を行うために,大規模な単語集合に対するクラスタリング手法の提案を行う.これまでの単語クラスタリングに関する研究は,索引語・文書行列を利用してさまざまな要素間類似度やアルゴリズムを用いてクラスタリングが行われている.この索引語・文書行列を利用した場合,索引語の分布はどのような文書内容で出現するかを統計的に示したもので,文書内における語と語の間にある意味的なつながりはそれほど強くない.そのため,結果として出力されるクラスタにはある話題に共通する単語が集まりやすくなると考えられる.意味的につながりを持つクラスタを構築するために,共起関係を持つ単語の組を抽出し,ある単語に対して意味的につながりやすい単語を統計的に表現し,それをクラスタリングすることで意味的な共通性を持つクラスタの自動構築を目指す.In this paper, we propose a new clustering algorithm for large scale document size to construct the thesaurus automatically in aid of summarization. The existing word-clustering systems use various similarity and clustering algorithm based on the context of the information retrieval. In case of the clustering using term-document matrix, the distribution of the index word represents the frequency of the word appearance in a certain contents of a document. Therefore, semantic relation between these words in the document is not so strong. As a result, the words which appear frequently in the contents tend to be gathered for one cluster. To construct a cluster set in which semantic relation between these words is contained, we show a word clustering using a pair of words with cooccurrence relation automatically. We further show that our clustering is effective for word sense disambiguation in comparison with using term-document matrix.
著者
佐藤充 森 辰則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.124, pp.113-120, 2006-11-23

質問応答の回答としても字による解だけでなく画像や地図も表示できるシステムを提案する.既存の質問応答システムと画像検索,ジオコーディング,地図APIを組合せ、物に関する質問に対しては画像を,場所を問う質問に対しては地図を表示する.質問応答の解に対応する画像などに曖昧性があっても,質問文に含まれる情報を用いて適切なものを絞り込める.評価実験によれば,質問応答の解が正しかったときに,画像は0.70,地図は0.85の精度で適切なものを表示できることが分かった.また,正解が複数存在するリスト型の質問においては,ユーザは並べられた画像を見ることでそれぞれの解を比較できたり,ひとつの地図上でそれぞれの解の位置関係を把握できるというように,質問応答システムにおける新しい回答の提示方法を示した.We propose a system that can display not only the answer string of a given question but also images or maps related to ths answer. The system consists of an existing Q/A system, an image search engine, a geocoding engine and a map API. Images are displayed when the question is about things like an animal, a plant or a person. Maps are displayed when the question is about place. Appropriate images or maps are selected by using the information in the question sentence even if the answer string is related to several different types of images or location. The experimental results show that the accuracy of fisplaying images is 70 percent, and that of displaying maps 85 percent under the condition that answer strings are collect. Moreover, we show a new method that presents a result of the list-type question-answering on a display simulataneously. A list-type question may have two or more correct answers. Using the method, a user can compare the answers by seeing listed images, or a user can tell the positional relation among the answers by seeing a map in which all answers are marked.
著者
関口 裕一郎 佐藤 吉秀 川島 晴美 奥田 英範 奥 雅博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.117, pp.27-32, 2005-11-21
被引用文献数
2

blog記事は省略を多く含む口語的な記述がなされている為,文中の情報のみによる話題語句の判別は難しい.本論文では,発信者相互の興味の関連性を抽出し,ある語句を使用している発信者集合の持つ関連度の分布を見ることにより,高い関連度を持つ発信者間で使われる語句に高い話題度を算出する.blog記事の集合を用いて実験を行った結果,記事中の話題を表す語句に対して,高い話題度を算出することができた.In this paper, we describe the method to detect the topic words from blog documents. The 'topic words' is defined as a word that gains the attention of people sharing same interest. While blog documents are written by ordinal people, their texts are written in abbreviated informal expression. We use the information of blogger to adjust this characteristic of blog documents. The proposed method extracts the relevancies of each blogger; compares the deviation of these relevancies; and calculates the topic scores for each word of a blog document. The experiment shown that the method can extract appropriate topic words from blog documents.
著者
上園 一知 片岡 朋子 筧 捷彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.62, pp.57-64, 1999-07-22

インターネットなどの情報通信で使用できる文字はラテンアルファベットが主流であり、ネットワークの国際化の反面、未だ母語を利用できず、ソフトウェアの国際化は進んでいないのが現状である。World Wide WebにおいてもHTML自身の仕様とWeb Browserが特定のエンコーディングを対象としているため、任意に文字を混在させて利用可能な国際化の実現が困難である。そこで、X Window System上で開発した国際化ライブラリであるSystem 1を利用し、国際化Web Browserの開発を行っている。本稿では、HTML文書の表示と文字列検索を考察し、Web Browserに必要な機能について述べる。Even in such a highly cross-communicated society, the almost only script available in any computing network is still Latin alphabet, for which many native users cannot make full use of their own scripts. In the WWW environment as well, the true internationalization with any number of script mixed is hard to realize due to the specification of HTML itself and the specific encoding(s) of a Web Browser. To realize true internationalized computing, Internationalized Web Browser has been developing using internationalized library called System 1, which has already developed on X window system. This paper describes the methods and functions to display and search character strings in HTML documents on the Web Browser.
著者
村田 真樹 神崎 享子 内元 清貴 馬青 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.22, pp.89-96, 1999-03-04
被引用文献数
2

本論文では単語の羅列を意味でソートするといろいろなときに便利であるということについて記述する.また,この単語を意味でソートするという考え方を示すと同時に,この考え方と辞書,階層シソーラスとの関係,さらには多観点シソーラスについても論じる.そこでは単語を複数の属性で表現するという考え方も示し,今後の言語処理のためにその考え方に基づく辞書が必要であることについても述べている.また,単語を意味でソートすると便利になるであろう主要な三つの例についても述べる.It is often useful to sort words by their meanings like when using a thesaurus. In this paper, we introduce a method of arranging words semantically and show how to implement this method by using various types of dictionaries and thesauruses. We also examine an ideal dictionary that could be used for future natural language processing. Finally, we describe three main ways to use this method.
著者
陳亮 徳田 尚之 侯 平魁 永井 明 陳若愚 鄭然
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.50, pp.69-79, 2005-05-27

WORDNETのような開発に膨大な時間の掛かる同義語辞書に頼らずに、素人でも使える大型FAQシステム向け自然言語の質疑応答システムを構築した。FAQシステムを自然言語クエリにより検索する仕組みとして、本システムは差分LSI(DLSI)法によるコンテンツ検索と、テンプレート・オートマトン・マッチングによる統語検索を組み合わせというユニークな構想を持ち、次の3段階処理がその基礎となる。第一段階では、 FAQアイテムとクエリのターム展開の有効性に不可欠なtf-idf展開を保証するために、質問部と回答部間に存在する語彙ギャップを埋める処理をしたこと、第二段階では、類似意味のコンテンツ検索により、差分LSI法を意味的な一次フィルターとして用い、意味的に等価な質問部・回答部ペアのみに絞り込んだこと、第3段階目では、柔軟性に富む自然言語の統語検索機能を持つテンプレートマッチングにより最終的な意味的に等価な表現をもつ、最適なFAQの質問部・回答部ペアに絞り込みユーザに提示する。BURKE達の編集するのに膨大な労力を必要とする同義語辞書WORDNETに頼るFAQ Finder.に較べると、我々が開発したこのスキームは簡単に実現可能であり、大幅に労力が削減される。この方法の有効性はLucene FAQ System のFAQシステムで実験的に実証した。To facilitate and enhance the usability of a large FAQ system, we have developed a new user-friendly, combined content and syntactic search-based QA system that accepts free format natural language queries from users, and guide them to an answer item by locating and pinpointing the appropriate Q&A items within the FAQ dataset. To maximize the combined effects of both content and syntactic searches, we have introduced a three step core procedure comprising the term expansion of FAQ items and queries to ensure the validity of the tf-idf expansion, the DLSI (differential latent semantic indexing)-based semantic filtering step to capture semantically similar expressions in content; and the final flexible and powerful lexical template matching step to accommodate a rich variety of natural language queries of semantically similar expressions. Unlike the FAQ Finder of (Burke et al., 1997) which depends on a thesaurus-type dictionary such as Word-Net to match question and answer, the new scheme is simple to implement. An experimental investigation using the Lucene FAQ collection confirms the effectiveness of the method.
著者
大元 聡 林 暁紅 永井 秀利 中村 貞吾 野村 浩郷
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.53, pp.47-52, 2006-05-19
被引用文献数
1

パソコン技術サポートを行うメールコールセンターの自動化に関して、本研究では、既存の質問応答メールデータをカテゴリ化することによる質問応答データベースを構築し、さらにカテゴリごとにカテゴリ回答文を作成し、未知の問い合わせメールが文書ベクトルを用いて類似度を計算する質問カテゴリ判定システムによって属するカテゴリに判定され、そのカテゴリのカテゴリ回答文を用いて回答を作成し、作成した回答を最終査読者に提示する手法とシステムを提案する。提案手法の有効性を確認するため、実際のシステムを作成して実験を行った結果、145個の質問カテゴリを用いて、86%の割合で正解の質問カテゴリを上位3位以内に推定した。このシステムは、メールコールセンターで実務に供用できる状態にある。キーワード メールコールセンター 質問応答データベース 文書 ベクトル 類似度判定The present paper discusses a support system at a mail call center.The mail call center receives inquiries from computer user by e-mails.Then the mail call center replies to them within 24hours.In order to cope with such a hard task,we propose system that can perform almost all automatic processing except the final check by a human befbre sending off the reply to the user.First,we develop a Q&A database by using the reviewed Q&A mails,We categorize these Q&A data depending on their contents.Every category has its own angwer respectively.Second,we apply the document vector method so that the system calculates the similarity between the new inquiry and the question categories in the Q&A database.From the answers attached to the found question categories,it generates the candidate new answers that might be adequate to the question,Finally, they are transferred to the reviewer in order to select the most adequate one.According to our examination,by using145 question categories,we obtamed86% precision about determning the right question category.The system is ready to use at a mail call center Keyword mail-call center,Q&A database,document vector.similarity evaluation