著者
横井 俊夫 仲尾 由雄 荻野 孝野 田中 裕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.1, pp.32-43, 1997-01-15
被引用文献数
8

大規模な電子化辞書(その情報内容である言語知識)が概念レベルで持つべき情報構造を明らかにする.ここでいう電子化辞書とは 通常の辞書ばかりではなく シソーラス コーパス テキストベースなどを含む統合的な言語情報(言語知識)のことである.概念レベルは意味を扱う深層レベルの中で基準となる役割を果たす.表層レベルに最も近く それに沿う情報構造を持つ.なお この情報構造はEDR電子化辞書の成果を再整理することにより得られたものである.実現事例としてEDR電子化辞書の概念対応部分を仕様と統計データの両面から説明する.大規模知識ベースなどの議論に見られるように 大規模な情報や知識の構造を解明していく研究の重要性が指摘され始めている.本稿の内容は 本格的な実現事例を持つ初めての試みとなっている.This paper describes a model of the information structure of large-scale electronic dictionaries at the concept level that contain wide-ranging linguistic knowledge. The term electronic dictionary in this paper means an integrated body of linguistic information and knowledge that includes the information provided by thesauri, tagged corpora, and raw corpora as well as ordinary dictionaries. The concept level plays an important role for deep levels containing the information of semantic processing. It is the nearest to the surface level and its structure is similar. This information structure is obtained by rearranging the structure of the EDR Electronic Dictionary. An example of actual realization of the information structure is described in view of both the specifications and numeristic data of the EDR Dictionary at the concept level. Recently, the importance of the research on the structure of large-scale information and knowledge has become a focus of interest, as shown in the discussions for large-scale knowledge bases, etc. This paper introduces the results of the first trial including full-scale example of actual realization.
著者
仲尾 由雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.42, no.10, pp.39-53, 2001-09-15
参考文献数
17

関連文書の比較作業を支援するには,類似の話題を扱った関連箇所を対比して提示することが有効と考えられる.また,関連箇所が,関連文書中でどのように分布しているかを図示することは,関連文書の対応関係を総合的に理解する助けとなろう.本稿では,このような考えから,文書間をまたがる関連箇所を自動的に抽出する新しい手法を提案する.提案手法は,文書対に共通する話題を検出し,それぞれの話題に対して関連箇所の対を抽出する手法である.この際に,語彙的結束性に基づき認定した話題階層を利用して,様々な粒度の話題間の関連度を求め,比較していることに特徴がある.国会における代表質問と答弁を対象に行った実験では,抽出された関連箇所の組の約8割が正しく同一の話題に対応し,また,新聞に要旨として掲載された内容の約6割は,抽出された関連箇所の対から読み取れることが分かった.This paper presents a novel method for extracting related passages in multiple documents that is intended to be used to help a person who wants to compare the content of multiple documents. The aim of the algorithm is to extract the best matching pair of document portions for each topic commonly included in the documents to be compared. For the documents to be compared, the algorithm first detects individual thematic hierarchies based on lexical cohesion measured by term repetitions. It then compares a pair of thematic hierarchies in terms of various grading topics, and selects closely-related pairs of thematic units. In an experiment using proceedings of interpellations in the National Diet of Japan, the algorithm extracted correct pairs of related passages in a ratio of 80% and identified 60\% of major topics that had been reported in newspaper articles.
著者
仲尾 由雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.91, pp.23-30, 2000-09-27
参考文献数
11

関連文書の組から、関連箇所を自動的に抽出する手法を提案する。語彙的結束性に基づき認定した話題階層を利用して、様々な粒度の話題を単位に、文書の部分間の関連度を計算し、話題の粒度に応じた関連度をもつ関連箇所の対を抽出する手法である。本手法を、国会における代表質問と答弁を対象に実験を行った結果、抽出された関連箇所の組の約8割は正しく同一の話題に対応し、また、新聞に要旨として掲載された内容の約6割は、この手法で自動的に抽出可能であることがわかった。これにより、完全に対応する文書であれば、話題階層に基づき関連話題を絞り込むことで、予め特別な閾値を設定することなく、効率的に様々な粒度の話題に対する関連箇所が検出できる見込みが得られた。This paper presents an algorithm for discovering related passages among related documents. For the documents to be compared, the algorithm first detects their thematic hierarchies individually based on lexical cohesion measured by term repetitions. Then, it compares a pair of thematic hierarchies in terms of various grading topics, and selects closely-related pairs of thematic units across them. An experiment using proceedings of interpellations in the National Diet shows the precision rates of related topic selection are estimated to be about 80 percent and the recall rates for major related passages corresponding to manual summaries of these proceedings are estimated to be about 60 percent.
著者
柳瀬 隆史 仲尾 由雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2000, no.29, pp.151-158, 2000-03-21

本稿では、メールマガジンサービスから配信されるニュース情報を対象にして、注目ニュースを自動抽出する手法を提案する。同時期に複数のメールマガジンから配信された記事内容を分析した結果、多くの記事で報じられた話題には注目に値するものが多く、同一話題を扱った記事の多くは記事見出しの比較で判定可能なことが分かった。そこで、見出しの類似性に基づいて配信記事群をグループ化し、各グループ中の記事数などをもとに話題性が高いと思われるグループを選別する実験を試みた。グループ化の結果により抽出した注目ニュースと週刊メールマガジンの掲載記事との比較などにより、各グループに含まれる記事数を適切に制御すれば、話題性の高い情報を含んだ注目ニュースを効率的に抽出できる見込みが得られた。In this paper, we propose a method of automatic extraction of noteworthy topics using news articles delivered by e-mail newsletter services. At first we manually analyzed a set of articles delivered in a week by several e-mail newsletter services, and found that most of the topics reported in many different articles are noteworthy ones and it is possible to judge the semantic identity of articles with comparison of their headlines. Then we made an experiment of automatic extraction of noteworthy topics. In the experiment we classifyed delivered articles into groups based on the similarity of their headlines, and choose some groups based on the number of articles in each group.