著者
佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.108, pp.33-40, 2004-11-04
被引用文献数
1

境界認定は、語(単位)を認定するのではなく、境界とその種別を認定する。本稿では、境界認定という考え方が生まれてきた背景と、境界認定の背後にある思想について述べる。This paper describes background and philosophy of boundary identification, which identifies boundaries and their types between linguistic units in a given sentence. The proposal of boundary identification aims to restucture Japanese sentence analysis method.
著者
佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.108, pp.25-32, 2004-11-04
参考文献数
3
被引用文献数
1

形態素解析に代わる新しい日本語文解析の第1ステップとして、「境界設定」という枠組を提案する。境界設定では、語(単位)を認定するのではなく、境界とその種別を認定する。本稿では、その考え方と表現法について述べる。This paper proposes boundary identification, a new framework of the first step of Japanese sentence analysis. Boundary identification identifies boundaries and their types between linguistic units in a given sentence. This paper describes the concept and an implementation of the framework.
著者
佐藤 円 佐藤理史 篠田 陽一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.36, no.10, pp.2371-2379, 1995-10-15
参考文献数
6
被引用文献数
40

現在、電子ニュースを通じて多くの情報が流通し、多くの人々がその情報を利用している。この電子ニュースは、新しいマスメデイアであり、従来のテキスト情報マスメデイアにはない、優れた特徴を持っている。しかしながら、現在のニュースリーダは、その特徴や利用者の要求に合致した、適切な機能を提供しておらず、読者にとっては、必ずしも利用しやすい情報メディアとはなっていない。我々は、電子ニュースを利用しやすい情報メデイアにするためには、そのダイジェストを提供することが不可欠であると考える。ダイジェストとは、元になる情報をコンパクトにまとめ編集したものであり、情報全体の俯瞰やエッセンスの把握、情報の取捨選択の際に、優秀なナビゲータとして機能する。本研究では、電子ニュースに対して、このようなダイジェストを自動生成することを提案し、その一つのプロトタイプとして、会告記事用ニュースグループfj.meetingsダイジェストを自動生成する方法を示す。ダイジェストの自動生成を実現する中心的な技術は、サマリーの自動摘出技術であり、会告記事にみられるスタイル上の特徴、言語表現バターンを利用することにより、実用に十分な精度でサマリーを抽出できることを示す。本方武で自動生成されたダイジェストは、WWWのクライアントプログラムで読むことができる。
著者
大槻 洋輔 佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告知能と複雑系(ICS) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.3, pp.165-172, 2000-01-12
被引用文献数
1 6

本論文では,地域情報ディレクトリを自動編集するシステムを提案する.本システムの中心技術は,情報源の自動収集と,ページの自動分類である.情報源の自動収集では,地域情報サイトに見られる典型的なURLパターンを利用して既存の地域情報リンク集を発見し,そこから情報源となるサイトのURLを収集する.この方法により,日本の全地域(3427自治体)の80%以上に対して,情報源を収集することができる.また,ページの自動分類では,収集した情報源サイト内のページを8つの種類のカテゴリに分類する.この分類は,それぞれのカテゴリに固有な表現が,ページのタイトルやアンカ文字列に現れるかどうかによって決定する.本ディレクトリは,地域別に情報を表示する地域モードと,カテゴリ別に情報を表示するカテゴリモードの両方を提供する.This paper proposes a system that edits a web directory of regional information automatically. The directory provides two views: regional view and category view. Two key technologies are automatic collection of regional web sites and automatic classification of web pages. The former finds existing link collections by using the URL prototypes of regional web sites, and extracts unknown regional web sites' URLs. This method can collect one or more web sites of 80 percent of all regions in Japan. The latter classifies the pages in the regional web sites into eight categories by using the category-specific expressions.
著者
近藤 恵子 佐藤理史 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.11, pp.119-126, 2000-01-27
被引用文献数
3

本稿では,格変換による単文の言い換えを機械的に実現する方法を提案する.我々は,そのために必要な42の格変換規則と,言い換えに必要な情報を得るために使用する「動詞辞書」「自動詞?他動詞対応辞書」「有情/非情名詞辞書」の3つの辞書を作成した.格変換規則は,格のマッピング,述語のマッピング,名詞句の制約条件,動詞の制約条件から成る.名詞句の制約条件は,入力文の名詞句が有情か非情かで規則の適用を制限する.動詞の制約条件は,入力文の動詞の種類,使役形のタイプ,受動の可否,格から規則の適用を制限する.辞書は,変換する動詞を得るためと,制約条件を確認するために使用される.我々は,この規則と辞書を実装した言い換えシステムを作成した.言い換えシステムは,格変換規則を繰り返し適用することで言い換えを実現する.我々はこのシステムの実験を行い,有効性を確認した.This paper proposes a method of automatical paraphrasing of a simple sentence by case alternation. We make 42 case-alternation rules and three dictionaries: the verb dictionary, the dictionary that records intransitive verbs and their corresponding transitive verbs, and the dictionary that records animateness/inanimateness of nouns. A case-alternation rule consists of a cases mapping, a predicate mapping, a condition for a noun phrase, and a condition for a verb. The condition for a noun phrase restricts to applying the rule to an input sentence by whether the noun phrase in the sentence is animate ness or inanimateness. The condition for a verb restricts to applying the rule to an input sentence by the verb's type, the causative voice, the passive voice, and cases. We have constructed the paraphrase system implemented these alternation rules. This system generates all possible paraphrasing. We have conducted an experiment with this system, and show the effectiveness of the method.
著者
内木賢吾 佐藤理史
雑誌
第74回全国大会講演論文集
巻号頁・発行日
vol.2012, no.1, pp.267-268, 2012-03-06

クロスワードパズルを解くためには、「カギ」とよばれるヒントから、単語を推定する必要がある。本研究では、カギを解く問題を連想問題とみなす。まず、カギを解析し、そのカギの連想タイプを決定する。このタイプは、必ずしも一つに定まるとは限らない。次に、タイプ毎に準備した連想モジュールを呼び出し、確信度付きの候補リストを作成する。それぞれのモジュールは、連想タイプに応じて,使用する言語資源や探索方法が異なる。複数の候補リストが得られた場合は、最後に、それらをマージして出力する。
著者
外池昌嗣 佐藤理史 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.47, pp.53-60, 2004-05-14
参考文献数
10

解の選択は質問応答システムのコンポーネントの1つで、何らかの方法で得られた解候補の中から信頼できるものを選ぶものである。本研究では語と語の連想の強さに注目して解の選択を行う。本稿では、問題文から抽出されたキーワードと解候補の間の語彙的な関係の強さに基づく解の選択法を提案する。提案する解の選択法は2つのステップに分けられる。1つ目のステップでは、語の特徴と語彙的関係の強さを用いて、問題文から適切なキーワードを抽出する。一方、2つ目のステップでは、サーチエンジンのヒット数に基づいて、キーワードと解候補の間の関係の強さを測定する。実験の結果、提案手法で4択クイズ「クイズ$ミリオネア」の79%を解くことができた。Answer validation is a component of question answering system, which selects reliable answer from answer candidates extracted by certain methods. In this paper, we propose an approach of answer validation based on the strengths of lexical association between the keywords extracted from a question sentence and each answer candidate. The proposed answer validation process is decomposed into two steps: the first is to extract appropriate keywords from a question sentence using word features and the strength of lexical association, while the second is to estimate the strength of the association between the keywords and an answer candidate based on the hits of search engines. In the result of experimental evaluation, we show that a good proportion (79%) of a multiple-choice quiz "Who wants to be a millionaire" can be solved by the proposed method.
著者
近藤 恵子 佐藤理史 奥村 学
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.11, pp.4064-4074, 1999-11-15

本稿では,「サ変名詞+する+接尾辞」からより平易な動詞相当句への言い換えを機械的に実現する方法を提案する.この方法は,5つの言い換え規則と4つの辞書とアルゴリズムから成っている.もし与えられた入力に特別な接尾辞がなければ,最も基本的な置換の規則が適用され,そのために,サ変名詞?動詞相当句対応辞書と動詞活用辞書が使用される.もし,テイル形,使役表現,受動表現,可能表現を表す接尾辞があれば,アルゴリズムにより最も適切な規則が適用される.その規則は,自動詞?他動詞対応辞書と有情/非情名詞辞書から得られる構文と意味の情報によって選択される.我々はこの方法に基づいた言い換えシステムを作成し,その有効性を確認した.
著者
服部真之 駒谷和範 佐藤理史
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.517-518, 2013-03-06

ロボットに搭載されたセンサから得られる情報のみを使用するような音声インタラクションでは,音源定位誤りや音声認識誤りに起因する誤動作が生じやすい.ロボットに誤動作が生じるとインタラクションの進行が妨げられる.本研究では,ロボットの誤動作時の参加者の反応に着目し,その分析に基づいて誤動作の自動検出を行う.まず,ロボットと参加者のインタラクションを記録し,誤動作発生時の典型的な参加者の反応を分類する.次に,ロボットが顔を向けた直後や返答の直後などの,参加者の各反応が生じている区間に現れるシステムのログから,誤動作を自動検出する.評価実験によって,本研究で見出した典型的な参加者の反応を用いて,誤動作を自動検出できることを示した.
著者
注連隆夫 士屋雅稔 松吉俊 字津呂武仁 佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.7, pp.63-70, 2007-01-26

本稿では,SupportVectorMadline(SVM)を用いたチャンカーYamOhaを利用して,日本語機能表現検出器を学習し,その性能評価を行った機能表現を構成している形態素の数の情報,機能表現中における形態素の位置情報を素性として参照することにより,F値で約94という高精度の検出器を実現できることを示した.また,京都テキストコーパスに対して,機能表現の情報を人手で付与した後,SVMに基づく統計的係り受け解析器OaboOhaの学習を行い,その性能を評価した.機能表現を考慮して係り受け関係の学習をすることによって,機能表現を含む文節の係り受け解析の性能が改善することを示す.This paper proposes to learn a detector of Japanese functional expressions using the chunker YamCha based on Support Vector Machines (SVMs), and presents the result of evaluating the performance of the detector. Through experimental evaluation, we achieve the F-measure as 94. We then manually annotate parsed sentences of Kyoto Text Corpus with functional expressions, which are used for training dependency an alyzer CaboCha based on SVM. The dependency analyzer CaboCha of this paper is modified so that it can cope with annotation of functional expressions in the training corpus. We experimentally show that the modified version of the dependency analyzer improves the performance of the dependency analysis of functional expressions.
著者
桜井 裕 佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.5, pp.1470-1480, 2002-05-15
被引用文献数
18

本論文では,与えられた用語に対して,その用語を説明する文章(用語説明)をワールドワイドウェブから収集し,それらを編集してユーザに提示するシステムを提案する.本システムは,(1)用語説明の収集,(2)編集,の2つのモジュールから構成される.{}「用語説明の収集」では,まず,サーチエンジンなどを用いて,入力された用語の説明が記述されている可能性が高いウェブページを収集する.次に,収集したウェブページから,用語の説明が記述されている段落を抽出する.最後に,抽出した段落内を解析し,その用語を定義する文(用語定義文)が存在するかどうかを判定し,存在した段落のみを用語説明として出力する.この判定においては,13種類の用語定義文それぞれに対して設定した文型パターンを用いる.{}「編集」では,収集した用語説明を語義ごとにグループ化し,それぞれのグループに対して,最適な用語説明と上位語を決定する.最後に,これらをまとめて,結果を語義ごとに出力する.本システムにおいて,用語定義文の判定精度は87%,グループ化の精度は81%であり,ほぼ実用レベルに達していると考えることができる.This paper proposes a term explainer that offers us a virtual dictionary, which uses the World Wide Web as information source. Thesystem consists of two modules: explanation collector and explanation editor. For a given term, the first module collects related webpages by using search engines, and extracts paragraphs thatcontain the term explanations. Sentence patterns of thirteen kinds ofdefinition sentences enable automatic detection of definitionsentences and automatic extraction of term explanations. The secondmodule classifies the extracted explanations into groups according tothe meaning, and determines the best explanation and the best broaderterm for every group. Finally, the system generates the result inHTML. In an experiment, the system achieved 87% accuracy indetection of definition sentences and 81% accuracy in classificationof explanations into groups.
著者
山本 あゆみ 佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告知能と複雑系(ICS) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.3, pp.173-180, 2000-01-12
被引用文献数
7

本稿では,ワールドワイドウェブから人物に関する情報を収集する2つの方法を提案する.第1の方法は,表形式の職業別人名リストを情報源として利用する方法である.この方法では,まず,与えられた職名(例えば「政治家」)から,検索エンジンとハイパーリンクを用いて,その職業の人名リストを収集する.次に,収集されたリストに対して表解析を適用し,それぞれの人物に対して主要情報を抽出する.第2の方法は,人物を紹介した短いテキスト(プロフィール)を抽出する方法である.この方法は,職名と人名を入力とし,それらを用いて収集したウェブページに対してレイアウト解析を適用し,求める人物のプロフィールを抽出する.This paper proposes two methods for collecting people's information from the World Wide Web. From the given occupation category such as Seijika (politicians), the first method collects web pages that include tables whose content is people lists of the given occupation, and extract personal properties such as name and birthday for each person by using table analysis. The second method accepts a person name and her occupation as an input, and collects her profile in text form by using layout analysis of HTML texts.