著者
注連 隆夫 土屋 雅稔 松吉 俊 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.5, pp.167-197, 2007-10-10 (Released:2011-06-07)
参考文献数
32
被引用文献数
3 5

日本語には, 「にあたって」や「をめぐって」のように, 2つ以上の語から構成され, 全体として1つの機能的な意味をもつ機能表現という表現が存在する.一方, この機能表現に対して, それと同一表記をとり, 内容的な意味をもつ表現が存在することがある.そして, この表現が存在することによって, 機能表現の検出は困難であり, 機能表現を正しく検出できる機能表現検出器が必要とされている.そこで, 本論文では, 日本語機能表現を機械学習を用いて検出する手法を提案する.提案手法では, Support Vector Machine (SVM) を用いたチャンカーYam Chaを利用して, 形態素解析結果を入力とする機能表現検出器を構築する.具体的には, 形態素解析によって得られる形態素の情報と, 機能表現を構成している形態素の数の情報, 機能表現中における形態素の位置情報, 機能表現の前後の文脈の情報を学習・解析に使用することにより, F値で約93%という高精度の検出器を実現した.さらに, 本論文では, 機能表現検出器の解析結果を入力として, 機能表現を考慮した係り受け解析器を提案する.提案手法では, Support Vector Machine (SVM) に基づく統計的係り受け解析手法を利用して, 機能表現を考慮した係り受け解析器を構築する.具体的には, 京都テキストコーパスに対して, 機能表現の情報を人手で付与し, 機能表現の情報を基に文節の区切りや係り先の情報を機能表現を考慮したものに変換した.そして, SVMに基づく統計的係り受け解析の学習・解析ツールCabo Chaを用いて, 変i換したデータを学習し, 機能表現を考慮した係り受け解析を実現した.評価実験では, 従来の係り受け解析手法よりもよい性能を示すことができた.
著者
松吉 俊 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.2, pp.75-99, 2008-04-10 (Released:2011-03-01)
参考文献数
21
被引用文献数
4 5

日本語には, 「にたいして」や「なければならない」に代表されるような, 複数の形態素からなっているが, 全体として1つの機能語のように働く複合辞が多く存在する. われわれは, 機能語と複合辞を合わせて機能表現と呼ぶ. 本論文では, 形態階層構造と意味階層構造を持つ機能表現辞書を用いることにより, 文体と難易度を制御しつつ, 日本語機能表現を言い換える手法を提案する. ほとんどの機能表現は, 多くの形態的異形を持ち, それぞれの異形は, その文体として, 常体, 敬体, 口語体, 堅い文体のいずれかをとる. 1つの文章においては, 原則として, 一貫して1つの文体を使い続けなければならないため, 機能表現を言い換える際には, 文体を制御する必要がある. また, 文章読解支援二などの応用においては, 難易度の制御は必須である. 実装した言い換えシステムは, オープンテストにおいて, 入力文節の79% (496/628) に対して, 適切な代替表現を生成した.
著者
注連隆夫 士屋雅稔 松吉俊 字津呂武仁 佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.7, pp.63-70, 2007-01-26

本稿では,SupportVectorMadline(SVM)を用いたチャンカーYamOhaを利用して,日本語機能表現検出器を学習し,その性能評価を行った機能表現を構成している形態素の数の情報,機能表現中における形態素の位置情報を素性として参照することにより,F値で約94という高精度の検出器を実現できることを示した.また,京都テキストコーパスに対して,機能表現の情報を人手で付与した後,SVMに基づく統計的係り受け解析器OaboOhaの学習を行い,その性能を評価した.機能表現を考慮して係り受け関係の学習をすることによって,機能表現を含む文節の係り受け解析の性能が改善することを示す.This paper proposes to learn a detector of Japanese functional expressions using the chunker YamCha based on Support Vector Machines (SVMs), and presents the result of evaluating the performance of the detector. Through experimental evaluation, we achieve the F-measure as 94. We then manually annotate parsed sentences of Kyoto Text Corpus with functional expressions, which are used for training dependency an alyzer CaboCha based on SVM. The dependency analyzer CaboCha of this paper is modified so that it can cope with annotation of functional expressions in the training corpus. We experimentally show that the modified version of the dependency analyzer improves the performance of the dependency analysis of functional expressions.
著者
佐藤 理史 佐々木 靖弘
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.153, pp.57-64, 2003-01-20
参考文献数
9
被引用文献数
10 9

与えられた専門用語に対して、その用語と関連する用語をウェブテキストを利用して収集する方法を提案する。提案方法は、コーパス作成、重要語抽出、フィルタリングの3ステップから構成される。コーパス作成では、サーチエンジンを利用して、与えられた用語を説明するテキストをウェブから収集し、その用語に対するコーパスを作成する。次の重要語抽出では、このコーパスから、中川の方法を利用して重要語を抽出する。最後のフィルタリングでは、得られた重要語の中から、関連用語としてふさわしいものを、ウェブのヒット数を利用して、選択する。
著者
杉山 貴昭 駒谷 和範 佐藤 理史
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.29, no.1, pp.32-40, 2014-01-05 (Released:2014-01-07)
参考文献数
16
被引用文献数
2 1

We have tackled a novel problem of predicting when a user is likely to begin speaking to a humanoid robot. The generality of the prediction model should be examined to apply it to various users. We show in this paper that the following two empirical evaluations. First, our proposed model does not depend on the specific participants whose data were used in our previous experiment. Second, the model can handle variations caused by individuality and instruction. We collect a data set to which 25 human participants give labels, indicating whether or not they would be likely to begin speaking to the robot. We then train a new model with the collected data and verify its performance by cross validation and open tests. We also investigate relationship of how much each human participant felt possible to begin speaking with a model parameter and instruction given to them. This shows a possibility of our model to handle such variations.
著者
佐藤 理史
出版者
名古屋大学
雑誌
萌芽研究
巻号頁・発行日
2006

本年度は、オンラインニュースの見出しを詳細に分析し、以下のことを明らかにした。1.日本語で、ニュース記事が伝えるような情報を短い見出しとして要約する場合、10文字台前半(12から15文字)が目安となる。この分量のテキストで、読者が記事を取捨選択できるだけの情報を伝達することができる。2.1つのコト(事態)を伝える見出しのほとんどは、見かけ上は体言で終わる場合でも、動作性を有する述語または述語相当語を持つ。また、その末尾に、モダリティを表す特殊な表現を伴うこともある。すなわち、見出しは、短くするために特殊な形式を取っているが、通常の文とほぼ同じ構造を有する。3.見出しを構成する文節数は2から4である。文節の平均文字数は、前から単調減少する。たとえば、3文節であれば、最初の文節の文字数が多く、最後の文節(述語)の文字数が少ない。これは、情報量の多い文節を前方に配置する原則が働いているものと見なすことができる。4.見出しの短さは、つぎの4つの合わせ技で達成されている。(1)単文要約:複雑な内容の情報も、その中核的内容は単文に要約できる。(2)プロトコル化:比較的よく現れる情報タイプに対しては、見出しの定型化(プロトコル化)が進む。(3)省略:重要な要素を優先して残し、それ以外は思い切って省略する。(4)縮約:述語、連用修飾語、補足語、連体修飾語のそれそれに対して、長さを短くする(縮約する)ための機構が存在する。
著者
佐藤 理史 加納 隼人 西村 翔平 駒谷 和範
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-212, no.5, pp.1-9, 2013-07-11

大学入試センター試験 『国語』 の現代文で出題される,いわゆる 「傍線部問題」 を解く方法を定式化し,実装した.実装した方法は,「評論」 の 「傍線部問題」 の半数を正しく解くことができた.
著者
桜井 裕 佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.5, pp.1470-1480, 2002-05-15
被引用文献数
18

本論文では,与えられた用語に対して,その用語を説明する文章(用語説明)をワールドワイドウェブから収集し,それらを編集してユーザに提示するシステムを提案する.本システムは,(1)用語説明の収集,(2)編集,の2つのモジュールから構成される.{}「用語説明の収集」では,まず,サーチエンジンなどを用いて,入力された用語の説明が記述されている可能性が高いウェブページを収集する.次に,収集したウェブページから,用語の説明が記述されている段落を抽出する.最後に,抽出した段落内を解析し,その用語を定義する文(用語定義文)が存在するかどうかを判定し,存在した段落のみを用語説明として出力する.この判定においては,13種類の用語定義文それぞれに対して設定した文型パターンを用いる.{}「編集」では,収集した用語説明を語義ごとにグループ化し,それぞれのグループに対して,最適な用語説明と上位語を決定する.最後に,これらをまとめて,結果を語義ごとに出力する.本システムにおいて,用語定義文の判定精度は87%,グループ化の精度は81%であり,ほぼ実用レベルに達していると考えることができる.This paper proposes a term explainer that offers us a virtual dictionary, which uses the World Wide Web as information source. Thesystem consists of two modules: explanation collector and explanation editor. For a given term, the first module collects related webpages by using search engines, and extracts paragraphs thatcontain the term explanations. Sentence patterns of thirteen kinds ofdefinition sentences enable automatic detection of definitionsentences and automatic extraction of term explanations. The secondmodule classifies the extracted explanations into groups according tothe meaning, and determines the best explanation and the best broaderterm for every group. Finally, the system generates the result inHTML. In an experiment, the system achieved 87% accuracy indetection of definition sentences and 81% accuracy in classificationof explanations into groups.
著者
影浦 峡 阿辺川 武 内山 将夫 佐藤 理史 宇津呂 武仁 竹内 孔一 相澤 彰子 戸田 愼一
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2009

(1) レファレンス・ツールにおける「包括性」の概念および包括性を 実現するための要件を明らかにした。(2) 専門語彙クローラーと対訳・関連多言語アーカイヴ クローラーを開発し、機能的包括性を有するレファレンス情報資源を構築した。(3) 翻訳情報 資源を提供する統合翻訳支援サイト「みんなの翻訳」(http://trans-aid.jp/)を開発・公開し、 一般利用に提供し翻訳情報資源の有効性を検証した。
著者
山本 あゆみ 佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告知能と複雑系(ICS) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.3, pp.173-180, 2000-01-12
被引用文献数
7

本稿では,ワールドワイドウェブから人物に関する情報を収集する2つの方法を提案する.第1の方法は,表形式の職業別人名リストを情報源として利用する方法である.この方法では,まず,与えられた職名(例えば「政治家」)から,検索エンジンとハイパーリンクを用いて,その職業の人名リストを収集する.次に,収集されたリストに対して表解析を適用し,それぞれの人物に対して主要情報を抽出する.第2の方法は,人物を紹介した短いテキスト(プロフィール)を抽出する方法である.この方法は,職名と人名を入力とし,それらを用いて収集したウェブページに対してレイアウト解析を適用し,求める人物のプロフィールを抽出する.This paper proposes two methods for collecting people's information from the World Wide Web. From the given occupation category such as Seijika (politicians), the first method collects web pages that include tables whose content is people lists of the given occupation, and extract personal properties such as name and birthday for each person by using table analysis. The second method accepts a person name and her occupation as an input, and collects her profile in text form by using layout analysis of HTML texts.