著者
賀沢 秀人 平尾 努 前田 英作
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.102, no.317, pp.11-16, 2002-09-12

全順序を備えた未知の集合から取り出された順位つきサンプルを利用し,サンプル間の順序関係を推定する「順位づけ学習問題」について議論する.従来,ある順位を境にサンプルを正例と負例にわけ,SVMの学習を行ったのち,得られた識別関数の値で未知の事例に対する順位づけを行うという手法が提案されている.この手法は,実験的に高い精度を残すことが報告されているが,妥当性について理論的な説明を欠き,また,ある特定の順位の上下という粗い順序関係しか用いていないという点で,問題があった.そこで,本稿では,このSVMによる順序づけ手法の理論的な妥当性を検証するとともに,改善手法の一つとして,複数の順位を境として正例と負例にわけたサンプルから学習を行うRanking SVMの提案を行う.また,テキスト自動要約タスクにおける重要文抽出データと人工データを用いて,Ranking SVMと従来手法を比較した結果についても報告する.
著者
西川 仁 平尾 努 牧野 俊朗 松尾 義博 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.4, pp.585-612, 2013-09-13 (Released:2013-12-12)
参考文献数
29

本論文では,複数文書要約を冗長性制約付きナップサック問題として捉える.この問題に基づく要約モデルは,ナップサック問題に基づく要約モデルに対し,冗長性を削減するための制約を加えることで得られる.この問題は NP 困難であり,計算量が大きいことから,高速に求解するための近似解法として,ラグランジュヒューリスティックに基づくデコーディングアルゴリズムを提案する.ROUGE に基づく評価によれば,我々の提案する要約モデルは,モデルの最適解において,最大被覆問題に基づく要約モデルを上回る性能を持つ.要約の速度に関しても評価を行い,我々の提案するデコーディングアルゴリズムは最大被覆問題に基づく要約モデルの最適解と同水準の近似解を,整数計画ソルバーと比べ100倍以上高速に発見できることがわかった.
著者
平尾 努 奥村 学 福島 孝博 難波 英嗣 野畑 周 磯崎 秀樹
出版者
社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.14, pp.60-68, 2007-09-15
参考文献数
17
被引用文献数
1

複数文書要約の対象となる文書群には,ある文に対して,意味的に似通った文やまったく同じ文が含まれていることが多い.こうした傾向は,要約のための文書群を複数の情報源から得た場合に特に顕著である.しかし,従来のコーパスには,このようなよく似た文,あるいは同一の文の間に注釈付けが存在しない.これは,抜粋を評価するための指標を定義するうえで致命的な問題となる.本稿では,こうした冗長性を考慮したコーパスへの注釈付けの枠組みを提案し,それに基づき,抜粋の情報量を測る指標である被覆率,抜粋に含まれる重要文の冗長度を測る指標である重要文冗長率を提案する.これらの指標による抜粋の順位付けと被験者による順位付けとの間の順位相関係数は,ともに0.7以上であり,人間の順位付けとの間に高い相関があることが分かった.In multiple document summarization, input documents have many similar (or even identical)sentences. However, conventional corpora for multiple document summarization do not include links between similar sentences. This is a critical problem with regard to the definition of evaluation measures for sentence extraction. In this paper, we propose both annotation scheme for corpus and evaluation measures, "coverage" and "redundancy." "Coverage" measures the content information of the system extract and "redundancy" measures the redundancy of the important sentences contained in system extract. We evaluate "coverage" and "redundancy" by comparing their ranking correlation coefficients with subjective human rankings. The results show that both measure attained enough high correlation coefficients, which were more than 0.7 correlation coefficients.
著者
佐々木 裕 磯崎 秀樹 鈴木 潤 国領 弘治 平尾 努 賀沢 秀人 前田 英作
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.2, pp.635-646, 2004-02-15
被引用文献数
12

近年,大量の文書を用いて自然文によるユーザからの質問に答える質問応答(QA: Question Answering)システムに関する研究が注目を集めている.これまでいくつかのQAシステムが開発されてきたが,それらの多くは人手で作成されたルールや評価関数を用いて,質問の答えを大量の文書から抽出するアプローチをとっていた.これに対し,本論文では,機械学習技術を用いて,日本語QAシステムの主要なコンポーネントをそれぞれ学習データから構築することにより,QAシステム全体を構築する方法について述べる.具体的には,質問タイプや答えの判定を2クラス分類問題としてとらえ,質問文やその正解例から学習された分類器により,これらの機能を実現する.本アプローチのフィージビリティの確認のため,機械学習手法Support Vector Machine(SVM)を用いて学習型QAシステムSAIQA-IIを実装し,2 000問の質問・正解データによるシステム全体の5分割交差検定を行った.その結果,システムの性能として,MRR値で約0.4,5位以内正解率で約55%の正解率が得られることが明らかになった.This paper describes a Japanese Question-Answering(QA) System, SAIQA-II.These years, researchers have been attracted to the study of developingOpen-Domain QA systems that find answers to a natural language question given by a user.Most of conventional QA systems take an approach to manually constructing rules and evaluation functions to find answers to a question.This paper regards the specifications of main components of a QA system,question analysis and answer extraction, as 2-class classification problems.The question analysis determines the question type of a given question andthe answer extraction selects answer candidates thatmatch the question types. To confirm the feasibility of our approach,SAIQA-II was implemented using Support Vector Machines (SVMs).We conducted experiments on a QA test collection with 2,000 question-answer pairs based on 5-fold cross validation.Experimental results showed that the trained system achieved about 0.4 in MRR andabout 55% in TOP5 accuracy.
著者
加藤恒昭 松下 光範 平尾 努
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.108, pp.89-94, 2004-11-05
被引用文献数
13

動向情報は,製品価格や内閣支持率の変化など,時系列情報に基づき,それを総合的にまとめ上げることで得られるものである.このような動向情報の効率的な提供には,文章だけでなくグラフなどの視覚的手段を利用し,それらを協調させることが必要となる.本稿では,複数文書に分散した様々な動向情報を文章や図表で要約・可視化するという研究課題を提案し,その処理の枠組みを示す.加えて,この課題の研究に有益であろうコーパスについて説明し,これを共通の研究素材とし,動向情報の要約と可視化への関心を共有する研究者によるワークショップを提案する.Trend information is obtained by synthesis and organization of series of temporal information such as transitions of a product price and a degree of public support for a cabinet. Effective communication of trend information should employ as its media not only text but also visual ones such as charts, and use those in a cooperative manner. In this paper, a research theme is proposed, that allows trend information scattered in multiple articles to be gathered, summarized, and provided in linguistically and/or visually. We show a framework to accomplish this research and explain a corpus useful for that purpose. We also propose a workshop on this research on summarization and visualization of trend information in which the researchers share this corpus as a common material.
著者
賀沢 秀人 Arrigan Thomas 平尾 努 前田 英作
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.407, pp.25-30, 2003-10-30

近年, 自動要約研究め分野では, 共通のデータセットを用いて互いの技術を比較的に評価する動きが盛んである. しかし, 現状では主に人間の主観評価にもとづいて比較をおこなっているため, 追加実験をおこなっても以前の結果と比較することが困難であるという問題点がある. そこで, 本研究では, 人間による要約とプーリングデータを用いて要約の自動評価を行う方法を提案し, 疑似データによる精度評価を行った結果について報告する. 実験の結果, 提案手法は, 従来用いられてきた正解要約との重複度にもとづく方法より, 高精度な評価ができることがわかった. また, 精度向上にはプーリングデータが重要な役割を果たすこともわかった.
著者
平尾 努 鈴木 潤 磯崎 秀樹
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.1, pp.1-9, 2009-03-31

従来の文短縮手法の多くは,入力された文を構文木として表現し,その部分木を削除することで,短縮文を生成する.このようなアプローチは文法的な短縮文を生成するという観点からは理にかなっている.しかし,多くの場合,人間は構文木の刈り込みだけで短縮文を生成するわけではない.これは,構文情報に過度に依存することが,高品質な文短縮を行うための妨げとなることを示している.そこで,本稿では,構文情報を用いない文短縮手法を提案する.短縮文の言語としてのもっともらしさを構文情報を用いずに評価するため,原文と大規模コーパスから得た統計情報を組み合わせた新たな言語モデルを提案する.提案手法を文献 18) のテストセットを用いて評価したところ,自動評価指標においては,提案手法が従来法より優れていることを確認した.さらに,提案手法が日本語だけでなく英語でも有効であることも示す.
著者
佐々木 裕 磯崎 秀樹 平 博順 廣田 啓一 賀沢 秀人 平尾 努 中島 浩之 加藤 恒昭
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.100, no.401, pp.17-24, 2000-10-20
被引用文献数
16

本稿では, いくつかの質問応答システムを独立に作成し, 50問の質問文に対する性能評価を行なった結果を報告する.質問応答システムは1999年のTREC-8のQAタスクの開催以降注目を集めており, 次のような点で従来の情報検索や情報抽出と異なっている.従来の情報検索では, 質問に対する答えを文書の単位で列挙していたが, 質問応答システムは質問の答えを記述した部分を返す.また, 従来の情報抽出は対象分野と抽出項目があらかじめ限定されていたが, 質問応答では, 抽出する項目が質問文により自由に決まる点で異なっている.本稿は, 今後の質問応答システム研究の参考とするため, 日本語QAシステムの性能のベースラインを探るとともに, 日本語QAシステムの比較・評価法を紹介するものである.
著者
平尾 努 鈴木 潤 磯崎 秀樹
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.24, no.2, pp.223-231, 2009 (Released:2009-01-20)
参考文献数
17
被引用文献数
3 4 1

We derived the oracle summary with the highest ROUGE score that can be achieved by integrating sentence extraction with sentence compression from the reference abstract. The analysis results of the oracle revealed that summarization systems have to assign an appropriate compression rate for each sentence in the document. In accordance with this observation, this paper proposes a summarization method as a combinatorial optimization: selecting the set of sentences that maximize the sum of the sentence scores from the pool which consists of the sentences with various compression rates, subject to length constrains. The score of the sentence is defined by its compression rate, content words and positional information. The parameters for the compression rates and positional information are optimized by minimizing the loss between score of oracles and that of candidates. The results obtained from TSC-2 corpus showed that our method outperformed the previous systems with statistical significance.
著者
平尾 努 磯崎 秀樹 前田 英作 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.8, pp.2230-2243, 2003-08-15
参考文献数
29
被引用文献数
10

文書から重要な情報を持った文を抽出する重要文抽出技術は,文書要約技術の1つであり,より自然な文書要約を実現するための基盤技術である.重要文の抽出精度を高めるためには,複数の手がかりを統合的かつ効果的に扱うことが必要とされており,機械学習手法を取り入れた重要文抽出法が着目されつつある.本稿では,汎化能力の高い機械学習手法とされるSupport Vector Machine(SVM)を用いた重要文抽出手法を提案する.Text Summarization Challenge(TSC)のデータを用いて評価実験を行い,提案手法はLead手法などの従来手法と比較して統計的に有意な差で優れていることを実証した.また,野本らのデータを用いた評価実験でもこれに近い成績が得られた.さらに,文書のジャンルを考慮することで重要文の抽出精度が向上すること,重要文抽出に有効な素性のジャンルによる違いを明らかにした.Extracting from a text the sentences that contain important information is aform of text summarization.If done accurately, it supports the automatic generation of summaries similar to those written by humans.To achieve this, the algorithm must be able to handle heterogeneous information.Therefore, parameter tuning by machine learning techniques have received attention.In this paper, we propose a method of sentence extraction based onSupport Vector Machines (SVMs).To confirm the performance of our method, we conduct experiments on the Text Summarization Challenge (TSC) corpus and Nomoto's corpus.Results on the former show that our method is better (statistically significant) than the Lead-based method.Moreover, we discover that document genre is important with regard to extraction performance; the effective features of each genre are clarified.