著者
乾 健太郎 徳永 健伸 田中 穂積
雑誌
全国大会講演論文集
巻号頁・発行日
vol.42, pp.124-125, 1991-02-25

文章を生成するには,語乗選択や語順などさまざまな要素に関する決定が必要である.これらの決定は,文章中で述べる話題を選択・構成するwhat-to-sayレベルとwhat-tqsayの内容を表層化するhow-to-sayレベルに分けて考えることができる.2つのレベルの決定は相互に依存するため,その緊密な関係を実現するアーキテクチャの必要性が指摘されている.たとえば,1文の中にどれだけの話題を含めるかという問題は,話題間の意味的なつながりから制約(what-to-sayの制約)を受けると同時に,それを表層化したときに適切な長さの文になるかという制約(how-to-sayの制約)も受ける.また,how-to-sayレベルのみについて考えても,種々の決定が相互に依存し,それらをどの順序で決定すればよいかが必ずしも明らかではない.たとえば,後置詞句の語順は,後置詞句の長さに依存するため,語彙選択を先におこなわなければ適切に決めることができない.語彙選択には照応表現の選択も含まれるが,照応表現は,先行洞と照応詞の距離などに依存するため,適切な照応表現を決定するためには語順の情報が必要である.このように,生成に必要な種々の決定の間には相互依存関係がある.この問題に対する代表的なアプローチの1つに種類の異なる決定を交互におこなう手法があるAppeltやHovyでは,how-to-say決定部が決定の過程で必要に応じてwhat-to-say決定部を呼び出すことにより両者の相互作用を実現しているまた,Hovyは,how-to-say決定過程に対し,決定の種類ごとに異なるモジュールを用意し,モジュールの適用順序を動的に変えることによって,決定の順序に柔軟性を持たせる手法を提案している.しかしながら,これらの手法では,一度決定した要素については変更しないため,将来の影響を十分に予測した上で個々の決定をおこなう必要がある.Appelt,Hovyの手法では,統語的要因を考慮しながらwhat-to-sayを決定するため,what-to-say決定部は複雑なメカニズムを必要とする.また,what-to-say決定部を呼び出すタイミングの管理も困難である文章生成では,論旨展開や照応表現などの文脈的な問題も考慮しなければならないため,メカニズムはさらに複雑になる.本稿では,この問題へのアプローチとして,一度表層化した文章を繰り返し改良し,最終的に質の高い文章を生成するモデルを提案する.一般に,文章を繰り返し改良することを推敲と呼ぶが,生成過程全体を推敲過程としてとらえることによって,生成に必要な種々の決定を相互に依存する形で実現できる.本稿では,推敲に基づく生成モデルの概要と一部の実現について述べる.
著者
木谷強 小川 泰嗣 石川 徹也 木本 晴夫 中渡瀬 秀一 芥子 育雄 豊浦 潤 福島 俊一 松井 くにお 上田 良寛 酒井 哲也 徳永 健伸 鶴岡 弘 安形 輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.2, pp.15-22, 1998-01-19
被引用文献数
33

日本語情報検索システム評価用テストコレクションBMIR-J2は、情報処理学会データベースシステム研究会内のワーキンググループによって作成されている。BMIR-J2は1998年3月から配布される予定であるが、これに先立ち、テスト版としてBMIR-J2が1996年3月からモニタ公開された。J1は50箇所のモニタに配布され、多数の研究成果が発表されている。BMIR-J2では、J1に対するモニタユーザからのアンケートの回答と、作成にあたったワーキングループメンバの経験をもとに、テストコレクションの検索対象テキスト数を大幅に増やし、検索要求と適合性判定基準も見直した。本論文では、BMIR-J2の内容とその作成手順、および今後の課題について述べる。BMIR-J2, a test collection for evaluation of Japanese information retrieval systems to be released in March 1998, has been developed by a working group under the Special Interest Group on Database Systems in Information Processing Society of Japan. Since March 1996, a preliminary version called BMIR-J1 has been distributed to fifty sites and used in many research projects. Based on comments from the BMIR-J1 users and our experience, we have enlarged the collection size and revised search queries and relevance assessments in BMIR-J2. In this paper, we describe BMIR-J2 and its development process, and discuss issues to be considered for improving BMIR-J2 further.
著者
壱岐 貞昭 石橋 辰夫 新山祐介 白井 清昭 田中 穂積 徳永 健伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2000, no.53, pp.95-95, 2000-06-01

「傀儡」は、自然言語によって仮想空間上のソフトウエアロボットを制御するシステムである。ユーザは音声により仮想空間上のロボットやカメラに対して指示を与えることができる。システムはその指示を解析し、意図を理解し、その意図に適した動作をソフトウエアロボットに実行させる。また、本システムは照応・省略という言語現象を扱うことができる。これらを解決するために、各ロボットは照応や省略の対象となる名詞句を保持するためのデータベースを持っている。そして、ユーザの指令から発話行為を分析し、対話の主題を推測しながらこれらのデータベースを更新することによって照応や省略を解決する。この際、ロボットやカメラからの視覚情報も用いている。Kairai is a system which controls software robots in a virtual space according to natural language commands. The user can control the robots or camera by voice. The system analyses the command and understand the intention of the command. The software robots executes a set of actions congruent with the command intention. The system can also handle anaphora and ellipsis. Each robot has a database containing noun phrases from the preceding discourse which may form the antecedent of anaphoric or elliptical references, to aid in solving these phemonena. The system extracts the speech act from the user command, and guesses the topic of conversation in the process of updating each robot database, also relying on information on the view angle of the robots and camera.
著者
徳永 健伸 岩山 真
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.28, pp.33-40, 1994-03-17
被引用文献数
18

本論文では,新しい文書のインデックスの重み付け手法を提案し,これを文書の自動分類に応用した実験結果について報告する.本論文で提案する手法は情報検索の分野で一般的に使われている重み付け手法IDFを改良したもので,これをWIDFと呼ぶ.200から6000程度の文書の自動分類実験の結果,WIDFを使うことによってIDFに比べ最大で7.4%精度を改善することができた.This paper proposes a new term weighting method called weighted inverse document frequency (WIDF). As its name indicates, WIDF is an extension of IDF(inverse document frequency) to incorporate the term frequency over the collection of texts. WIDF of a term in a text is given by dividing the frequency of the term in the text by the sum of the frequency of the term over the collection of texts. WIDF is applied to the text categorization task and proved to be superior to the other methods. The improvement of accuracy on IDF is 7.4% at the maximum.
著者
美野 秀弥 伊藤 均 後藤 功雄 山田 一郎 徳永 健伸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.4, pp.1162-1183, 2021 (Released:2021-12-15)
参考文献数
34

本稿では,文脈を考慮したニューラル機械翻訳の精度向上のため,目的言語側の前文の参照訳と機械翻訳結果の両方を文脈情報として用いる手法を提案する.文脈として,原言語側または目的言語側の周辺の文が利用できるが,目的言語側の周辺の文を用いる手法は翻訳精度が下がることが報告されている.目的言語側の文脈を利用したニューラル機械翻訳では,学習時は参照訳を用い,翻訳時は機械翻訳結果を用いるため,参照訳と機械翻訳結果の特徴の異なり(ギャップ)が原因の 1 つと考えられる.そこで,学習時と翻訳時の目的言語側の文脈情報のギャップを緩和するために,学習時に用いる目的言語側の文脈情報を学習の進行に応じて参照訳から機械翻訳結果へ段階的に切り替えていく手法を提案する.時事通信社のニュースコーパスを用いた英日・日英機械翻訳タスクと,IWSLT2017 の TED トークコーパスを用いた英日・日英,および英独・独英機械翻訳タスクの評価実験により,従来の目的言語側の文脈を利用した機械翻訳モデルと比較して,翻訳精度が向上することを確認した.
著者
郡司 隆男 橋田 浩一 徳永 健伸 丸山 宏 長尾 眞
出版者
一般社団法人 人工知能学会
雑誌
人工知能 (ISSN:21882266)
巻号頁・発行日
vol.9, no.5, pp.673-683, 1994-09-01 (Released:2020-09-29)

前号 (Vol.9, No.4, pp.530-536) のAIマップは,我が国の自然言語処理分野のリーダシップを長年取ってこられた長尾 眞氏によるものでした.広い視野から現在の自然言語処理技術における問題点を論じる一方,これまでのアプローチに対しても厳しい批判を投じた provocative なものでした.ここではさまざまな観点から議論を沸騰させるために,自然言語研究においてそれぞれの立場の異なる4氏(大阪大学 郡司 隆男氏,電子技術総合研究所 橋田 浩一氏,東京工業大学 徳永 健伸氏,日本アイ・ビー・エム(株) 丸山 宏氏)にコメントをいただきました.また,コメントに対する長尾 眞氏の返答も同時に掲載することにいたしました. (編集委員会AIマップワーキンググループ)
著者
宮原聡 飯田龍 徳永健伸
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-211, no.2, pp.1-7, 2013-05-16

文を談話単位と呼ばれる基礎的な単位に分割する処理は談話関係解析などの前処理として必須である.ただし,談話単位間に論理的な談話関係を想定する場合には,談話単位に適切な粒度で命題が含まれる必要がある.これは,談話単位間で論理的な談話関係を想起する場合に,一つの談話単位に命題に相当する情報が含まれない場合には,関係を人手で付与する場合に解釈が困難になったり,また一つの談話単位に複数の命題が含まれている場合にはどちらの命題と関連させて関係を付与するのかわからなくなるという問題があるためである.本稿では談話単位の認定基準について議論し,談話単位アノテーションの仕様を設計し,日本語書き言葉均衡コーパス (BCCWJ) の一部に人手でアノテーションを行った.さらに,談話単位の境界にどのような特徴が現れるのかを人手で分析し,それらを手がかりとした自動分割の手法を提案する.この手法の有効性を調査するために BCCWJ にアノテーションした結果を利用した評価実験を行った結果について報告する.
著者
福永 隼也 西川 仁 徳永 健伸 横野 光 高橋 哲朗
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-236, no.12, pp.1-9, 2018-07-02

本論文は,データベース検索を行うタスク指向型対話を対象として,ユーザ発話中で明示的に述べられていないユーザ要求の解釈をおこなう手法を提案する.ユーザ発話において,検索条件としてデータベースフィールドとその値が明示的に指定されない場合,その発話を直接データベースへのクエリに変換することはできない.しかし,そのような発話中にも明示的に述べられないユーザ要求が含まれる場合があり,それを解釈することは,対話システムがより自然で効率的なデータベース検索対話をおこなうために重要である.本論文ではこのように明示的に述べられないユーザ要求を非明示的条件と呼ぶ.また,非明示的条件の解釈を,ユーザ発話を関連するデータベースフィールドに紐づけ,また同時にその根拠となるユーザ発話中の文字列を抽出する課題として定式化する.このような新しい課題を提案するとともに,課題に対する 2 つの手法として,サポートベクターマシンに基づく手法と,分類と根拠となる部分文字列の抽出を同時に行うニューラルネットワークによる手法を実装した.不動産に関する対話のコーパスを利用した評価実験の結果,サポートベクターマシンに基づく手法がより良好な結果を示すことがわかった.
著者
武智 峰樹 徳永 健伸 松本 裕治 田中 穂積
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.44, no.SIG12(TOD19), pp.51-63, 2003-09-15

要素技術としての文書分類は,質問応答やWeb ナビゲーションにおける主要な構成要素である.特に表層的なテキストの特徴を主に利用する質問応答では,与えられた質問のタイプに応じて適切な回答候補を抽出できる分類エンジンが重要である.またWeb ナビゲーションにおいては,従来の質問応答が扱ってこなかった質問も扱う必要があり,そのような質問に対しても適切な回答候補を選び出すための分類技術が求められる.本研究は,Web ナビゲーションが扱う質問のうち,特に手順に関する質問を取り上げ,その回答候補の分類に有効な特徴量を明らかにすることを目的とする.その試みとしてWeb ページにおいてHTML のリストタグが付与されたテキストを記事集合として,それを手順について書かれたテキストとそれ以外のテキストに分類するタスクを考える.検索エンジンを用いて箇条書きを収集し,機械学習の一手法であるSupport Vector Machine を用いた文書分類を行い,その結果の観察に基づいて手順について書かれた箇条書きの抽出に有効な特徴量を考察した.N-gram や語の頻度情報をベースにした手法により,コンピュータ分野に関しては90%以上の精度で分類可能な特徴量の組合せを得た.
著者
岩山 真 徳永 健伸 田中 穂積 Makoto Iwayama Takenobu Tokunaga Hozumi Tanaka
雑誌
人工知能学会誌 = Journal of Japanese Society for Artificial Intelligence (ISSN:09128085)
巻号頁・発行日
vol.6, no.5, pp.674-681, 1991-09-01

This paper presents a computational model for understanding metaphors using the measure of salience. Understanding metaphors is a property transfer process from a source concept to a target concept. There are two questions arise in the transfer process. One is which properties are more likely transferred from the source concept to the target concept, and other is the representation of highlighting the transferred properties. We use the measure of salience to answer these questions. The measure of salience represents how typical or prominent a property is. In understanding metaphors, typical properties are easy to transferred from a source concept to a target concept, so the measure of salience can measure the transferability of properties. And, the transferred properties become typical properties in the target concept, so highlighting the properties can be represented by increasing the measure of salience. For now, many researches have used the measure of salience in the process of understanding metaphors^^<(l)-(4)>, but they have not described precisely how the measure of salience is calculated. This paper presents the method of calculating the measure of salience based on the information theory. We use the redundancy of a property and the distribution of the redundancy among similar conceps. We think this method meet well with the human's intuition.
著者
崔 一鳴 西川 仁 徳永 健伸 吉川 和 岩倉 友哉
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.1N4J901, 2019 (Released:2019-06-01)

本研究では,化学文書中の専門用語の自動抽出に自己学習を取り入れる手法を提案する.我々は CHEMDNER コーパスを使い,ニューラルネットワークをベースとする化学文書中の専門用語抽出のモデルを訓練した.訓練済みのモデルは自動的に訓練データを作成するために,正解タグがついていない MEDLINE コーパスにアノテーションをするのに使用した.そして,最終的なモデルを獲得するために,人手でタグ付けが行われた CHEMDNER コーパスと自動タグ付けを行った MEDLINE コーパスの両方を用いて訓練を行った.訓練データとしてタグがついていない MEDLINE コーパスを用いた評価は,化学文書中の専門用語抽出における自己学習の有効性を示した.
著者
山田一郎 三浦菊佳 住吉英樹 八木伸行 奥村学 徳永健伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.82, pp.25-30, 2006-07-27
参考文献数
9
被引用文献数
2

テレビ番組のナレーションでは、「場所紹介」や「人物紹介」など特定の事柄を表現するために同じような言い回しが多用される。このような言い回しを含む文章区間が抽出できれば、対応する番組映像区間の場所紹介や人物紹介といったメタデータを付与することができる。そこで本稿では、番組のクローズドキャプションを対象として定型表現を含む文章区間を抽出する手法を提案する。提案手法では、複数文のテキストデータから木構造を生成して、木構造間の類似性を木構造に含まれる部分木の類似度により評価する。この結果を弱学習器としたAdaBoostアルゴリズムにより学習を行い定型表現か否かの判定を行う。紀行番組のクローズドキャプションを対象として、場所を映像とともに説明する定型表現文章区間を抽出する実験を行い、提案手法の有効性を確認した。In the closed captions, there are a lot of typical expressions to express specific things, for example, first introduction of a guest in a talk show or explanation of a place in travel program. Such information helps us to put matadata to the corresponding scenes. This paper proposes a method to extract a section including typical expressions. The first step generates tree structures from inputted section of sentences and evalutes the similarities between those tree structures. We use these similarities as weak larners of adaboost algorism to judge whether the section of sentences includes typical expressions or not. In the experiment of detecting sections including typical expressions which explain a place with video targeting closed capitions of TV programs conserned with travel, we show the effectiveness of our method.
著者
船越 孝太郎 徳永 健伸 田中穂積
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.104, pp.35-41, 2002-11-12
被引用文献数
1

話し言葉に頻繁に現れる助詞落ち,倒置,自己修復などの不適格性は,音声対話を困難にする大きな要因の1つである.筆者らは,日本語におけるこれらの不適格性が複合して現れることを指摘し,解決法を示した.本論文では提案手法を実装し,新たに収集した音声発話データに対して評価を行なう.発話データの収集に際しては,小量の採集でも不適格性を多く含むように工夫を行なった.実際に音声認識結果に対して構文解析を行なった結果,対話システムが正しく解析できる発話が171発話から322発話に改善されることを確認した.Ill-formedness in speech, such as postposition omission, inversion, and self-correction, is a major obstacle which makes speech dialog difficult. We proposed a method to handle these sources of Japanese ill-formedness in our previous paper. In this paper, we implement the proposed method and evaluate it by using newly collected speech data. We designed the experiment to obtain ill-formedness data effectively. Among 532 utterances in the corpus, introducing the proposed method increased the number of correct analysis from 171 to 322.
著者
小林 義行 山本 修司 徳永 健伸 田中 穂積
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.47, pp.1-8, 1994-05-27
被引用文献数
3

複合名詞の解析は、実用的な自然言語解析システムの実現において、解決しなければならない困難な問題の1つである。本論文では、語の共起の統計的な情報とシソーラスを用いて日本語複合名詞の構造を解析する方法について述べる。語の共起関係は16万語の4文字熟語から獲得した。新聞、用語集から抽出した平均4.9の漢字からなる複合名詞を解析し、最終的に約80%の精度で解析することができた。Analyzing compound nouns is one of the crucial issues for natural language processing systems, in particular for the systems that aim wide coverage of domains. In this paper, we propose a method to analyze structures of Japanese compound nouns by using both statistics of word collocations and thesauruses. An experiment is conducted in which 160,000 word collocations are used to analyze compound nouns of which average length is 4.9. Finally, the accuracy of the method is about 80%.
著者
白井 清昭 徳永 健伸 田中 穂積
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.47, pp.81-88, 1994-05-27
被引用文献数
6

本論文は構文構造が付加されたコーパスから自動的に文脈自由文法を抽出する方法について述べる。まず構文構造内のノードに自動的に非終端記号を割り当てて、規則数210600の曖昧性のない文法を抽出した。次に自動的に割り当てられた非終端記号に対して、抽出された規則の右辺の記号列を見て人間が適切な名前を与えることにより文法の規則の数を削減した。さらに非終端記号に対する名前付けを自動的に行う方法も提案した。また、文法中の右辺長の長い規則を右辺長の短い規則を用いて分解することにより、さらに文法サイズの縮小を試みた。最後に抽出した文法を用いてコーパスの例文の統語解析を行い、統語的な曖昧性の数を調べる実験を行った。This paper discribes a method of automatic extraction of context-free grammar from bracketed corpus. First, unambiguous grammar with 210600 rules is extracted by automatically replacing nodes in trees with non terminal symbols. In order to reduce the number of the rules, we give proper names to non terminal symbols taking account of the right hand side of the rules. For further reduction of grammar size, we decompose rules which have many symbols in the right hand side. Finally, we conducted an experiment to analize sentences with the extracted grammar.
著者
藤井 敦 徳永 健伸
出版者
東京工業大学
雑誌
基盤研究(B)
巻号頁・発行日
2010

本研究は,様々な用語に関する説明を効率よく活用することを目的として,ウェブページの集合からウィキペディア記事のような解説型テキストを自動的に生成する手法について研究した.動物名や病名といった用語の種類によって説明に必要な観点が異なるため,ウィキペディアの記事集合から観点に基づく用語説明のパターンを学習する.用語の種類に応じて検索結果から必要な文章が抽出され,解説型テキストとして統合される.
著者
植木 正裕 徳永 健伸 田中 穂積
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.85, pp.45-51, 1997-11-12

本論文は、GLR法における圧縮共有の効率を改善する手法を提案する。GLR法では、圧縮共有統語森により解析の高速化をはかつているが、冨田によるGLR法の実誇では、アクションのコンフリクトによって枝分かれした複数のスタックの間で解析のタイミングがずれるために、共有できるシンボルの生成のタイミングもずれることがある。このため、スタックの完全な圧縮共有ができているとは限らず、同じ解析動作が重複して行なわれたり、完全な圧縮共有統語森が生成できないこともある。本論文で提案するGLRパーズの手法では、枝分かれしたスタックの間での解析のタイミングを制御し、スタックの共有化のタイミングを早め、完全な圧縮共有統語森を作成することができる。これにより、解析の高速化と使用メモリ空間の削減を同時に実現できる。In this paper we propose a method to improve efficiency of GLR parsing. Tomita's GLR implementation uses two data structures, graph-structured stack and packed-shared parse forest. Both structures help us avoid applying same parsing action repeatedly to save parsing time and memory space. However, his implementation misses a chance to share data structures. To the contrary, our method not only keeps the advantage of Tomita's implementation but also allows data structures to be completely shared. Experiments show our method exceeds in both time and space efficiency compared to Tomita's method.
著者
Baldwin Timothy 岡崎 篤 徳永 健伸 田中 穂積
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.101, no.351, pp.17-24, 2001-10-10

本研究では, Senseval2の対訳対検索タスクにおいて、2つの全く異なった検索手法を紹介する。1つ目の手法は表層的類似に基づくもので、文字列を文字バイグラムの集合として扱う。2つ目の手法は構造的類似をもととしたもので、構文解析木および概念的類似を用い文字列間の類似度を計算する。さらに、この2つの手法を組み合わせるハイブリッド手法も提案する。評価実験では、単純でありながらも、表層的類似度計算法が構造的計算法より勝ることを明らかにし、全体ではハイブリッド手法が再優良であることを実証している。