著者
佐藤 志貴 赤間 怜奈 大内 啓樹 鈴木 潤 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.53-83, 2022 (Released:2022-03-15)
参考文献数
48

雑談対話応答生成システムの日々の改良が望ましい方向に効いているか継続的に評価するといった用途として,システムを低コストで評価できる自動評価の枠組みの確立が求められている.しかし,BLEU など,応答生成の自動評価に広く用いられている既存の指標は人間との相関が低いことが報告されている.これは,一つの対話履歴に対し適切な応答が複数存在するという対話の性質に起因する.この性質の影響を受けにくいシステムの評価方法の一つに対話応答選択が考えられる.対話応答選択は,対話履歴に対し適切な応答を応答候補から選ぶタスクである.このタスクではシステムの応答が候補内の発話に限られるため,前述した対話の性質の影響を回避した評価が可能である.一般に対話応答選択では,対話履歴に対する本来の応答(正例)に加え,誤り候補(負例)を無関係な対話データから無作為抽出し応答候補を構成する.しかし,この方法では,正例とかけ離れすぎていて応答として不適切と容易に判別できる発話や,応答として誤りとはいえない発話が負例として候補に混入し,評価の有効性が低下する可能性がある.本論文では,負例を厳選することで不適切な負例の混入を抑制した対話応答選択テストセットの構築方法を提案する.構築したテストセットを用いた対話応答選択によるシステム評価が,BLEU など既存の広く用いられている自動評価指標と比べ人手評価と強く相関することを報告する.
著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.2, pp.109-131, 2005-03-31 (Released:2011-03-01)
参考文献数
19
被引用文献数
8 6

本稿では, 格フレーム辞書を漸次的に自動構築する手法を提案する.カバレージの高い格フレーム辞書を構築するために, 大規模コーパスから徐々に確からしい情報を抽出する.まず, コーパスを構文解析し, 構文的曖昧性のない述語項構造のみを抽出・クラスタリングすることによって, 1次格フレーム辞書を得る.次に, 1次格フレーム辞書を用いてコーパスを格解析し, 新たに分かる確実な情報を抽出し, 2次格フレーム辞書を構築する.このように徐々に新たな情報を加えていくことによって, 高次格フレーム辞書を構築する.結果として得られた格フレーム辞書は, 二重主語構文, 連体修飾の外の関係, 格変化といった複雑な言語現象を解析することを可能にする.新聞記事26年分, 約2600万文のコーパスから格フレーム辞書を構築し2種類の評価を行った.1つは, 得られた格フレームを人手で評価するものであり, もう1つは得られた格フレーム辞書を用いた構文・格解析実験による評価である.これらの結果, 本手法の有効性が確かめられた.
著者
今村 賢治 越前谷 博 江原 暉将 後藤 功雄 須藤 克仁 園尾 聡 綱川 隆司 中澤 敏明 二宮 崇 王 向莉
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.3, pp.925-985, 2022 (Released:2022-09-15)
参考文献数
203

本解説論文では,特許を対象とした機械翻訳における種々の課題に対する関連技術の解説を行う.特許に対する機械翻訳は実用的にも学術的にも長い歴史を持つが,ニューラル機械翻訳の登場で新たな段階に進んできたと言える.そうした動向を踏まえ,訳抜け・過剰訳への対策,用語訳の統一,長文対策,低リソース言語対対策,評価,翻訳の高速化・省メモリ化,の6項目に分けて近年の関連技術を紹介し,今後の方向性を論じる.
著者
飯田 龍 小町 守 井之上 直也 乾 健太郎 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.2, pp.2_25-2_50, 2010 (Released:2011-06-23)
参考文献数
25
被引用文献数
5 6

本論文では,日本語書き言葉を対象とした述語項構造と照応関係のタグ付与について議論する.述語項構造解析や照応解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの解析のための主要な手法はタグ付与コーパスを用いた学習に基づく手法である.この手法を実現するためには大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で導入されているタグ付与の基準は,言語の違いや最終的に出力したい解析結果の粒度が異なるため,そのまま利用することができない.そこで,我々は既存のいくつかのタグ付与の仕様を吟味し,述語項構造と共参照関係のアノテーションを行うためにタグ付与の基準がどうあるべきかについて検討した.本論文ではその結果について報告する.また,京都コーパス第 3.0 版の記事を対象にタグ付与作業を行った結果とその際に問題となった点について報告する.さらにタグ付与の仕様の改善案を示し,その案にしたがい作業をやり直した結果についても報告する.
著者
高山 隼矢 梶原 智之 荒瀬 由紀
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.84-111, 2022 (Released:2022-03-15)
参考文献数
45
被引用文献数
1

人間は対話においてしばしば相手の質問や発話に対して間接的な応答をする.例えば,予約サービスにおいてユーザがオペレータに対して「あまり予算がないのですが」と応答した場合,オペレータはその応答には間接的に「もっと安い店を提示してください」という意図が含まれていると解釈できる.大規模な対話コーパスを学習したニューラル対話モデルは流暢な応答を生成する能力を持つが,間接的な応答に焦点を当てたコーパスは存在せず,モデルが人間と同様に間接的な応答を扱うことができるかどうかは明らかではない.本研究では既存の英語対話コーパスである MultiWoZ を拡張し,71,498 件の間接的応答と直接的応答の対からなる対話履歴付きパラレルコーパスを構築した.また,間接的な応答を扱う能力を評価するための 3 つのベンチマークタスクを設計し,最新の事前学習済みモデルの性能を調査した.さらに,ユーザーの間接的な発話を事前に直接的な発話に変換することで対話応答生成の性能が向上することを確認した.
著者
藤田 早苗 服部 正嗣 小林 哲生 奥村 優子 青山 一生
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.1, pp.49-73, 2017-02-15 (Released:2017-05-15)
参考文献数
43
被引用文献数
4 3

本稿では,子どもに「内容」と「読みやすさ」がぴったりな絵本を見つけるためのシステム「ぴたりえ」を提案する.本システムは,親や保育士,司書など,子どもに絵本を選ぶ大人が利用することを想定している.絵本を読むことは,子どもの言語発達と情操教育の両面で効果が期待できる.しかし,難しさも内容も様々な絵本が数多くある中で,子ども 1 人 1 人にとってぴったりな絵本を選ぶのは容易なことではない.そこで,ぴたりえでは,ひらがなの多い絵本のテキストを高精度に解析できる形態素解析や,文字の少ない絵本に対しても精度の高いテキストの難易度推定技術などの言語処理技術により,子どもにぴったりな絵本を探す絵本検索システムを実現する.本稿では,こうした言語処理技術を中心にぴたりえの要素技術を紹介し,各技術の精度が高いことを示す.また,システム全体としても,アンケート評価の結果,ぴたりえで選んだ絵本は「読みやすさ」も「内容」も,5 段階評価で平均値が 4.44~4.54 と高い評価が得られたことを示す.
著者
Ryo Fukuda Katsuhito Sudoh Satoshi Nakamura
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.2, pp.344-366, 2022 (Released:2022-06-15)
参考文献数
42

Recent studies consider knowledge distillation as a promising method for speech translation (ST) using end-to-end models. However, its usefulness in cascade ST with automatic speech recognition (ASR) and machine translation (MT) models has not yet been clarified. An ASR output typically contains speech recognition errors. An MT model trained only on human transcripts performs poorly on error-containing ASR results. Thus, it should be trained considering the presence of ASR errors during inference. In this paper, we propose using knowledge distillation for training of the MT model for cascade ST to achieve robustness against ASR errors. We distilled knowledge from a teacher model based on human transcripts to a student model based on erroneous transcriptions. Our experimental results showed that the proposed method improves the translation performance on erroneous transcriptions. Further investigation by combining knowledge distillation and fine-tuning consistently improved the performance on two different datasets: MuST-C English--Italian and Fisher Spanish--English.
著者
浅原 正幸 金山 博 宮尾 祐介 田中 貴秋 大村 舞 村脇 有吾 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.1, pp.3-36, 2019-03-15 (Released:2019-06-15)
参考文献数
40
被引用文献数
2 3

Universal Dependencies (UD) は,共通のアノテーション方式で多言語の構文構造コーパスを言語横断的に開発するプロジェクトである. 2018 年 6 月現在,約 60 の言語で 100 以上のコーパスが開発・公開されており,多言語構文解析器の開発,言語横断的な構文モデルの学習,言語間の類型論的比較などさまざまな研究で利用されている. 本稿では UD の日本語適応について述べる.日本語コーパスを開発する際の問題点として品詞情報・格のラベル・句と節の区別について議論する.また,依存構造木では表現が難しい,並列構造の問題についても議論する.最後に現在までに開発した UD 準拠の日本語コーパスの現状を報告する.
著者
光田 航 東中 竜一郎 李 廷軒 杉山 弘晃 水上 雅博 中村 竜太 安達 敬武 川端 秀寿 吉田 仙 杵渕 哲也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.4, pp.1172-1205, 2023 (Released:2023-12-15)
参考文献数
53

本研究では,単一の人物の大規模な対話データを大規模言語モデルと組み合わせることで,対象人物を再現するチャットボット(なりきりAI)を構築した.さらに,構築したチャットボットの公開実験とそのエラー分析を行うことで,現状の到達点と問題を調査した.その結果,構築されたチャットボットは高い自然さとキャラクタらしさを持つことが明らかになった.さらに,対象人物を再現するチャットボットのエラーは,属性に関するエラーと関係に関するエラーに分けられ,また,自己に関するエラーと他者に関するエラーに分けられることが明らかになった.
著者
松崎 拓也 横野 光 宮尾 祐介 川添 愛 狩野 芳伸 加納 隼人 佐藤 理史 東中 竜一郎 杉山 弘晃 磯崎 秀樹 菊井 玄一郎 堂坂 浩二 平 博順 南 泰浩 新井 紀子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.23, no.1, pp.119-159, 2016-01-25 (Released:2016-04-25)
参考文献数
35

「ロボットは東大に入れるか」は,大学入試試験問題を計算機で解くという挑戦を通じ,言語処理を含む AI 諸技術の再統合と,知的情報処理の新たな課題の発見を目指すプロジェクトである.知的能力の測定を第一目的として設計された入試問題は,AI 技術の恰好のベンチマークであるとともに,人間の受験者と機械のエラー傾向を直接比較することが可能である.本稿では,大手予備校主催のセンター試験形式模試を主たる評価データとして,各科目の解答システムのエラーを分析し,高得点へ向けた今後の課題を明らかにするとともに,分野としての言語処理全体における現在の課題を探る.
著者
笹野 遼平 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1183-1205, 2014-12-15 (Released:2015-03-15)
参考文献数
24
被引用文献数
3

本論文では,形態素解析で使用する辞書に含まれる語から派生した表記,および,未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する.提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う.Web から収集した 10 万文を対象とした実験の結果,既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し,解析が悪化する箇所は 80 箇所程度,速度低下は 6% のみであることを確認した.
著者
杉山 一成 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.5, pp.5_23-5_49, 2009 (Released:2011-07-28)
参考文献数
28

人名は検索語として,しばしば検索エンジンに入力される.しかし,この入力された人名に対して,検索エンジンは,いくつかの同姓同名人物についての Web ページを含む長い検索結果のリストを返すだけである.この問題を解決するために,Web 検索結果における人名の曖昧性解消を目的とした従来研究の多くは,凝集型クラスタリングを適用している.一方,本研究では,ある種文書に類似した文書をマージする半教師有りクラスタリングを用いる.我々の提案する半教師有りクラスタリングは,種文書を含むクラスタの重心の変動を抑えるという点において,新規性がある.
著者
江原 遥 田中 久美子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.5, pp.151-167, 2008-10-10 (Released:2011-03-01)
参考文献数
14

近年, 国際化に伴い, 多くの言語を頻繁に切り替えて入力する機会が増えている.既存のテキスト入力システムにおいては, 言語が切り替わるたびに, ユーザーが手動で, テキスト入力ソフトウェア (IME) を切り替えなければならない点が, ユーザーにとって負担になっていた.この問題を解決するために, 本論文では, 多言語を入力する際にユーザーの負担を軽減するシステム, TypeAnyを提案する.TypeAnyは, ユーザーが行うキー入力からユーザーが入力しようとしている言語を判別して, IMEの切り替えを自動で行う.これによって, ユーザーがIMEを切り替える操作量が減るため, 複数の言語をスムーズに切り替えながら入力することが可能になる.本研究では, 隠れマルコフモデルを用いて言語の判別をモデル化し, モデルにおける確率をPPM法を用いて推定することでTypeAnyを実装し, その有用性を評価した.その結果, 人工的なコーパスにおける3言語間の判別において, 96.7%の判別精度を得た.また, 実際に多言語を含む文書を用いて実験したところ, 切り替えに必要な操作の数が, 既存の手法に比べて93%減少した.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-45, 2003-01-10 (Released:2011-03-01)
参考文献数
22
被引用文献数
12 17

本論文では, 専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する. 本論文では名詞 (単名詞と複合名詞) を対象として専門用語抽出について検討する. 基本的アイデアは, 単名詞のバイグラムから得られる単名詞の統計量を利用するという点である. より具体的に言えば, ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる. この頻度を利用した数種類の複合名詞スコア付け法を提案する. NTCIR1 TMRECテストコレクションによって提案方法を実験的に評価した. この結果, スコアの上位の1, 400用語候補以内, ならびに, 12,000用語候補以上においては, 単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.