著者
清田 陽司 黒橋 禎夫 木戸 冬子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.4, pp.127-145, 2004-10-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
2 2

質問応答システムによって収集された大量のユーザ質問文を含むコーパス中から換喩表現とその解釈表現を自動抽出し, それを質問応答システム「ダイアログナビ」におけるユーザ質問文とテキストのマッチングに応用する方法を提案する.具体的には, 換喩表現 (例: GIFを表示する) とその解釈表現 (例: GIFの画像を表示する) のペアをダイアログナビの同義表現辞書に登録することによって, ユーザ質問文とテキスト文の問の係り受け関係のずれを解消する.抽出された換喩表現・換喩解釈表現ペアについて評価を行ったところ, 大半は適切なものであった.また, テストセットを用いて実験を行った結果, 提案手法がマッチング精度を改善することがわかった.
著者
美野 秀弥 伊藤 均 後藤 功雄 山田 一郎 徳永 健伸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.4, pp.1162-1183, 2021 (Released:2021-12-15)
参考文献数
34

本稿では,文脈を考慮したニューラル機械翻訳の精度向上のため,目的言語側の前文の参照訳と機械翻訳結果の両方を文脈情報として用いる手法を提案する.文脈として,原言語側または目的言語側の周辺の文が利用できるが,目的言語側の周辺の文を用いる手法は翻訳精度が下がることが報告されている.目的言語側の文脈を利用したニューラル機械翻訳では,学習時は参照訳を用い,翻訳時は機械翻訳結果を用いるため,参照訳と機械翻訳結果の特徴の異なり(ギャップ)が原因の 1 つと考えられる.そこで,学習時と翻訳時の目的言語側の文脈情報のギャップを緩和するために,学習時に用いる目的言語側の文脈情報を学習の進行に応じて参照訳から機械翻訳結果へ段階的に切り替えていく手法を提案する.時事通信社のニュースコーパスを用いた英日・日英機械翻訳タスクと,IWSLT2017 の TED トークコーパスを用いた英日・日英,および英独・独英機械翻訳タスクの評価実験により,従来の目的言語側の文脈を利用した機械翻訳モデルと比較して,翻訳精度が向上することを確認した.
著者
古山 翔太 高村 大也 岡崎 直観
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.2, pp.542-586, 2022 (Released:2022-06-15)
参考文献数
52
被引用文献数
1

ニューラル文法誤り訂正では,データ拡張によって学習データの不足を補う手法が活発に研究されている.本研究では,既存のデータ拡張手法が,より良いデータ拡張を行い性能向上を目指す上で重要な要素として,(1) 誤りの多様性が訂正性能に寄与すること,(2) 特定の種類の誤り生成がその種類の誤り訂正性能に寄与すること,(3) データ拡張に用いるコーパスの大きさが訂正性能に寄与することの 3 点が仮定されている.本研究では,これらの仮定の妥当性を検証するため,多様な文法カテゴリでの誤り生成規則を組み合わせる手法を提案し,生成する誤りの種類を変えて誤り訂正モデルを学習することで,比較検証を行う.結果として,仮定 (1) (2) は正しいが,一方で,仮定 (3) においては,コーパスの規模ではなく,パラメータの更新回数と誤りの生成回数が影響することが明らかになった.さらに,提案手法は,学習者コーパスを用いない教師なし設定でも高い性能のモデルを学習でき,学習者コーパスを用いた場合でも,既存の手法と同程度に高性能なモデルを学習できることが明らかになった.折り返し翻訳・逆翻訳によるデータ拡張手法との比較を通じて,また,ルールによる誤り生成とこれらの手法を用いたモデルでは,訂正において得意な誤り種類が異なることが判明した.
著者
荒牧 英治 若宮 翔子 矢野 憲 永井 宥之 岡久 太郎 伊藤 薫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.1, pp.119-152, 2018-02-15 (Released:2018-05-15)
参考文献数
15
被引用文献数
3 9

高度な人工知能研究のためには,その材料となるデータが必須となる.医療,特に臨床に関わる分野において,人工知能研究の材料となるデータは主に自然言語文を含む電子カルテである.このようなデータを最大限に利用するには,自然言語処理による情報抽出が必須であり,同時に,情報抽出技術を開発するためのコーパスが必要となる.本コーパスの特徴は,45,000 テキストという我々の知る限りもっとも大規模なデータを構築した点と,単に用語のアノテーションや用語の標準化を行っただけでなく,当該の疾患が実際に患者に生じたかどうかという事実性をアノテーションした点の 2 点である.本稿では病名や症状のアノテーションを対象に,この医療コーパス開発についてその詳細を述べる.人工知能研究のための医療コーパス開発について病名や症状のアノテーションを中心にその詳細を述べる.本稿の構成は以下の通りである.まず,アノテーションの基準について,例を交えながら,概念の定義について述べる.次に,実際にアノテーターが作業した際の一致率などの指標を算出し,アノテーションのフィージビリティについて述べる.最後に,構築したコーパスを用いた病名抽出システムについて報告する.本稿のアノテーション仕様は,様々な医療テキストや医療表現をアノテーションする際の参考となるであろう.
著者
村田 真樹 神崎 享子 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.7, no.1, pp.51-66, 2000-01-10 (Released:2011-03-01)
参考文献数
15

本稿では単語の羅列を意味でソートするといろいろなときに便利であるということについて記述する. また, この単語を意味でソートするという考え方を示すと同時に, この考え方と辞書, 階層シソーラスとの関係, さらには多観点シソーラスについても論じる. そこでは単語を複数の属性で表現するという考え方も示し, 今後の言語処理のためにその考え方に基づく辞書が必要であることについても述べている. また, 単語を意味でソートすると便利になるであろう主要な三つの例についても述べる.
著者
磯 颯
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.264-269, 2022 (Released:2022-03-15)
参考文献数
8
被引用文献数
1
著者
山本 和英 増山 繁 内藤 昭三
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.1, pp.39-55, 1995-01-10 (Released:2011-03-01)
参考文献数
8
被引用文献数
1 2

日本語文章要約システムGREENについて報告する. 一般に, 質の良い文章要約を行うためには, ある一つの言語現象だけをとらえた談話解析だけでは不十分である. なぜなら, 談話に関わる言語現象は相互に関連しているからである. 本研究ではこの観点から, 日本語での様々な表層的特徴をできるだけ多く利用して, 日本語文章の要約を試みる. 本稿では実際に計算機上で試作した論説文要約システムGREENに関して, これで用いられている論説文要約の手法の紹介と, これによって出力された文章の評価を行う.
著者
梶原 智之 西原 大貴 小平 知範 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.4, pp.801-824, 2020-12-15 (Released:2021-03-15)
参考文献数
50

本研究では,日本語の語彙平易化のために,評価用データセット・辞書・実装や評価を支援するツールキットの 3 種類の言語資源を整備する.我々は既存の小規模な単語難易度辞書をもとに単語難易度の推定器を訓練し,大規模な日本語の単語難易度辞書および難解な単語から平易な単語への言い換え辞書を自動構築する.本研究で構築する評価用データセットを用いた評価実験によって,この辞書に基づく語彙平易化システムが高い性能を達成することを示す.我々のツールキットは,辞書の他,語彙平易化パイプラインにおける主要な手法を実装しており,これらの手法を組み合わせたシステムの構築および構築したシステムの自動評価の機能を提供する.
著者
後藤 功雄 田中 英輝
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.5, pp.577-597, 2018-12-15 (Released:2019-03-15)
参考文献数
21

ニューラル機械翻訳 (NMT) は入力文の内容の一部が翻訳されない場合があるという問題があるため,NMT の実用には訳出されていない内容を検出できることが重要である.著者らはアテンションの累積確率と出力した目的言語文から入力文を生成する逆翻訳の確率という 2 種類の確率による,入力文の内容の欠落に対する検出効果を調査した.日英の特許翻訳での訳抜けした内容の検出実験を実施し,アテンションの累積確率と逆翻訳の確率はいずれも効果があり,逆翻訳はアテンションより効果が高く,これらを組み合わせるとさらに検出性能が向上することを確認した.また,訳抜けの検出を機械翻訳結果の人手修正のための文選択に応用した場合に効果があることが分かった.
著者
亀甲 博貴 松吉 俊 John Richardson 牛久 敦 笹田 鉄郎 村脇 有吾 鶴岡 慶雅 森 信介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.3, pp.847-873, 2021 (Released:2021-09-15)
参考文献数
40

近年,シンボルグラウンディングや言語生成,自然言語による非言語データの検索など,実世界に紐づいた自然言語処理への注目が高まっている.我々は,将棋のゲーム局面に付随する解説文がこれらの課題の興味深いテストベッドになると考えている.解説者は現在の局面だけでなく過去や未来の指し手に言及しており,これらはゲーム木にグラウンディングされることから,ゲーム木探索アルゴリズムを活用した実世界対応の研究が期待できる.本論文では,我々が構築した,人手による単語分割・固有表現・モダリティ表現・事象の事実性のアノテーションを行った将棋解説文コーパスを説明する.
著者
笹野 遼平 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1183-1205, 2014
被引用文献数
3

本論文では,形態素解析で使用する辞書に含まれる語から派生した表記,および,未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する.提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う.Web から収集した 10 万文を対象とした実験の結果,既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し,解析が悪化する箇所は 80 箇所程度,速度低下は 6% のみであることを確認した.

1 0 0 0 OA R. B. について

著者
二宮 崇
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.4, pp.936-937, 2021 (Released:2021-12-15)