著者
今村 賢治 越前谷 博 江原 暉将 後藤 功雄 須藤 克仁 園尾 聡 綱川 隆司 中澤 敏明 二宮 崇 王 向莉
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.3, pp.925-985, 2022 (Released:2022-09-15)
参考文献数
203

本解説論文では,特許を対象とした機械翻訳における種々の課題に対する関連技術の解説を行う.特許に対する機械翻訳は実用的にも学術的にも長い歴史を持つが,ニューラル機械翻訳の登場で新たな段階に進んできたと言える.そうした動向を踏まえ,訳抜け・過剰訳への対策,用語訳の統一,長文対策,低リソース言語対対策,評価,翻訳の高速化・省メモリ化,の6項目に分けて近年の関連技術を紹介し,今後の方向性を論じる.
著者
打浪 文子 岩田 一成 熊野 正 後藤 功雄 田中 英輝 大塚 裕子
出版者
社会言語科学会
雑誌
社会言語科学 (ISSN:13443909)
巻号頁・発行日
vol.20, no.1, pp.29-41, 2017-09-30 (Released:2018-02-07)
参考文献数
30
被引用文献数
1

本研究では,知的障害者に対する「わかりやすい」情報提供を実践する媒体である「ステージ」と,外国人向けの「やさしい日本語」で時事情報の配信を行うNHKの「NEWSWEB EASY」(以下NWE),およびNWE記事の書き換え元であるNHKの一般向けニュース原稿の3つのメディアのテキストを,文長や記事長,難易度や使用語彙の観点から計量的および質的に分析し,その共通点および相違点を明らかにした.分析の結果から,ステージとNWEの共通点として形態素数や和語の率が近いことや,「外来語」や「人の属性を表す語」などの名詞や動詞を中心とした難解語彙の群があることが示された.また相違点として,ステージには副詞や接辞等に「やさしい日本語」の基準に照らせば書きかえ可能なものがあること,さらにステージのみの特徴として同じ動詞をさまざまな形で重ねて使っていることが示された.条件を統制した上で上記3つのメディアの共通・相違性に関する比較研究を深めること,知的障害者向けの情報提供のさらなる分析と知見の収集を行うこと,従来の研究領域を超える「言語的な困難を有する人」すべてを対象とした「わかりやすい」日本語による情報保障の具体的な方法を提示することの3点が本研究の今後の課題である.
著者
田中 英輝 熊野 正 後藤 功雄 美野 秀弥
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.1, pp.81-117, 2018-02-15 (Released:2018-05-15)
参考文献数
40
被引用文献数
1

NHK はインターネットサイト NEWS WEB EASY で外国人を対象としたやさしい日本語のニュースを提供している.やさしい日本語のニュースは日本語教師と記者の 2 名が通常のニュースを共同でやさしく書き換えて制作し,本文にはふりがな,難しい語への辞書といった読解補助情報が付与されている.本稿では NEWS WEB EASY のやさしい日本語の書き換え原則,および制作の体制とプロセスの概要と課題を説明した後,課題に対処するために開発した 2 つのエディタを説明する.1 つは書き換えを支援する「書き換えエディタ」である.書き換えエディタは先行のシステムと同様に難しい語を指摘し,書き換え候補を提示する機能を持つが,2 名以上の共同作業を支援する点,難しい語の指摘機能に学習機能を持つ点,また,候補の提示に書き換え事例を蓄積して利用する点に特徴がある.他の 1 つは「読解補助情報エディタ」である.読解補助情報エディタは,ふりがなや辞書情報を自動推定する機能,さらに推定誤りの修正結果を学習する機能を持つ.以上のように 2 つのエディタは,自動学習と用例の利用により,読解補助情報の推定の誤り,やさしい日本語の書き方の方針変更などに日々の運用の中で自律的に対応できるようになっている.本稿では 2 つのエディタの詳細説明の後,日本語教師および記者を対象に実施したアンケート調査,およびログ解析によりエディタの有効性を示す.
著者
木下 明徳 後藤 功雄 熊野 正 加藤 直人 田中 英輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.113, pp.81-86, 2007-11-20
参考文献数
8

NHK の国際放送では 18 ケ国語が使われており,それらの放送用原稿は,日本語の原稿やその英訳原稿が翻訳され作成されている.このような翻訳作業を支援するために,我々は過去の翻訳用例を検索する「多言語用例提示システム」の開発を行っている.精度の良い検索を実現するためには,検索キーワードとなりうる単語,すなわち,内容語の認定が重要である.しかしながら,内容語 (あるいは機能語) を認定するには辞書が必要となるが,様々な言語に対して辞書を用意することは困難である.そこで,本稿では,言語が持つ統計的特徴を利用し辞書を使わない手法について述べる.また,8つの言語 (日本語,英語,フランス語,スペイン語,ロシア語,イタリア語,インドネシア語,マレー語) に対して行った,機能語認定の実験結果について報告する.NHK provides news services in 18 languages, translating Japanese news articles into English and those ones into other languages. To aid such translation work, we have been developing a translation example browser that retrieves examples similar to inputs from multi-lingual news corpora. The browser has to identify function words(or content words) in inputs by using machine-readable dictionaries to retrieve appropriate examples. However those dictionaries are difficult to be prepared for the browser in various languages. This paper proposes automatic identification methods of function words using statistic features common to many languages. We conduct a series of experiments in 8 languages, such as Japanese, English, French, Spanish, Russian, Italian, Indonesian language and Murray language.
著者
美野 秀弥 伊藤 均 後藤 功雄 山田 一郎 徳永 健伸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.4, pp.1162-1183, 2021 (Released:2021-12-15)
参考文献数
34

本稿では,文脈を考慮したニューラル機械翻訳の精度向上のため,目的言語側の前文の参照訳と機械翻訳結果の両方を文脈情報として用いる手法を提案する.文脈として,原言語側または目的言語側の周辺の文が利用できるが,目的言語側の周辺の文を用いる手法は翻訳精度が下がることが報告されている.目的言語側の文脈を利用したニューラル機械翻訳では,学習時は参照訳を用い,翻訳時は機械翻訳結果を用いるため,参照訳と機械翻訳結果の特徴の異なり(ギャップ)が原因の 1 つと考えられる.そこで,学習時と翻訳時の目的言語側の文脈情報のギャップを緩和するために,学習時に用いる目的言語側の文脈情報を学習の進行に応じて参照訳から機械翻訳結果へ段階的に切り替えていく手法を提案する.時事通信社のニュースコーパスを用いた英日・日英機械翻訳タスクと,IWSLT2017 の TED トークコーパスを用いた英日・日英,および英独・独英機械翻訳タスクの評価実験により,従来の目的言語側の文脈を利用した機械翻訳モデルと比較して,翻訳精度が向上することを確認した.
著者
後藤 功雄 田中 英輝
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.5, pp.577-597, 2018-12-15 (Released:2019-03-15)
参考文献数
21

ニューラル機械翻訳 (NMT) は入力文の内容の一部が翻訳されない場合があるという問題があるため,NMT の実用には訳出されていない内容を検出できることが重要である.著者らはアテンションの累積確率と出力した目的言語文から入力文を生成する逆翻訳の確率という 2 種類の確率による,入力文の内容の欠落に対する検出効果を調査した.日英の特許翻訳での訳抜けした内容の検出実験を実施し,アテンションの累積確率と逆翻訳の確率はいずれも効果があり,逆翻訳はアテンションより効果が高く,これらを組み合わせるとさらに検出性能が向上することを確認した.また,訳抜けの検出を機械翻訳結果の人手修正のための文選択に応用した場合に効果があることが分かった.
著者
後藤 功雄 加藤 直人 田中 英輝 江原暉将 浦谷則好
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.3, pp.968-979, 2006-03-15
参考文献数
22

カタカナで表記された外国人名の英訳語を,関連語をキーワードとする言語横断情報検索と,発音類似性を利用した訳語推定により,World Wide Web(WWW)文書から獲得する手法を提案する.ニュース記事に出現する人名は新出語であることが多く,対訳辞書に登録されていない場合も多い.提案手法は,カタカナの外国人名が文書中に存在した場合,はじめにその周辺の単語を対訳辞書によって英訳し,これらをキーワードとして英語のWWW 文書検索を行う.次に,検索されたWWW 文書中から人名候補となる英単語列を翻字により変換し,発音が類似した英単語列を訳語とする.ニュース記事に出現した外国人名を対象として本手法による実験を行い,有効性を確認した.This paper proposes a method of acquiring English equivalents of foreign personal names written in katakana characters from the World Wide Web (WWW). In news articles, new foreign personal names appear frequently and are rarely registered in bilingual dictionaries. Our method can automatically obtain the English equivalents of personal names by using two phases: cross-language information retrieval using related words and acquisition of translation based on phonetic similarity. In the first phase, given a katakana foreign personal name appearing in a news article, the method extracts words related to the foreign personal name, translates these words into English using bilingual dictionaries, and retrieves WWW documents in English using the translated words as keywords. In the second phase, our method extracts candidates of English equivalents from the retrievedWWWdocuments, transliterates the candidates to phonetic expressions, compares them with the phonetic expression of the personal name written in katakana, and obtains the most similar one as the English equivalent. We confirmed the effectiveness of our method with a series of experiments using foreign personal names appearing in news articles.