著者
今村 賢治 越前谷 博 江原 暉将 後藤 功雄 須藤 克仁 園尾 聡 綱川 隆司 中澤 敏明 二宮 崇 王 向莉
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.3, pp.925-985, 2022 (Released:2022-09-15)
参考文献数
203

本解説論文では,特許を対象とした機械翻訳における種々の課題に対する関連技術の解説を行う.特許に対する機械翻訳は実用的にも学術的にも長い歴史を持つが,ニューラル機械翻訳の登場で新たな段階に進んできたと言える.そうした動向を踏まえ,訳抜け・過剰訳への対策,用語訳の統一,長文対策,低リソース言語対対策,評価,翻訳の高速化・省メモリ化,の6項目に分けて近年の関連技術を紹介し,今後の方向性を論じる.
著者
長谷川 隆明 西川 仁 今村 賢治 菊井 玄一郎 奥村 学
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.133-143, 2010 (Released:2010-01-06)
参考文献数
16
被引用文献数
2

Recently, web pages for mobile devices are widely spread on the Internet and a lot of people can access web pages through search engines by mobile devices as well as personal computers. A summary of a retrieved web page is important because the people judge whether or not the page would be relevant to their information need according to the summary. In particular, the summary must be not only compact but also grammatical and meaningful when the users retrieve information using a mobile phone with a small screen. Most search engines seem to produce a snippet based on the keyword-in-context (KWIC) method. However, this simple method could not generate a refined summary suitable for mobile phones because of low grammaticality and content overlap with the page title. We propose a more suitable method to generate a snippet for mobile devices using sentence extraction and sentence compression methods. First, sentences are biased based on whether they include the query terms from the users or words that are relevant to the queries, as well as whether they do not overlap with the page title based on maximal marginal relevance (MMR). Second, the selected sentences are compressed based on their phrase coverage, which is measured by the scores of words, and their phrase connection probability measured based on the language model, according to the dependency structure converted from the sentence. The experimental results reveal the proposed method outperformed the KWIC method in terms of relevance judgment, grammaticality, non-redundancy and content coverage.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14
参考文献数
20
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
今村 賢治 隅田 英一郎
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-241, no.1, pp.1-8, 2019-08-22

本稿では,事前訓練済みの BERT (Bidirectional Encoder Representations from Transformer) モデルを Transformer ベースのニューラル機械翻訳 (NMT) に適用する.単言語のタスクと異なり,NMT の場合,BERT のモデルパラメータ (訓練済み) に比べ,デコーダー (未学習) のパラメータ数が多い.そこで,まず BERT エンコーダーのパラメータを固定して,未学習パラメータのみを訓練し,その後,全体を微調整する 2 段階最適化を行う.実験では,直接微調整したときには BLEU スコアが極めて低くなったのに対して,2 段階最適化では訓練が成功した.その結果,Transformer の基本モデルや,モデル構造が同じ事前訓練なしの Transformer に比べても BLEU スコアが向上することが確認された.また,少資源設定で,より効果が高いことが確認された.
著者
今村 賢治 齋藤 邦子 貞光 九月 西川 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.381-400, 2012-12-14 (Released:2013-03-19)
参考文献数
20
被引用文献数
1

本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
著者
今村 賢治 堀井 統之 大山 芳史
雑誌
全国大会講演論文集
巻号頁・発行日
vol.46, pp.109-110, 1993-03-01

電報等のメッセージの中には、我々が読んだとき、送り手の性別を感じさせるものがある。例えば、「おまえもがんばれよ」という句が入ったメッセージの送り手の性別には男情、「あなたもがんばってね」という句なら女性と感じることができる。このように、同じ意味であるにも関わらず、送り手の性別の違いを感じるということは、メッセージに何らかの言語的特徴があることを示している。本塙では、言語表現という特徴を用いて、メッセージの送り手の性別を判定する方式について検討した結果を報告する。