- 著者
-
宮部 真衣
吉野 孝
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. AI, 人工知能と知識処理 (ISSN:09135685)
- 巻号頁・発行日
- vol.108, no.325, pp.85-90, 2008-11-20
機械翻訳を用いたコミュニヶーションにおいて,翻訳リペアは不適切な翻訳箇所を減少させるための方法として重要な役割を果たす.翻訳リペア作業はユーザへの負担が大きいため,修正の必要な単語の類義語や関連語を提示することによる言い換え作業の支援が必要である.しかし,提示数が多い場合,適切なものを選び出すことは容易ではないと考えられる.本稿では,より適切な言い換え候補の抽出のためにWeb日本語Nグラムを用いたフィルタリングを提案する.また,2-gramおよび3-gramのデータを利用し,前方品詞2-gram,後方品詞2-gram,3-gramの3種類の単語の組み合わせによるフィルタリング実験を行い,以下の知見を得た.(1)Web日本語Nグラムを用いたフィルタリングにより,90%前後の単語について,言い換え候補を7語未満に絞り込むことができており,多数の候補を絞り込むことができる可能性がある.(2)閾値を0とした場合,3-gramによるフィルタリングにおいて抽出失敗率が最も高く(34.4%),後方品詞2-gramが最も低く(15.9%)なった.また,除外失敗率については前方品詞2-gramが最も高く(52.7%),3-gramが最も低く(28.6%)となった.(3)複数品詞により構成される言い換え候補については形態素解析を行い,言い換え候補の構成品詞数に応じて利用するNグラムデータを変更することで,抽出失敗を減少できる可能性がある.