著者
木下 明徳 後藤 功雄 熊野 正 加藤 直人 田中 英輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.113, pp.81-86, 2007-11-20
参考文献数
8

NHK の国際放送では 18 ケ国語が使われており,それらの放送用原稿は,日本語の原稿やその英訳原稿が翻訳され作成されている.このような翻訳作業を支援するために,我々は過去の翻訳用例を検索する「多言語用例提示システム」の開発を行っている.精度の良い検索を実現するためには,検索キーワードとなりうる単語,すなわち,内容語の認定が重要である.しかしながら,内容語 (あるいは機能語) を認定するには辞書が必要となるが,様々な言語に対して辞書を用意することは困難である.そこで,本稿では,言語が持つ統計的特徴を利用し辞書を使わない手法について述べる.また,8つの言語 (日本語,英語,フランス語,スペイン語,ロシア語,イタリア語,インドネシア語,マレー語) に対して行った,機能語認定の実験結果について報告する.NHK provides news services in 18 languages, translating Japanese news articles into English and those ones into other languages. To aid such translation work, we have been developing a translation example browser that retrieves examples similar to inputs from multi-lingual news corpora. The browser has to identify function words(or content words) in inputs by using machine-readable dictionaries to retrieve appropriate examples. However those dictionaries are difficult to be prepared for the browser in various languages. This paper proposes automatic identification methods of function words using statistic features common to many languages. We conduct a series of experiments in 8 languages, such as Japanese, English, French, Spanish, Russian, Italian, Indonesian language and Murray language.