著者
水田 貴章 柴田 雅博 冨浦洋一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.113, pp.91-98, 2008-11-19

コーパスベースで言語知識を獲得する場合には,その言語の大規模なコーパスが必要となる.Web 上には多種の言語で書かれた膨大な数の文書が存在するため,そこから文書を収集することによって様々な言語の大規模コーパスの構築が可能である.このとき,言語ごとのコーパスを構築するためには,まず,収集文書がどの言語で書かれているかを識別する必要がある.本論文では,仮説検定を導入した言語識別手法を提案する.この手法により,長い byte 列を用いた場合でも統計的な揺らぎの影響が小さい言語識別が可能となる.実験の結果,従来手法では識別が難しかった小さなサイズの文書に対しても高い精度で言語識別を行えることが確認できた.To get language knowledge based on a corpus, we need a large number of documents written in the language. In the web, there are a huge number of documents written in various languages, and we can construct corpora of various languages easily by gathering each language's documents from the web.The first step to construct corpora in this way is to identify the language of each gathered document.In this paper, we propose a language identification method using statistical hypothesis testing. The method is robust against the statistical fluctuation even when we use long and low-frequency symbol sequences as language features. Through experiments, the proposed method identified languages of short documents accurately, which the previous methods could not.