著者
魏 小比
出版者
Waseda University
巻号頁・発行日
2005-02-02

JPドメインのWEBサイトにも中国語ドキュメントが多く存在するが、あまり有効利用されていないのが現実である。中国語ページを抽出できれば、中国語を扱う人々に便利さをもたらすと共に、統計・語学・検索エンジンのデータベースなど様々な応用研究もできる。文字コードの多様化につれ、ファイルから言語を判別するのは、もはや文章の意味解析を切口にしなければならなくなった。この研究では、形態素解析ツール茶筌を使用し、早稲田大学(88,634 pages)と北京大学(25,421 pages)のWEBページを全面的に分析し、単語の品詞種類と一文字で区切られる形態素の割合から中国語文章の特徴を突き止め、JPドメインにある多国語の混在しているHTMLファイルから中国語で書かれたページを抽出する手法を考案し、実行する事に成功した。また、その延長である様々な応用の可能性についても述べている。