著者
魏 小比
出版者
Waseda University
巻号頁・発行日
2005-02-02

JPドメインのWEBサイトにも中国語ドキュメントが多く存在するが、あまり有効利用されていないのが現実である。中国語ページを抽出できれば、中国語を扱う人々に便利さをもたらすと共に、統計・語学・検索エンジンのデータベースなど様々な応用研究もできる。文字コードの多様化につれ、ファイルから言語を判別するのは、もはや文章の意味解析を切口にしなければならなくなった。この研究では、形態素解析ツール茶筌を使用し、早稲田大学(88,634 pages)と北京大学(25,421 pages)のWEBページを全面的に分析し、単語の品詞種類と一文字で区切られる形態素の割合から中国語文章の特徴を突き止め、JPドメインにある多国語の混在しているHTMLファイルから中国語で書かれたページを抽出する手法を考案し、実行する事に成功した。また、その延長である様々な応用の可能性についても述べている。

言及状況

Twitter (2 users, 3 posts, 0 favorites)

2004年度の某w大学の修士論文なんですけど、6章とか7章は何も完成してないですね(^_^;) これは、未完成のものを間違えてアップしてしまったのかな? これで修論が通るとは思えないのですが(^_^;) http://t.co/x3hI6K3XPK
これさすがに最終版じゃないよね?“@kanaya: 読んでる→ http://t.co/UVdSRnUsDt JPドメインにおける 茶筌を用いた中国語ページの抽出”
読んでる→ http://t.co/UVdSRnUsDt JPドメインにおける 茶筌を用いた中国語ページの抽出

収集済み URL リスト