著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.1, pp.67-73, 2006-01-13
被引用文献数
28 25

本稿では、高性能計算環境を利用して、Webから大規模テキストコーパスを抽出し、格フレームを構築する方法について述べる。格フレームは人間のもっている常識的な知識のうちもっとも基本的なものであり、これを自動構築するには大規模かつ偏りのないテキストが必要となる。そこで、Webから日本語文を抽出することによって大規模コーパスを作成し、それを用いて格フレームを構築するということを行う。約4億Webぺ-ジから約5億文からなるテキストコーパスを作成し、さらにこのコーパスから約9万用言からなる格フレームを構築した。これらのプロセスは、巨大なデータを扱うため1つの計算機で行えば数年を要し現実的ではないことから、約350CPUからなる高性能計算環境を利用することによって実現した。This paper describes a method of constructing a wide-coverage case frames from the Web. To obtain such knowledge, an enormous amount of balanced corpus is required. We consider the Web as a balanced corpus, and first build a huge text corpus from the Web. We then construct case frames from the corpus. It is infeasible to do these processes by one CPU, and so we employ a high-performance computing environment. The acquired corpus and case frames are extremely larger than previously built corpora and case frames. The resultant case frames contain most examples of usual use, and are ready to be applied to lots of NLP applications.

言及状況

Twitter (1 users, 11 posts, 0 favorites)

こんな論文どうですか? 高性能計算環境を用いたWebからの大規模格フレーム構築(河原 大輔ほか),2006 http://t.co/hpYdGUZPUd
こんな論文どうですか? 高性能計算環境を用いたWebからの大規模格フレーム構築(河原 大輔ほか),2006 http://t.co/hpYdGUZPUd
こんな論文どうですか? 高性能計算環境を用いたWebからの大規模格フレーム構築(河原 大輔ほか),2006 http://t.co/hpYdGUZPUd
こんな論文どうですか? 高性能計算環境を用いたWebからの大規模格フレーム構築(河原 大輔ほか),2006 http://t.co/hpYdGUZPUd
こんな論文どうですか? 高性能計算環境を用いたWebからの大規模格フレーム構築(河原 大輔ほか),2006 http://t.co/hpYdGUZPUd
こんな論文どうですか? 高性能計算環境を用いたWebからの大規模格フレーム構築(河原 大輔ほか),2006 http://t.co/hpYdGUZPUd
こんな論文どうですか? 高性能計算環境を用いたWebからの大規模格フレーム構築(河原 大輔ほか),2006 http://t.co/hpYdGVhriN
こんな論文どうですか? 高性能計算環境を用いたWebからの大規模格フレーム構築(河原 大輔ほか),2006 http://t.co/hpYdGUZPUd
こんな論文どうですか? 高性能計算環境を用いたWebからの大規模格フレーム構築(河原 大輔ほか),2006 http://t.co/hpYdGUZPUd
こんな論文どうですか? 高性能計算環境を用いたWebからの大規模格フレーム構築(河原 大輔ほか),2006 http://t.co/hpYdGUZPUd
こんな論文どうですか? 高性能計算環境を用いたWebからの大規模格フレーム構築(河原 大輔ほか),2006 http://t.co/hpYdGUZPUd

収集済み URL リスト