著者
浅原 正幸 河原 一哉 大場 寧子 前川 喜久雄
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.299-305, 2018-02-15

国立国語研究所は言語研究に資する258億語規模のウェブコーパス『国語研ウェブコーパス』を構築した.コーパスの構築は,ページ収集・言語解析・保存・検索系の構築の4種類の部分工程からなる.本稿では,『国語研ウェブコーパス』を概説するとともに,その検索系である『梵天』の機能について紹介する.この検索系は100億語規模のテキストコーパスを文字列だけでなく,形態素列・係り受け部分木に基づく問合せが可能である.