著者
浅原 正幸 河原 一哉 大場 寧子 前川 喜久雄
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.299-305, 2018-02-15

国立国語研究所は言語研究に資する258億語規模のウェブコーパス『国語研ウェブコーパス』を構築した.コーパスの構築は,ページ収集・言語解析・保存・検索系の構築の4種類の部分工程からなる.本稿では,『国語研ウェブコーパス』を概説するとともに,その検索系である『梵天』の機能について紹介する.この検索系は100億語規模のテキストコーパスを文字列だけでなく,形態素列・係り受け部分木に基づく問合せが可能である.
著者
大場光一郎 大場寧子 須藤功平
雑誌
デジタルプラクティス
巻号頁・発行日
vol.2, no.1, pp.36-44, 2011-01-15

XML処理をRubyを使って行うときの第一の課題は, XMLを正しく処理し目的を達成することであるが,もう一つの大きな課題は, Rubyの特性を活かし,オブジェクト指向的に美しい設計を行い,プログラムのインターフェイスを直感的で使いやすくすることである.本稿では,ライブラリRSS Parser の開発を通じてこれら2つの課題にどのように取り組んだかについての経験を通して,広くRubyにおけるXML処理の設計・実装について考慮すべき事柄について論じる.ことに,現在国内では開発者が最も多く,実際の開発に頻繁に使われているJavaとの対比を通し,Rubyの特性を活かした設計についての知見を述べる.