著者
北 研二 山口 直宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.99, pp.127-134, 1998-11-05
被引用文献数
1

World Wide Web (WWW)上には、膨大なテキスト情報が蓄積されており、同一の内容を複数の言語で提供しているページも数多く存在する。これらのWWW上の対訳ページを利用し、対訳コーパスを自動的あるいは半自動的に構築することができれば、コーパス作成に要する人的資源、時間、費用などを大幅に削減することができる。我々は、WWWから日本語と英語の対訳データを自動収集する実験的なシステムを構築した。本稿では、このシステムの概要について紹介する。The World Wide Web provides almost unlimited accesses to the textual documents and it also contains parallel pages in many languages. In this paper, we focus on the problem of automatically compiling multilingual translations from the Web. As a first step towards Web-based automatic multilingual corpus creation, we developed an experimental system for compiling Japanese and English translation pairs from the actual Web page documents. In this paper, we describe the system architecture as well as some experimental results.