- 著者
-
朝尾 幸次郎
- 出版者
- 立命館大学
- 雑誌
- 基盤研究(C)
- 巻号頁・発行日
- 2002
(1)日本語と英語を対応させたテキストをデータとして、日本語から英語を、英語から日本語を検索するパラレル・コーパスを構築した。構築したコーパスは日本国憲法、教育基本法など著作権がない公的なもののほか、『朝日新聞』の「天声人語」と「社説」、『エヌ氏の遊園地』(星新一)、『窓ぎわのトットちゃん』(黒柳徹子)など日英語でデータが得られるものである。(2)日英語で意味を対応させる方法として「最短一致の原則」を提案した。センテンスを単位に対応させてゆき、対応する意味のまとまりが最短になるように切り分ける方法である。(3)検索プログラムはコマンドラインから利用する研究用のものの他、Perl/CGIによりWebページから利用できる一般向けのものを開発した。テキストは両言語で対応がなされているものであれば、どのようなものでも利用可能な汎用パラレル・コーパス検索プログラムである。(4)パラレル・コーパスを用いた研究例として、「では」とthenの対応について調査を行った。「(それ)では」とthenは日英語で奇妙に入り組んでおり、これまでの辞書記述では十分でないことが知見として得られた。日本語で「(それ)では」と明示的に現れている場合でも英文テキストではそれが表に現れない場合が多い。英語でthenが用いられる場面ではそこに明確な根拠がある場合が多いようだ。(5)報告書ではパラレル・コーパス検索のさまざまな例を提示し、スクリプトを公開した。スクリプトには詳細な説明を付しており、改変を容易に行うことができる。報告書はスクリプトの解説と検索プログラムのマニュアルも兼ねている。(6)パラレル・コーパス関係で発表した成果を資料として添付した。