著者
長谷部 陽一郎
出版者
同志社大学
雑誌
言語文化 (ISSN:13441418)
巻号頁・発行日
vol.9, no.2, pp.373-403, 2006-12
被引用文献数
1 2

近年、コーパスを用いた言語研究の手法に多くの注目が集まっている。英語に関しては以前から、British National Corpusをはじめ、大規模なコーパスが複数存在している。また日本語を含む他のいくつかの言語に関しても、これらに匹敵する規模のコーパスの構築が進められている。しかし現時点で、研究者が自由に利用できる日本語コーパスの選択の幅は非常に限られている。要因としては、テキストデータの著作権に関する問題と、それに付随する様々な制約といったものが挙げられる。 このような状況を鑑み、本稿ではオープンソース-すなわち著作権フリーで再配布・改良自由の形式-で提供されるインターネット百科事典サイトWikipedia日本語版のデータをコーパスとして用いることを提案する。また、Wikipediaのアーカイブファイルから言語学的に有用なデータを抽出するために筆者が開発したツールキットを紹介し、解説を行う。本稿で解説するツールキットはプログラミング言語Rubyを用いて作成されており、2つのプログラムから成る。第1のプログラムwp2txt.rbは、オリジナルのXMLデータから各種のタグ類を除去するとともに、指定されたサイズのテキストファイルにデータを分割する。第2のプログラムmconc.rbは、入力ファイル中のデータを文ごとに分割するとともに、オープンソースの形態素解析システムMeCabを用いて、あらかじめ正規表現(Regular Expressions)で指定された形態素パターンとマッチするものだけをCSV形式で出力する。これにより、例えば「このツールは言語分析にかかる時間と労力を省く」といった文字列を抽出するのに、〈時間と労力を省く〉のような表層形式だけでなく、〈名詞+助詞+名詞+助詞+動詞〉のような品詞の並びによる指定や、〈時間と労力+助詞+動詞〉といったミックス形式での指定が可能になる。 Wikipedia日本語版を活用することにより、最低限の環境を整えるだけで、用例採取や言語現象の定量的分析のための大規模コーパスが得られる。また、同一の言語データを異なる研究者やプロジェクト間で共有することができる。つまり、Wikipediaコーパスは、追試・修正・拡張・応用といった試みに対し、完全に開かれた研究資源を提供するのである。このことは、日本語を対象とする様々な言語研究の可能性を大きく広げると考えられる。
著者
長谷部 陽一郎
出版者
同志社大学
雑誌
言語文化 (ISSN:13441418)
巻号頁・発行日
vol.12, no.2, pp.[395]-420, 2009-12

研究ノート(Note)構文文法の視点から言語習得のメカニズムを記述するため計算的な手法を用いることの有用性と意義を示す。この目的のために本稿ではまず、構文文法と計算機プログラミングにおけるオブジェクト指向の考え方との関係について論じる。また、構文文法の理論的枠組が関数の重ね合わせによって記述できることについて触れる。本稿の後半では言語習得研究に寄与する可能性を持つ2つの具体的な分析手法を導入する。第一の手法は形式概念分析(FCA)を応用したもので、これまで多分に理論的な概念として扱われてきた構文間ネットワークに数学的に厳密な定義を与えるとともに、それをグラフ構造として可視化する。第二の手法はパターン・ラティス理論を用いたものであり、子供が構文習得の過程で出会う様々な潜在的パターンを抽出し、相互関係を明示化する。以上の議論と提案によって、これまで認知言語学などの領域では必ずしも広く認識されてこなかった構文文法と計算的手法との高い親和性が明らかとなる。This paper argues for the benefits of adopting computational methods in studying language acquisition mechanisms within the framework of Construction Grammar. First, the paper discusses the object-oriented and function-oriented facets of the computational nature of Construction Grammar. Upon this theoretical foundation, two new methods of language data processing are introduced. The first method, a technique utilizing Formal Concept Analysis (FCA), makes it possible to visualize the conceptual network hidden inside the real data. The second technique utilizes Pattern Lattice Theory to clarify the multiple overlapping sub-constructions that are supposedly acquired by a child before he or she masters a construction. Through these discussions and proposals, this paper argues against the myth that the framework of Construction Grammar is in conflict with, or is not compatible with, computational methodologies.