- 著者
-
R・TINOCO Antonio
- 出版者
- 上智大学
- 雑誌
- 基盤研究(C)
- 巻号頁・発行日
- 2015-04-01
本プロジェクトの目的はスペイン語の変異言語学的な研究で、そのアプローチとしてインターネット上のソーシアルメディア(主にツイッター)のデータをStreaming APIを利用し、 自動的に収集し、大規模なコーパスを作成することにより、広大なスペイン語圏のスペイン語の語彙と文法の地理的な分析をすることである。利用するデータベースに関してはSQL系(MySQL)とNoSQL系(Elastic Stack)を両方テストした。地理的な情報(経度、緯度)が含まれるデータはMySQLのデータベースに蓄積し、他の言語も含まれるデータはNoSQL系のデータベースに蓄積し、目的により使い分けることにしている。例えば、米国のスペイン語と英語の接触、あるいはスペインのスペイン語とカタルーニャ語の言語接触の現象を研究するために、可能な範囲で他の言語もNoSQL系のデータベースで蓄積した。Elastic StackのようなNoSQL系のデータベースは、ツイッターのJSONフォーマットをそのまま処理できるので、Kibanaなどで基本的な可視化もできる。しかし、言語地図の作成はGIS専用のQGISで行う。このような方法で集めたデータによってスペイン語の具体的な語彙と文法のバリエーションの共時的な研究が可能になった。例えば、語彙のバリエーションとしてはメキシコのcobija、apapacharなど、ベネズエラのpiche、arrecheraなど、またはアルゼンチンではgauchar、mina、またはa mi lado es un porotoのような独特な言い回しを、地理的な分布および用法についても調べることが可能になった。また、hicisteとhicistesのように過去形の二人称で見られるバリエーション現象も量的な分析と、その分布を示す言語地図を作成することも可能である。