著者
和田 毅 上田 博人 R・TINOCO Antonio
出版者
東京大学
雑誌
基盤研究(B)
巻号頁・発行日
2015-07-10

本研究は、暴力的紛争(暴動・民族浄化・集団虐殺・内戦など)の勃発を予知するシステムを構築するために、①理論的な枠組みの整理、②リアルタイムで分析可能なイベント・データ・システムの構築、③イベント・データを分析し、紛争の予知に役立てる統計モデルの開発、の3つの作業を同時に進めている。今年度の研究実績は以下の通りである。「①理論的な枠組みの整理」については、大学院生を含む作業チームがこれまで同様に作業を進めた。2017年11月には、社会運動や紛争に関する大学院生の研究発表をメキシコにて実施した。「②リアルタイムで分析可能なイベント・データ・システムの作成」については、その作業を継続した。スペイン在住のスペイン語自然言語処理の専門家と共同研究の形で作業を進めた。同時に、自然言語処理の専門家以外の研究者もこの手法を理解し応用できるようにするため、ワークショップを開催した。Global Event Data System (GEDS) Seminar Series: "Big Data and Natural Language Processing in the Social Sciences & Humanities"と名付けたワークショップでは、国内外から講師を迎え、自然言語処理の様々な側面についての講義・訓練を7回にわたって実施した。さらに、リアルタイムで自動的に作成されるイベント・データの質や精度を検証するために、人力でコード化を行うパラレル・データの作成も開始した。11月にメキシコにて、スペイン語新聞記事をコード化する作業を国際共同研究の形で実施した。「③イベント・データの分析と統計モデルの開発」作業に関しては、分析作業を継続して行い、5月のLatin American Studies Associationにて国際共同研究チームを結成して、イベント分析の成果報告を行った。
著者
R・TINOCO Antonio
出版者
上智大学
雑誌
基盤研究(C)
巻号頁・発行日
2015-04-01

本プロジェクトの目的はスペイン語の変異言語学的な研究で、そのアプローチとしてインターネット上のソーシアルメディア(主にツイッター)のデータをStreaming APIを利用し、 自動的に収集し、大規模なコーパスを作成することにより、広大なスペイン語圏のスペイン語の語彙と文法の地理的な分析をすることである。利用するデータベースに関してはSQL系(MySQL)とNoSQL系(Elastic Stack)を両方テストした。地理的な情報(経度、緯度)が含まれるデータはMySQLのデータベースに蓄積し、他の言語も含まれるデータはNoSQL系のデータベースに蓄積し、目的により使い分けることにしている。例えば、米国のスペイン語と英語の接触、あるいはスペインのスペイン語とカタルーニャ語の言語接触の現象を研究するために、可能な範囲で他の言語もNoSQL系のデータベースで蓄積した。Elastic StackのようなNoSQL系のデータベースは、ツイッターのJSONフォーマットをそのまま処理できるので、Kibanaなどで基本的な可視化もできる。しかし、言語地図の作成はGIS専用のQGISで行う。このような方法で集めたデータによってスペイン語の具体的な語彙と文法のバリエーションの共時的な研究が可能になった。例えば、語彙のバリエーションとしてはメキシコのcobija、apapacharなど、ベネズエラのpiche、arrecheraなど、またはアルゼンチンではgauchar、mina、またはa mi lado es un porotoのような独特な言い回しを、地理的な分布および用法についても調べることが可能になった。また、hicisteとhicistesのように過去形の二人称で見られるバリエーション現象も量的な分析と、その分布を示す言語地図を作成することも可能である。