著者
Marie KATSURAI Ikki OHMUKAI Hideaki TAKEDA
出版者
一般社団法人 電子情報通信学会
雑誌
IEICE Transactions on Information and Systems (ISSN:09168532)
巻号頁・発行日
vol.E99.D, no.4, pp.1010-1018, 2016-04-01 (Released:2016-04-01)
参考文献数
33
被引用文献数
6

It is crucial to promote interdisciplinary research and recommend collaborators from different research fields via academic database analysis. This paper addresses a problem to characterize researchers' interests with a set of diverse research topics found in a large-scale academic database. Specifically, we first use latent Dirichlet allocation to extract topics as distributions over words from a training dataset. Then, we convert the textual features of a researcher's publications to topic vectors, and calculate the centroid of these vectors to summarize the researcher's interest as a single vector. In experiments conducted on CiNii Articles, which is the largest academic database in Japan, we show that the extracted topics reflect the diversity of the research fields in the database. The experiment results also indicate the applicability of the proposed topic representation to the author disambiguation problem.
著者
小川 潤 大向 一輝 Jun Ogawa Ikki Ohmukai
雑誌
人工知能学会研究会資料
巻号頁・発行日
vol.53, no.6, pp.06-01-06-10, 2021-03-15

ナレッジグラフの歴史学研究への応用は近年、プロソポグラフィ研究やバイオグラフィ研究を中心に進展している。しかしこれらの研究の多くは、すでに伝統的な手法によって為された二次的な研究成果を対象としたものであり、一次史料の内容そのものを記述するものでは必ずしもない。今後、歴史学研究におけるナレッジグラフ活用をさらに深いレベルで促進するためには、一次史料そのものの知識構造化を進める必要がある。こうした構造化に適用可能なオントロジーとしてはすでにFactoidモデルが提案されているが、このモデルは時間的コンテキストや曖昧性の表現に十分に対応しているとは言えず、曖昧性の大きい史料記述については課題が残る。そこで本研究はFactoidモデルを拡張し、出来事の前後関係に基づいて時間的コンテキストや曖昧性を表現可能なモデルを提案したうえで、曖昧性の大きい古代史史料を事例として実際に提案モデルを適用し、データ構築および検索性の検証を行った。
著者
Marie KATSURAI Ikki OHMUKAI Hideaki TAKEDA
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
IEICE TRANSACTIONS on Information and Systems (ISSN:09168532)
巻号頁・発行日
vol.E99-D, no.4, pp.1010-1018, 2016-04-01

It is crucial to promote interdisciplinary research and recommend collaborators from different research fields via academic database analysis. This paper addresses a problem to characterize researchers' interests with a set of diverse research topics found in a large-scale academic database. Specifically, we first use latent Dirichlet allocation to extract topics as distributions over words from a training dataset. Then, we convert the textual features of a researcher's publications to topic vectors, and calculate the centroid of these vectors to summarize the researcher's interest as a single vector. In experiments conducted on CiNii Articles, which is the largest academic database in Japan, we show that the extracted topics reflect the diversity of the research fields in the database. The experiment results also indicate the applicability of the proposed topic representation to the author disambiguation problem.