著者
黒田 絢香 Kuroda Ayaka クロダ アヤカ
出版者
大阪大学大学院言語文化研究科
雑誌
言語文化共同研究プロジェクト
巻号頁・発行日
vol.2016, pp.23-41, 2017-05-31

テクストマイニングとデジタルヒューマニティーズThis study attempts to provide a new perspective for literary studies through quantitative investigation of words in texts with special reference to word frequency patterns. Two types of machine-learnin g analyses are conducted to find differences between historical fiction and detective fiction of Sir Arthur Conan Doyle. While Conan Doyle is well-known for the Sherlock Holmes series, his strong inclination for historical fiction has hardly been recognized. A number of studies have carried out to examin e personalities of characters or estimate the dates of composition for some of the texts that belong to the Holmes series. Few studies, however, have focused on Doyle's hi sto rical fiction. Still less critical attention has been paid to stylistic aspects of his novels and short stories. Machine-learning approaches made it possible to highlight linguistic/stylistic features that distinguish Doyle's historical fiction from his detective fiction. We used Random forests to show genre-specific'keywords', or words with a high keyness value so as to discriminate between the two categories of texts. MALLET was used in conjunction to build topic models based on Latent Dirichle t allocation (LDA). What emerges from our analyses are linguistic features that differentiate between the two text genres.本研究では,Arthur Conan Doyle の推理小説と歴史小説を対象とし,その語彙頻度や生起パターンを計量的に分析することで,作品の特徴やジャンル間の違いを考察する。これまで客観的なデータに基づく分析が行われていなかった作家の作品を量的な観点から考察することで,文学研究に新たな視点を提案することが目的である。推理小説と歴史小説を区別する言語的特徴を検討するため, Random Forests を用いて機械的な分類を試み,分類に寄与したキーワードを抽出する。次にMALLETを用いたトピックモデリングを行い,結果をネットワークグラフに表す。どのような語がトピックを構成しているのか,両者がそれぞれどのようなトピックを持っているかグラフをもとに考察し,その差を検討する。以上の結果から,ジャンル間の相違を反映する特徴を明らかにする。