著者
望月朝香 鈴木 泰博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告バイオ情報学(BIO) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.128, pp.179-182, 2007-12-21

文章を読んだ後に「著者らしい雰囲気のする文章だった」と感じる経験はよくある。この目に見えない「雰囲気」、即ち作者特有の文体印象について、小説のテキストデータを数量化し分析することで考える。文体印象を醸し出す要素は様々考えられるが、本研究では①句読点の分布、②読みでの文字数、③文章表現方法・多頻出言語、の 3 項目に着目する。句読点の使い方に著者特有の文構造が、読みでの文字数では頭の中のリズム、文章表現方法・多頻出言語から著者の愛用語や単語使用方法の癖が現れ、文体印象の要素となるためである。本論文では作者の特徴の抽出に相当する①と②について行う。かかる特徴付けを行い文体や作家の雰囲気を数量化することで、雰囲気を用いた文献検索を可能にし、また作者不詳の歴史文献の作者特定へ応用することが可能である。The experience to feel when it "was the sentence to do of the atmosphere like the author" happens quite often after having read a novel. I consider "an atmosphere peculiar to an author" that this sight does not show, and analyzing the text data of the novel by amount becomes it. I think that it enable the document retrieval that we used an atmosphere for and do that I do quantification of the atmosphere of a writing style and the writer. In addition, I think that we can apply it to the author identification of author unknown history documents.