著者
劉 雪琴 金 明哲
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.27, no.3, pp.245-260, 2017-09-28 (Released:2017-11-24)
参考文献数
27

近年,テキストから抽出する文体的特徴の変化から筆者の感情や思想,精神状態などの変化を検討する研究が進んでいる.本稿では,脳の大患を経験した宇野浩二という作家の文体変化の時期を計量的アプローチにより分析することを目的とする.宇野浩二は日本の有名な作家であり,1927年に精神病にかかり,約6年間執筆活動を停止していた.1933年に文壇に復帰した宇野浩二の作風は著しく変化したと言われている.しかし,入院する前に発表された「日曜日」は,病後の作品と類似した特徴を示し,宇野浩二の文体は病気休養以前に既に変化し始めていた可能性が示唆されている.本稿では,宇野浩二が入院する直前に発表された作品を分析対象とし,判別分析法を用いて分析を行った.その結果,宇野浩二の文体は入院する前から既に変化し始めていたことがわかった.
著者
孫 昊 金 明哲
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.28, no.1, pp.3-14, 2018-02-27 (Released:2018-04-13)
参考文献数
35
被引用文献数
1

川端康成の少女小説における代筆問題は昔から指摘されており,中でも『花日記』は中里恒子の代筆という疑いが強い.本研究では計量文体学の方法を用いて,この小説の代筆問題に新たな解決策を提示する.本研究では,文章から抽出した文字・記号のbigram,形態素タグのbigram,文節パターンを特徴量とし,アダブースト(AdaBoost),高次元判別分析(HDDA),ロジスティックモデルツリー (LMT),サポートべクターマシン(SVM)とランダムフォレスト(RF)を用いて判別分析を行った.分析の結果,『花日記』は川端康成と中里恒子の共同執筆という結論に至った.
著者
柳 燁佳 金 明哲
出版者
日本分類学会
雑誌
データ分析の理論と応用 (ISSN:21864195)
巻号頁・発行日
vol.9, no.1, pp.1-11, 2020-08-01 (Released:2020-10-06)
参考文献数
19

菊池寛には代筆疑惑を持つ作品がいくつか存在し,連載小説「受難華」がそのなかの1 つである.本研究の目的は,「受難華」の真の著者を明らかにすることである.「受難華」の代筆疑惑は川端康成の証言によって発覚した.川端によれば,「受難華」は横光利一の代筆であるが,他に代筆説を支持する証拠がないため,「受難華」の代筆問題が未だに解決されていない. 本稿では,計量文体学のアプローチで「受難華」の代筆問題を検証した.具体的に,菊池寛と横光利一のそれぞれ32 作品と「受難華」の22 回分の連載(全集では69 節からなるが,ごく短い節もあるため,連載時の回単位で分割した)から集計した読点の打ち方,形態素の品詞タグのbigram と文節パターンの特徴量データに対して,階層的クラスター分析,主成分分析,そしてランダムフォレスト,サポートベクターマシンをはじめとする7 つの分類器を用いて統合的に著者判別を行った.その結果,「受難華」の各回は菊池寛の作品だという結論に至った.
著者
金 明哲
出版者
The Behaviormetric Society of Japan
雑誌
行動計量学 (ISSN:03855481)
巻号頁・発行日
vol.36, no.2, pp.89-103, 2009
被引用文献数
1

In this research, as a basis of studies regarding when certain works were written, an estimation was attempted using the works of Ryunosuke Akutagawa. In the experiment, two types of data sets were created from the text with part-of-speech tagging, and a comparative analysis was performed using three methods: Linear Regression, Support Vector Regression, and Random Forest Regression. As a result, when the works were written was estimated with rather high accuracy. The average of absolute value of estimation error and standard deviation was approximately 1.4 years. The order of high accuracy of estimation was Random Forest Regression, Support Vector Regression, and Linear Regression.
著者
中村 靖子 大平 英樹 金 明哲 池野 絢子 重見 晋也 葉柳 和則 中川 拓哉
出版者
名古屋大学
雑誌
基盤研究(B)
巻号頁・発行日
2019-07-17

本研究は、独伊仏日の四カ国語圏にまたがって愛国的文化運動や、公共芸術や文化遺産保護運動、文芸誌とその検閲などを対象とし、ファシズム期のスイス、イタリア、日本、フランスにおける集合的記憶の構成過程を辿ろうとする領域横断型の学際プロジェクトである。四つの言語圏における文化運動のオラリティ資料を介して、人間の社会に情動が広範なムーヴメントを創り出すメカニズムを考察しようとするものであり、伝統的な人文学が培ってきた文献研究のスキルとテキストマイニング手法が共同することにより上記の目的を達成することが可能になると期待できる。
著者
財津 亘 金 明哲
出版者
日本法科学技術学会
雑誌
日本法科学技術学会誌 (ISSN:18801323)
巻号頁・発行日
pp.678, (Released:2014-10-31)
参考文献数
28
被引用文献数
4

The effectiveness of identifying the author of an illegal document by using text mining was investigated. The suspected writing evaluated in this study was a claim of responsibility written by a 14-year-old boy, which stated that he committed the “Kobe child murders” in 1997. It was compared with control writings including confessions, and an essay that we knew were written by the same boy, as well as with irrelevant materials including various essays written by five junior high school students, and claims of responsibility in four past criminal cases. First, the writings in each document were digitalized and converted to text files. Then, the relative frequencies of bigram of letters, bigram of part-of-speech taggers, sentence lengths of each document, and rate of using Kanji, Hiragana, and Katakana were calculated. Results of sammon multi-dimensional scaling and hierarchical cluster analysis indicated that the text in the suspected writing was arranged identically or similarly to groups of texts in control materials, where they were arranged differently from groups of texts in irrelevant materials. In a separate analysis, the suspected writing was substituted with a document written by a different offender and we conducted the identical procedure described above. Results demonstrated that texts in the suspected writing were in a different form control and irrelevant texts. These results indicated the effectiveness of identifying an author by using text mining when examining forensic documents.
著者
財津 亘 金 明哲
出版者
日本行動計量学会
雑誌
行動計量学 (ISSN:03855481)
巻号頁・発行日
vol.46, no.2, pp.87-95, 2019 (Released:2020-03-31)
参考文献数
25

This study examined the difference between authors and the consistency in each author's writing styles, both were the basis of authorship verification. We analyzed 88 academic papers on psychology written by 22 authors and focused on the rates of “non-content words”, “bigram of parts-of-speech”, “bigram of postpositional particles”, “positioning of commas”, ”words before period”, and “Kanji, Hiragana, and Katakana” in the papers. Next, symmetric Kullback-Leibler divergence distances between the papers were calculated. To examine the author differences in writing styles, using hierarchical Bayesian modeling, we compared the distances between papers written by the same author with those by different authors. Furthermore, to examine author consistency in writing styles, we compared the distances of short durations (under five years) between papers written by the same author with the longer durations (over five years). These results supported the hypothesis that there exist author differences and consistency in writing styles.
著者
財津 亘 金 明哲
出版者
日本行動計量学会
雑誌
行動計量学 (ISSN:03855481)
巻号頁・発行日
vol.45, no.1, pp.39-47, 2018 (Released:2018-11-03)
参考文献数
23

This study examined the accuracy for author identification by text mining. We conducted 16 analyses (four writing styles × four multivariate analyses) across texts of 100 Bloggers, written by approximately 1,000 characters. Specifically, we conducted (1) principal components analysis, (2) correspondence analysis, (3) multi-dimensional scaling, and (4) hierarchical cluster analysis on each writing style: (1) rate of usage of non-independent words, (2) bigram of parts-of-speech, (3) bigram of postpositional particles, and (4) positioning of commas. We obtained high accuracy: 100% on sensitivity and 95.1% on specificity. Furthermore, the results showed no effects of age and gender against accuracy for author identification.
著者
入江 さやか 金 明哲
出版者
計量国語学会
雑誌
計量国語学 (ISSN:04534611)
巻号頁・発行日
vol.32, no.1, pp.1-18, 2019-06-20 (Released:2020-06-20)
参考文献数
59

日本の方言は,これまで多くの先行研究によって,語彙・文法・音韻などの違いから,種々に分類されてきた.構造言語学的な体系的基準による分析は当然行われるべきことであるが,現実の言語行動において,実際に使用された頻度を考慮した分類も重要であると考える.そこで,本研究では,自然談話における拍のbigramの頻度データを使用し,近隣結合法を用いた系統樹を作成して,各地方言の分類を行った.その結果,北アルプスを境として,東西に分かれ,岐阜と愛知は共に西に分類できた.次に,東西の方言における拍bigramの特徴を見るために,比率差の検定を行ったところ,東では「ンダ・ネー・ダカ・ッテ・ダッ・ダヨ・ガラ」,西では「ナー・モー・(u)ーテ・ホイ・ンヤ・ンジャ・ソヤ」が,有意な差が見られる拍bigramとして上位に抽出された.
著者
財津 亘 金 明哲
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.28, no.3, pp.253-258, 2018-09-30 (Released:2018-10-19)
参考文献数
5

本論文は,電子掲示板の書き込みなどによるサイバー犯罪を想定し,その犯人性立証の一手法として,多変量データ解析を用いた計量的文体分析を提案するもので,実際に犯人性の立証が困難であったと思われるいわゆる「パソコン遠隔操作事件」に関する著者の識別を試みた.分析の際は,疑問文章(「パソコン遠隔操作事件」の9事件の文章),対照文章(「パソコン遠隔操作事件」の真犯人であったK氏が過去に敢行し,自供した通称「のまねこ事件」関連の5つの文章),無関係文章(K氏と性別年代が同じ30代男性10名のブログ文章と異なる4つの事件における文章)を対象に,①非自立語の使用率,②品詞のtrigram,③助詞のbigram,④文字のbigramに着目し,階層的クラスター分析を実施した.その結果によると,「パソコン遠隔操作事件」の一連の文章と「のまねこ事件」の一連の文章は,同一人が記載したものである可能性を示唆した.
著者
金 明哲
出版者
The Behaviormetric Society of Japan
雑誌
行動計量学 (ISSN:03855481)
巻号頁・発行日
vol.40, no.1, pp.17-28, 2013-03-28
被引用文献数
1 2

This paper proposes a method for authorship identification based on phrase patterns that occur in the Japanese language, using literary work, student's work, journals to carry out actual proof analysis. The results showed that a writer's writing characteristics could be told clearly in phrase patterns. Using Random Forests, the correct ratio for identifying the authors from two arbitrary authors of literary works as well as student compositions was 99% and 92% for journals. In order to show the effectiveness of the proposed method, a comparison between phrase patterns and trigram of POS was conducted. There was no obvious difference found in the rate of correct identification of writer between phrase patterns C and POS trigram. However, when the data of the phrase patterns C were combined with morphological data, it can obtain a higher rate of correct identification of the writer than having combined the data of POS trigram with morphological data. Based on this, we carried out an analysis on the authorship doubt surrounding Kawabata Yasunari's works and the works of Mishima Yukio, HMakoto and Sawana Hisao. Phrase patterns analysis suggested there was no doubt surrounding the authorship in Kawabata's work.
著者
金 明哲
出版者
The Behaviormetric Society of Japan
雑誌
行動計量学 (ISSN:03855481)
巻号頁・発行日
vol.41, no.1, pp.35-46, 2014
被引用文献数
2

Text classification results often vary depending on the detailed factors in data analysis, including feature data, classification method, and parameter sets adopted in the analysis. The author of an anonymous text can be generally identified by extracting a set of distinctive features of the text, and then using the features to find the most likely author. Numerous efforts have been made to develop the feature extraction technique with more robustness and the classification algorithm, but an important issue is how to select the features datasets and classification method. To address this issue, we propose an integrated classification algorithm that extracts multiple feature datasets from differing viewpoints and aspects of a text and applies multiple strong classifiers to the datasets. Our proposed method achieved 100% accuracy in identifying the authors of literary works and student essays, and identified the author of all but 1 out of 60 diaries which were written by 6 different people.Our proposed method achieved equivalent or better accuracy than the case when any a strong classifier applied to individual feature dataset. Furthermore, the accuracy in identifying the authors of student essays increased by roughly two percentage points.
著者
李 広微 金 明哲
出版者
計量国語学会
雑誌
計量国語学 (ISSN:04534611)
巻号頁・発行日
vol.32, no.1, pp.19-32, 2019

「国民作家」と呼ばれる夏目漱石の個性的な文体は,多くの読者を魅了し,模作され続けている.水村美苗が漱石の未完の小説『明暗』を模倣して書いた『続明暗』は,その文体模倣の完成度の高さから注目を浴びた.本稿では,計量的アプローチを用いて,水村が文体模倣のためどのような点を工夫していたか,『明暗』と『続明暗』二作品の文体にどのような異同があるかをめぐって,コーパス言語学の観点から分析を展開した.文の長さ,タグ付き形態素,品詞の構成及び文節パターンについて計量分析を行った.その結果,ほかの比較テキストに対照して,『続明暗』は文の長さ,語彙,品詞,構文などに於いて,『明暗』に似ている部分やその度合,残存されている水村の表現特徴などを見つけ出すことができた.
著者
前田 侑亮 金 明哲
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.29, no.1, pp.3-22, 2019

<p> 関西都市圏は「私鉄王国」と呼ばれており,関西5私鉄(近鉄・京阪・南海・阪急・阪神)は競って沿線を開発し,関西都市圏の街づくりの一角を担ってきた.本研究では,関西5私鉄の沿線を文化的価値の側面から定量的に分析し,沿線の特徴を明らかにすることを目的とする.分析においては,どの駅勢圏にどの文化施設等が何回出現したかという頻度行列を作成し,そのカウントデータが持つ情報そのものに焦点を当てられるトピックモデルLDAを用いた.分析の結果,関西5私鉄の沿線には6つの特性が潜んでいると分かった.また,これらの特性を整理し各社の主要路線を分類すると,「歴史的な沿線を持ち,地域密着型の商業地域が目立つ路線」,「都心とその間の郊外を結び,良好な生活環境が整備された路線」,「都心と文教地区を走り,通勤通学の足としての性格が強い路線」の3つに分けることができた.</p>
著者
三枝 陽一 今泉 弘 金 明哲 石崎 純郞 加藤 彩 桑尾 定仁 三橋 利温 西元寺 克禮 大井田 正人
出版者
一般社団法人 日本消化器内視鏡学会 関東支部
雑誌
Progress of Digestive Endoscopy (ISSN:13489844)
巻号頁・発行日
vol.94, no.1, pp.119-121, 2019-06-07 (Released:2019-06-20)
参考文献数
5

A 22-year-old woman with a history of diarrhea and bloody stools presented at our hospital because of diarrhea, bloody stools, and loss of appetite. Colonoscopy revealed pan-ulcerative colitis. We started treatment with continuous intravenous infusion of prednisolone 40 mg (1 mg/kg), granulocyte apheresis, and oral mesalazine granules (4000 mg). After starting treatment, symptoms promptly improved. The dose of oral prednisolone was decreased to 15 mg/day. Watery stools occurred 5 times per day. The patient wanted to receive Chinese medicine. We requested Hiroshima Sky Clinic to treat the patient with us. Treatment with prednisolone and mesalazine was discontinued, and Hiroshima Chinese medicine was begun. Clinical remission was achieved. The calprotectin level decreased to 37 μg/g. Colonoscopy showed complete mucosal healing. Chinese medicine including natural indigo has side effects. The relevance of use of natural indigo is controversial because of the potential adverse effect. However, Chinese medicine may be useful, and some patients desire such treatment. In the assessment of symptoms on basis of the results of endoscopic and pathological examinations and calprotectin testing, Chinese medicine was effective in our patient.
著者
財津 亘 金 明哲
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.27, no.3, pp.261-274, 2017-09-28 (Released:2017-11-24)
参考文献数
35
被引用文献数
1

犯人の早期検挙を目的とした捜査支援手法である犯罪者プロファイリングは,犯罪現場の状況などを統計的もしくは心理学的に分析し,犯人の性別や年齢層,職業などの犯人像を推定するものであるが,印字された文書や電子メールなどしか存在しない事件においては犯罪現場自体がないため,有効な手段が従来はなかった.本研究は,文章情報を基に,犯人像を推定する手法の開発の嚆矢として,まずブログを対象に,ランダムフォレストによる著者の性別推定を試みた.その結果によると,性別推定には,漢字や平仮名,片仮名,名詞の使用率,品詞(動詞・形容詞・助詞・感動詞)や接続助詞「し」,助動詞「なかっ」,読点,文字(代名詞「私」「僕」,小書き文字「っ」「ゃ」) の使用頻度が有効で,1個抜き交差確認法による検証の結果,最高で正解率86.0% (適合率:男性84.6%,女性87.5%) を得た.なお,サポートベクターマシンを用いた検証も合わせて実施したが,正解率は最高で 75.0%(適合率:男性69.2%,女性85.7%)と相対的に低い精度を示した.
著者
財津 亘 金 明哲 Wataru Zaitsu Mingzhe Jin ザイツ ワタル キン メイテツ
出版者
同志社大学ハリス理化学研究所
雑誌
同志社大学ハリス理化学研究報告 = The Harris science review of Doshisha University (ISSN:21895937)
巻号頁・発行日
vol.59, no.3, pp.181-188, 2018-10-31

本研究は,文章表現において性別を偽装した場合にともなう文体的特徴の変化について実験による検証を行った.実験では,実験参加者48名(男性24名,女性24名,20代から40代で等しく人数を割り当てることで性別年代を統制)が,ブログから抽出した原文を異性の文章に書き換えるといった課題を行った.分析の結果によると,男性実験参加者が女性に偽って文章を書き換えることで,「漢字」や「助詞(連体化)」,一人称代名詞「僕」「俺」の使用率が減少し,「ひらがな」や「動詞(非自立)」,一人称代名詞「私」の使用率が増加した.他方,女性実験参加者が男性を偽る場合は,「漢字」の使用率が増加する,または一人称代名詞「私」の使用率が減少するなど,男性実験参加者とは反対の変化がみられた.この他,「品詞(名詞,感動詞など)」や「カタカナ」,「読点」,「小書き文字」,「終助詞」,「読点前の文字」の使用率における変化はみられなかった.
著者
財津 亘 金 明哲
出版者
日本法科学技術学会
雑誌
日本法科学技術学会誌 (ISSN:18801323)
巻号頁・発行日
pp.715, (Released:2017-01-10)
参考文献数
39
被引用文献数
2

Author identification through text-mining aims to judge whether an author suspected of writing a certain text is same as that of control texts. This study examined the validity of scoring for author identification. In one unit of analysis, we conducted 18 analyses (six writing styles×three multivariate analyses) across one suspected text of a blogger, one control text of a blogger, and irrelevant texts of four bloggers. The writing style factors were (1) rate of usage of non-independent words, (2) bigram of parts-of-speech, (3) bigram of postpositional particles, (4) positioning of commas, (5) rate of usage of Kanji, Hiragana et al., and (6) sentence length. We completed (1) principal components analysis, (2) corresponding analysis, and (3) multi-dimensional scaling. We obtained scores from arrangements of texts on two dimensions, convex hull polygon (CHP) consisting of control texts was overlapped with that of irrelevant texts (a score of 0). Besides not overlapping each CHP of control and irrelevant texts, (a score of +2) a suspected text arranged into CHP of control texts, (a score of +1) one not arranged into CHP of control texts but near a control text, and (a score of −1) one near an irrelevant text. We totaled the scores in one unit of analysis (18 results) and analyzed the total scores of the 240 units of analysis for 10 bloggers under the following design: 2 (author combination of suspected and control texts: same, different)×4 (number of characters: 250, 500, 1000, 1500)×3 (number of control and irrelevant texts: 3, 6, 9). The results indicated the scoring method was able to identify the authors. AUCs of number of characters were statistically significant, but the number of texts was not significant. Furthermore, rate of usage of non-independent words and parts-of-speech were quite useful to identify authors.