著者
黄 晨雯 Huang Chenwen
出版者
大阪大学大学院言語文化研究科
雑誌
言語文化共同研究プロジェクト
巻号頁・発行日
no.2020, pp.43-53, 2021-05-31

テキストマイニングとデジタルヒューマニティーズ 2020本稿では、Dimo(2020)によって提起された新たなトピックモデルTop2Vecを使用して、トピックという視点から小説の解読を試みることを主な目的とする。中国の民国時代に活躍した有名な推理作家である程小青の作品を分析対象として、実行結果をもとにトピックの構成単語、またトピックとテキストファイルの関係性などを考察する。程小青の作品全体を最も代表するトピックは社会間題をめぐる話題であり、冒頭部分において大概社会間題に関する思考や論述が導入的な話として好まれることを解明した。これは先行研究の質的分析においても検討されたことであるが、トピックの視点より客観的に裏付けしている。また、トピック間の関係性を可視化して、例えば封鎖空間を中心に事件を展開する形が好かれるなどのスタイル的なことも考察できる。文体的には言築逍いが非常に異質な作品もトピックから見つけ出せる。さらに、他の作家との比較にあたって、Top2Vecの実用性がどれほどあるかを実験を繰り返して試みたところ、事前学習モデルを導人したTop2Vecの方がより汎用的だということも解明した。本文旨在运用Dimo 在2020 年新提出的Top2Vec 主题模型来尝试通过主题这个视角解读小说。主要的研究对象是中国民国时代非常著名的推理小说家程小青的作品。通过考察模型生成的各个主题的构成单词以及主题所对应的文档之间的关系来对小说进行分析。从结果上来看,最能代表程小青的是有关于社会问题的主题。而且通过对小说开头部分主题成分的分析可以看出大部分的作品都喜欢用对社会问题的思考和讨论来作为导入。这些在先行研究中也有被提到,但是通过主题的视角更能客观证明质性分析的结果。另外,通过主题两两关系的可视化图可以看出不少程小青在情节设计上的风格,譬如偏爱以室内空间作为事件场所等。通过对主题词和主题分布的分析也可以区分用词较为独特的部分作品。最后也探讨了运用Top2Vec 进行多个作者间主题分析的可能性。经过多次实验可发现,导入了预训练模型的Top2Vec在这方面颇有实用性。
著者
黄 晨雯 コウ シンブン
出版者
大阪大学大学院言語文化研究科
雑誌
言語文化共同研究プロジェクト
巻号頁・発行日
no.2019, pp.31-45, 2020-07-31

テキストマイニングとデジタルヒューマニティーズ本稿では、中国20世紀以降の著名なミステリー作家である程小青と鬼馬星の作品計34点に対して量的分析を行うことを目的とする。主に代名詞と名詞の情報に焦点を当て、言語差異を見つけ出す試みをする。まずは主成分分析を実行し、テクスト間の相互関係、また単語間の相互関係を示す散布図を観察することによって、両作家の作品における明確な差異を解明した。特に女性を指す三人称代名詞の使用について大差が見られる。時代の影響により言葉遣いも変化するものである。さらに、LDAモデルを実行し生成された50個の名詞トピックに対して考察を行う。中国20世紀以降のミステリー小説において、身体言語と室内に関わるトピックは非常に大きな割合を占めている。程小青を特徴づける身体言語のトピックから、作品における人物の特徴まで探ることができた。寝室の痕跡と解釈したトピックも程小青を代表しているが、複数のトピック内容が1つのトピックに混在していることからトピック数の調整による細分化も必要なのではないかという示唆も受けた。本文旨在通过计量手法对中国近代著名的推理小说家程小青和鬼马星的作品共34本小说进行定量分析。本文主要聚焦在作品中的代名词和名词上,通过主成分分析手法,可以看出在代名词和名词的使用率上,两位作家的作品之间有着明显的区别。尤其是在对于女性第三人称的用法的不同上可以总结为时代变化对千用词的影响。本文还应用了主题模型分析,设定了50 个名词主题。从结果上看,在悬疑小说中,人物肢体语言以及有关房间构造的主题占了非常大的比例,可以说是悬疑小说的代表性主题。在有关肢体语言的多个主题中,通过主题的分布可以看出程小青的相关主题带有非常强烈的作品特色,可以通过主题中的词语分布归结出场景和人物的特点。有笑寝室痕迩的主題也是程小青作品的特色,但是i亥主題中混朱着多↑主題的笑鍵詞,有必要増加主題数来込到釧分主題的目的。