著者
黄 晨雯 Huang Chenwen
出版者
大阪大学大学院言語文化研究科
雑誌
言語文化共同研究プロジェクト
巻号頁・発行日
no.2020, pp.43-53, 2021-05-31

テキストマイニングとデジタルヒューマニティーズ 2020本稿では、Dimo(2020)によって提起された新たなトピックモデルTop2Vecを使用して、トピックという視点から小説の解読を試みることを主な目的とする。中国の民国時代に活躍した有名な推理作家である程小青の作品を分析対象として、実行結果をもとにトピックの構成単語、またトピックとテキストファイルの関係性などを考察する。程小青の作品全体を最も代表するトピックは社会間題をめぐる話題であり、冒頭部分において大概社会間題に関する思考や論述が導入的な話として好まれることを解明した。これは先行研究の質的分析においても検討されたことであるが、トピックの視点より客観的に裏付けしている。また、トピック間の関係性を可視化して、例えば封鎖空間を中心に事件を展開する形が好かれるなどのスタイル的なことも考察できる。文体的には言築逍いが非常に異質な作品もトピックから見つけ出せる。さらに、他の作家との比較にあたって、Top2Vecの実用性がどれほどあるかを実験を繰り返して試みたところ、事前学習モデルを導人したTop2Vecの方がより汎用的だということも解明した。本文旨在运用Dimo 在2020 年新提出的Top2Vec 主题模型来尝试通过主题这个视角解读小说。主要的研究对象是中国民国时代非常著名的推理小说家程小青的作品。通过考察模型生成的各个主题的构成单词以及主题所对应的文档之间的关系来对小说进行分析。从结果上来看,最能代表程小青的是有关于社会问题的主题。而且通过对小说开头部分主题成分的分析可以看出大部分的作品都喜欢用对社会问题的思考和讨论来作为导入。这些在先行研究中也有被提到,但是通过主题的视角更能客观证明质性分析的结果。另外,通过主题两两关系的可视化图可以看出不少程小青在情节设计上的风格,譬如偏爱以室内空间作为事件场所等。通过对主题词和主题分布的分析也可以区分用词较为独特的部分作品。最后也探讨了运用Top2Vec 进行多个作者间主题分析的可能性。经过多次实验可发现,导入了预训练模型的Top2Vec在这方面颇有实用性。
著者
郡 史郎 Kori Shiro コオリ シロウ
出版者
大阪大学大学院言語文化研究科
雑誌
言語文化共同研究プロジェクト
巻号頁・発行日
no.2019, pp.13-24, 2020-07-31

音声言語の研究(14)首都圏中央部で使われる助詞・助動詞類のアクセントの具体的な音形を実用性のある簡潔な形で提示するとともに, その音韻論的型を郡(2015)の基準で分類した結果にもとづき,アクセントの変異のありかたと時代変化の方向性について考察した。「さえ・すら・より」「と」「よ・ぞ」については変異が意味の違いに由来すると考えうること, 変化の方向性としてアクセントの独立性が弱い型から強い型へという指向があることを述べた。
著者
郡 史郎
出版者
大阪大学大学院言語文化研究科
雑誌
言語文化共同研究プロジェクト
巻号頁・発行日
no.2014, pp.63-74, 2015-05-30

音声言語の研究(9)東京方言の助詞・助動詞にはアクセントとしてどのような性質のものがあるかについて,直前形式とのアクセントとしての複合形態という観点を徹底させておこなった整理の結果と,関連する理論的問題についての検討結果を記した。ここでは助詞・助動詞のアクセントの性質を「乗っとり型」,「乗っとられ型」,「協力型」の3 種に分けたが,ほとんどのものは「協力型」になる。分類結果と具体的なアクセントを表2 と付表に示した。
著者
金子 理紗
出版者
大阪大学大学院言語文化研究科
雑誌
言語文化共同研究プロジェクト
巻号頁・発行日
no.2015, pp.7-12, 2016-05-31

音声言語の研究10日本語では、「すっごしリのように促音を挿入して強調を示すことがある。本研究では、促音の挿入がどのような子音の前で強調として認められるか、東京方言話者20名を対象に、音声を用いた調査と文字を用いた調査をそれぞれ行なった。その結果、音声の場合でも文字の場合でも、一般的には避けられる有声子音前への挿入も含めて、促音の挿入は強調表現として認められやすいことが判明した。また、容認度の評定には、子音種以外の要因も関わっている可能性が示唆された。
著者
黄 晨雯 コウ シンブン
出版者
大阪大学大学院言語文化研究科
雑誌
言語文化共同研究プロジェクト
巻号頁・発行日
no.2019, pp.31-45, 2020-07-31

テキストマイニングとデジタルヒューマニティーズ本稿では、中国20世紀以降の著名なミステリー作家である程小青と鬼馬星の作品計34点に対して量的分析を行うことを目的とする。主に代名詞と名詞の情報に焦点を当て、言語差異を見つけ出す試みをする。まずは主成分分析を実行し、テクスト間の相互関係、また単語間の相互関係を示す散布図を観察することによって、両作家の作品における明確な差異を解明した。特に女性を指す三人称代名詞の使用について大差が見られる。時代の影響により言葉遣いも変化するものである。さらに、LDAモデルを実行し生成された50個の名詞トピックに対して考察を行う。中国20世紀以降のミステリー小説において、身体言語と室内に関わるトピックは非常に大きな割合を占めている。程小青を特徴づける身体言語のトピックから、作品における人物の特徴まで探ることができた。寝室の痕跡と解釈したトピックも程小青を代表しているが、複数のトピック内容が1つのトピックに混在していることからトピック数の調整による細分化も必要なのではないかという示唆も受けた。本文旨在通过计量手法对中国近代著名的推理小说家程小青和鬼马星的作品共34本小说进行定量分析。本文主要聚焦在作品中的代名词和名词上,通过主成分分析手法,可以看出在代名词和名词的使用率上,两位作家的作品之间有着明显的区别。尤其是在对于女性第三人称的用法的不同上可以总结为时代变化对千用词的影响。本文还应用了主题模型分析,设定了50 个名词主题。从结果上看,在悬疑小说中,人物肢体语言以及有关房间构造的主题占了非常大的比例,可以说是悬疑小说的代表性主题。在有关肢体语言的多个主题中,通过主题的分布可以看出程小青的相关主题带有非常强烈的作品特色,可以通过主题中的词语分布归结出场景和人物的特点。有笑寝室痕迩的主題也是程小青作品的特色,但是i亥主題中混朱着多↑主題的笑鍵詞,有必要増加主題数来込到釧分主題的目的。
著者
土村 成美 Tsuchimura Narumi ツチムラ ナルミ
出版者
大阪大学大学院言語文化研究科
雑誌
言語文化共同研究プロジェクト
巻号頁・発行日
vol.2017, pp.19-29, 2018-05-30

テクストマイニングとデジタルヒューマニティーズ 2017木研究ではイギリスの女性ミステリー作家Agatha Christieの作品の語彙的特徴に関して,他作家の作品との比較を通して分析を行うことを目的とする。比較対象として, Christieと同じくイギリスミステリー黄金時代に活躍した作家であるDorothy SayersとMargery Allinghamの作品を用いる。機械学習の一手法であるRandom Forestsを用い, 3作家の作品の分類を行うと共に,各作家の特徴語を抽出した。長編・短編作品全てを用いた分類を行うと誤分類が発生するものの,分類対象を長編作品に限定すると,正確に分類を行うことが可能であった。固有名詞が分類に大きく寄与した変数として抽出され,固有名詞が分類精度を向上させている可能性も考えられたが,固有名詞を除外して分類を行なっても,正確な分類結果となった。Christieの特徴語としてまずは-ly副詞が多く見られ,-ly副詞を用いてChristie が登場人物の言動の様子を詳述しているのではないかと考えられる。またyesやsure, youのような会話文に特徴的な語が多く抽出された。Christie作品は会話文を中心として物語が進められる作品が多く,そのことを反映した結果となっていると言える。This study investigates characteristic words of works by Agatha Christie, a female mystery writer in the UK, comparing with other authors'ones. The selected authors for the comparison are Dorothy Sayers and Margery Allingham. All of them are famous female mystery writers during Britain's golden age of crime fiction. This study applied Random Forests, a machine learning method, for classifying the three authors'works and extracting characteristic words from each author's works. The accuracy of classification was a little low when short stories were included in the data for the analysis, but when only long novels were used in Random Forests, all the texts were correctly classified into three different groups with an accuracy of 100%. First, the extracted characteristic words from Christie's works are -ly adverbs. Christie might use these words to describe how the characters in her works acted or said something. Second, spoken vocabularies like yes, sure, and you are also extracted as characteristic words of Christie's works. This result should be because Christie's novels contain a lot of conversations between characters.