著者
金 明哲 徳田 尚之 村上 征勝 田中 栄一
出版者
日本行動計量学会
雑誌
行動計量学 (ISSN:03855481)
巻号頁・発行日
vol.19, no.1, pp.49-65, 1992-03-31 (Released:2010-06-28)
参考文献数
24

中国語の音声認識の機械処理を進める上で,中国語の計量的な性質を把握することは不可欠である.本論文ではSuen(1986)が中国語の高頻度単語として提唱している6,321語を用いて,中国語の音声認識を行う上で必要となるその音声学的性質について以下の項目にわたる計量分析を試みた.(1)声母,韻母,音素,声調の出現頻度(2)音節,音素を単位とした単語長 (3)音素を単位としたエントロピー,1次条件付きエントロピーおよび2次条件付きエントロピー (4)声母,韻母,音素を単位とした近距離単語数および声調,品詞が近距離単語数に与える影響 (5)声母,韻母,音素を単位とした置換対.その結果,例えば,声調や品詞情報が既知の場合でも一漢字単語では音素を単位としたレーベンシュタイン距離1の単語数は1単語あたり10.38語にものぼり,機械的な音声認識において単語単位での誤り訂正は極めて難しいが,二漢字単語では同じレーベンシュタイン距離1単語数は声調や品詞情報を考慮しなくとも1単語あたり平均約3語で,声調,品詞情報が既知であると1単語あたり0.26語まで減少するため,声調,品詞情報などを有効に利用することにより単語単位の誤り訂正が十分可能であると考えられるなど,今後中国語の音声認識などの機械処理を進める上で有益な幾つかの結果を得た.
著者
許 麗梦 金 明哲
出版者
日本分類学会
雑誌
データ分析の理論と応用 (ISSN:21864195)
巻号頁・発行日
vol.10, no.1, pp.45-57, 2021-08-01 (Released:2021-11-09)
参考文献数
25

企業の継続性に関する研究において,財務諸表がよく用いられている.また,経済レポートや電子掲示板,有価証券報告書などを活用して,計量的アプローチで企業の倒産の兆候となる情報を抽出し,企業評価と株価予測などの研究が行われている.本稿では上場企業が金融庁へ提出する年度報告書「有価証券報告書」に載せられた財務に関する数値データとテクストデータを結合して,企業の倒産判別分析を試みた.テクストデータについてはテキストマイニングの方法でデータセットを作成して用いた.その結果,数値データとテクストデータを結合して用いた場合,判別指標のマクロ平均F 値は0.941 に達し,数値データだけによる判別率0.880 およびテクストデータだけによる判別率0.895 を大きく上回ることが示された.
著者
金 明哲 鄭 弯弯
出版者
計量国語学会
雑誌
計量国語学 (ISSN:04534611)
巻号頁・発行日
vol.32, no.5, pp.265-276, 2020-06-20 (Released:2021-06-20)
参考文献数
5

MTMineR(Multilingual Text Miner with R;エム・ティ・マイナー)は,テキスト計量分析の研究と教育のために,約20年前から開発し続けているフリー・ソフトウェアである.これは日本語,中国語,韓国語,英語,ドイツ語などのテキストから計量分析に必要となる要素を集計し,Rをバックで動かして統計分析を行うツールである.すべての操作は,マウスを用いたメニュー操作,オプションの指定,実行のボタンを押すことで結果が出力されるように設計されている.主な機能としては,データの前処理機能,計量分析に必要な構成要素の集計と検索機能,集計したデータの可視化方法,主成分分析,対応分析,クラスター分析などの統計的データ分析方法,トピックモデル,サポートベクターマシン,ランダムフォレストなどの最新の機械学習法が実装されている.MTMineRは市販のテキストマイニングツールでは実装されていない言語学や文体科学の研究に必要な機能を多数備えている.
著者
李 広微 金 明哲
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
pp.2021_019, (Released:2021-05-21)
参考文献数
22

助詞は文章の表現特性・文体様式の特徴を把握するうえで重要な要素であり,その経時変化の考察は,言語及び文体の変遷過程の一端を明らかにすることにつながる.本研究では,百余年間にわたった近現代小説を分析対象とし,モデリングを通して助詞の経時変化を捉え,小説の言語表現及び文体との関わりについて考察を試みた.具体的には,1910年から2014年に出版された小説のコーパスを作成し,助詞の使用データ状況について計量分析を行った.計量分析には,まず系統樹分析を通して,助詞の使用に明らかな変化が発生していることを確認したうえで,主な変動要素を特定するため,elastic net回帰分析を用いて,助詞に関するモデルを作成し,モデル構築に大きく寄与する助詞項目を抽出し,分析を試みた.観察された結果は言語学や文体学に関わる問題を考えるヒントになり得ることが示された.
著者
前田 侑亮 金 明哲
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.29, no.1, pp.3-22, 2019-02-28 (Released:2019-03-15)
参考文献数
22
被引用文献数
1

関西都市圏は「私鉄王国」と呼ばれており,関西5私鉄(近鉄・京阪・南海・阪急・阪神)は競って沿線を開発し,関西都市圏の街づくりの一角を担ってきた.本研究では,関西5私鉄の沿線を文化的価値の側面から定量的に分析し,沿線の特徴を明らかにすることを目的とする.分析においては,どの駅勢圏にどの文化施設等が何回出現したかという頻度行列を作成し,そのカウントデータが持つ情報そのものに焦点を当てられるトピックモデルLDAを用いた.分析の結果,関西5私鉄の沿線には6つの特性が潜んでいると分かった.また,これらの特性を整理し各社の主要路線を分類すると,「歴史的な沿線を持ち,地域密着型の商業地域が目立つ路線」,「都心とその間の郊外を結び,良好な生活環境が整備された路線」,「都心と文教地区を走り,通勤通学の足としての性格が強い路線」の3つに分けることができた.
著者
李 広微 金 明哲
出版者
計量国語学会
雑誌
計量国語学 (ISSN:04534611)
巻号頁・発行日
vol.32, no.1, pp.19-32, 2019

「国民作家」と呼ばれる夏目漱石の個性的な文体は,多くの読者を魅了し,模作され続けている.水村美苗が漱石の未完の小説『明暗』を模倣して書いた『続明暗』は,その文体模倣の完成度の高さから注目を浴びた.本稿では,計量的アプローチを用いて,水村が文体模倣のためどのような点を工夫していたか,『明暗』と『続明暗』二作品の文体にどのような異同があるかをめぐって,コーパス言語学の観点から分析を展開した.文の長さ,タグ付き形態素,品詞の構成及び文節パターンについて計量分析を行った.その結果,ほかの比較テキストに対照して,『続明暗』は文の長さ,語彙,品詞,構文などに於いて,『明暗』に似ている部分やその度合,残存されている水村の表現特徴などを見つけ出すことができた.
著者
前田 侑亮 金 明哲
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.29, no.1, pp.3-22, 2019

<p> 関西都市圏は「私鉄王国」と呼ばれており,関西5私鉄(近鉄・京阪・南海・阪急・阪神)は競って沿線を開発し,関西都市圏の街づくりの一角を担ってきた.本研究では,関西5私鉄の沿線を文化的価値の側面から定量的に分析し,沿線の特徴を明らかにすることを目的とする.分析においては,どの駅勢圏にどの文化施設等が何回出現したかという頻度行列を作成し,そのカウントデータが持つ情報そのものに焦点を当てられるトピックモデルLDAを用いた.分析の結果,関西5私鉄の沿線には6つの特性が潜んでいると分かった.また,これらの特性を整理し各社の主要路線を分類すると,「歴史的な沿線を持ち,地域密着型の商業地域が目立つ路線」,「都心とその間の郊外を結び,良好な生活環境が整備された路線」,「都心と文教地区を走り,通勤通学の足としての性格が強い路線」の3つに分けることができた.</p>
著者
財津 亘 金 明哲 Wataru Zaitsu Mingzhe Jin ザイツ ワタル キン メイテツ
出版者
同志社大学ハリス理化学研究所
雑誌
同志社大学ハリス理化学研究報告 = The Harris science review of Doshisha University (ISSN:21895937)
巻号頁・発行日
vol.59, no.3, pp.181-188, 2018-10-31

本研究は,文章表現において性別を偽装した場合にともなう文体的特徴の変化について実験による検証を行った.実験では,実験参加者48名(男性24名,女性24名,20代から40代で等しく人数を割り当てることで性別年代を統制)が,ブログから抽出した原文を異性の文章に書き換えるといった課題を行った.分析の結果によると,男性実験参加者が女性に偽って文章を書き換えることで,「漢字」や「助詞(連体化)」,一人称代名詞「僕」「俺」の使用率が減少し,「ひらがな」や「動詞(非自立)」,一人称代名詞「私」の使用率が増加した.他方,女性実験参加者が男性を偽る場合は,「漢字」の使用率が増加する,または一人称代名詞「私」の使用率が減少するなど,男性実験参加者とは反対の変化がみられた.この他,「品詞(名詞,感動詞など)」や「カタカナ」,「読点」,「小書き文字」,「終助詞」,「読点前の文字」の使用率における変化はみられなかった.
著者
財津 亘 金 明哲
出版者
日本法科学技術学会
雑誌
日本法科学技術学会誌 (ISSN:18801323)
巻号頁・発行日
pp.715, (Released:2017-01-10)
参考文献数
39
被引用文献数
2 1

Author identification through text-mining aims to judge whether an author suspected of writing a certain text is same as that of control texts. This study examined the validity of scoring for author identification. In one unit of analysis, we conducted 18 analyses (six writing styles×three multivariate analyses) across one suspected text of a blogger, one control text of a blogger, and irrelevant texts of four bloggers. The writing style factors were (1) rate of usage of non-independent words, (2) bigram of parts-of-speech, (3) bigram of postpositional particles, (4) positioning of commas, (5) rate of usage of Kanji, Hiragana et al., and (6) sentence length. We completed (1) principal components analysis, (2) corresponding analysis, and (3) multi-dimensional scaling. We obtained scores from arrangements of texts on two dimensions, convex hull polygon (CHP) consisting of control texts was overlapped with that of irrelevant texts (a score of 0). Besides not overlapping each CHP of control and irrelevant texts, (a score of +2) a suspected text arranged into CHP of control texts, (a score of +1) one not arranged into CHP of control texts but near a control text, and (a score of −1) one near an irrelevant text. We totaled the scores in one unit of analysis (18 results) and analyzed the total scores of the 240 units of analysis for 10 bloggers under the following design: 2 (author combination of suspected and control texts: same, different)×4 (number of characters: 250, 500, 1000, 1500)×3 (number of control and irrelevant texts: 3, 6, 9). The results indicated the scoring method was able to identify the authors. AUCs of number of characters were statistically significant, but the number of texts was not significant. Furthermore, rate of usage of non-independent words and parts-of-speech were quite useful to identify authors.
著者
孫 昊 金 明哲
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.28, no.1, pp.3-14, 2018
被引用文献数
2

<p> 川端康成の少女小説における代筆問題は昔から指摘されており,中でも『花日記』は中里恒子の代筆という疑いが強い.本研究では計量文体学の方法を用いて,この小説の代筆問題に新たな解決策を提示する.本研究では,文章から抽出した文字・記号のbigram,形態素タグのbigram,文節パターンを特徴量とし,アダブースト(AdaBoost),高次元判別分析(HDDA),ロジスティックモデルツリー (LMT),サポートべクターマシン(SVM)とランダムフォレスト(RF)を用いて判別分析を行った.分析の結果,『花日記』は川端康成と中里恒子の共同執筆という結論に至った.</p>
著者
前田 侑亮 金 明哲
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
pp.2018_027, (Released:2018-10-19)
参考文献数
22

関西都市圏は「私鉄王国」と呼ばれており,関西5私鉄(近鉄・京阪・南海・阪急・阪神)は競って沿線を開発し,関西都市圏の街づくりの一角を担ってきた.本研究では,関西5私鉄の沿線を文化的価値の側面から定量的に分析し,沿線の特徴を明らかにすることを目的とする.分析においては,どの駅勢圏にどの文化施設等が何回出現したかという頻度行列を作成し,そのカウントデータが持つ情報そのものに焦点を当てられるトピックモデルLDAを用いた.分析の結果,関西5私鉄の沿線には6つの特性が潜んでいると分かった.また,これらの特性を整理し各社の主要路線を分類すると,「歴史的な沿線を持ち,地域密着型の商業地域が目立つ路線」,「都心とその間の郊外を結び,良好な生活環境が整備された路線」,「都心と文教地区を走り,通勤通学の足としての性格が強い路線」の3つに分けることができた.
著者
金 明哲
出版者
日本行動計量学会
雑誌
行動計量学 (ISSN:03855481)
巻号頁・発行日
vol.41, no.1, pp.35-46, 2014 (Released:2015-03-10)
参考文献数
25
被引用文献数
5

Text classification results often vary depending on the detailed factors in data analysis, including feature data, classification method, and parameter sets adopted in the analysis. The author of an anonymous text can be generally identified by extracting a set of distinctive features of the text, and then using the features to find the most likely author. Numerous efforts have been made to develop the feature extraction technique with more robustness and the classification algorithm, but an important issue is how to select the features datasets and classification method. To address this issue, we propose an integrated classification algorithm that extracts multiple feature datasets from differing viewpoints and aspects of a text and applies multiple strong classifiers to the datasets. Our proposed method achieved 100% accuracy in identifying the authors of literary works and student essays, and identified the author of all but 1 out of 60 diaries which were written by 6 different people.Our proposed method achieved equivalent or better accuracy than the case when any a strong classifier applied to individual feature dataset. Furthermore, the accuracy in identifying the authors of student essays increased by roughly two percentage points.
著者
財津 亘 金 明哲
出版者
日本法科学技術学会
雑誌
日本法科学技術学会誌
巻号頁・発行日
2017
被引用文献数
1

&emsp;Author identification through text-mining aims to judge whether an author suspected of writing a certain text is same as that of control texts. This study examined the validity of scoring for author identification. In one unit of analysis, we conducted 18 analyses (six writing styles×three multivariate analyses) across one suspected text of a blogger, one control text of a blogger, and irrelevant texts of four bloggers. The writing style factors were (1) rate of usage of non-independent words, (2) bigram of parts-of-speech, (3) bigram of postpositional particles, (4) positioning of commas, (5) rate of usage of Kanji, Hiragana <i>et al.</i>, and (6) sentence length. We completed (1) principal components analysis, (2) corresponding analysis, and (3) multi-dimensional scaling. We obtained scores from arrangements of texts on two dimensions, convex hull polygon (CHP) consisting of control texts was overlapped with that of irrelevant texts (a score of 0). Besides not overlapping each CHP of control and irrelevant texts, (a score of +2) a suspected text arranged into CHP of control texts, (a score of +1) one not arranged into CHP of control texts but near a control text, and (a score of &minus;1) one near an irrelevant text. We totaled the scores in one unit of analysis (18 results) and analyzed the total scores of the 240 units of analysis for 10 bloggers under the following design: 2 (author combination of suspected and control texts: same, different)×4 (number of characters: 250, 500, 1000, 1500)×3 (number of control and irrelevant texts: 3, 6, 9). The results indicated the scoring method was able to identify the authors. AUCs of number of characters were statistically significant, but the number of texts was not significant. Furthermore, rate of usage of non-independent words and parts-of-speech were quite useful to identify authors.<br>
著者
金 明哲 田中 栄一 丁 光躍
雑誌
全国大会講演論文集
巻号頁・発行日
vol.第40回, no.人工知能及び認知科学, pp.480-481, 1990-03-14

近年,中国語の計算機処理の研究が進んでいる.中国語を併音で計算機に入力したり,中国語音声の機械認識をするとき,中国語の言語情報を有効に利用しなければならないことは疑いない.そこで中国語の性質を知るために文献2)の中国語高頻度単語6321語について,声母,韻母の出現頻度,声調分布,字数による単語長,声母数に基づく単語の分布,同字数単語中に占める近距離単語数などの調査を行なった.
著者
孫 昊 李 鍾賛 金 明哲
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-107, no.8, pp.1-4, 2015-08-02

日本初のノーベル文学賞を受賞した川端康成にまつわる数多くの代作問題があり,その一つは 「花日記」 である.「花日記」 は新潮社 1981 年版の川端全集第 20 巻に収録されているが,本作は当時川端康成を師事した主婦作家・中里恒子の代作という説がある.本研究は文章から抽出した文字・記号列の Bigram,タグの Bigram,文節パターン特徴量を基に,統合的分類アルゴリズムを用いて代作問題を検証した.
著者
金 明哲
出版者
日本行動計量学会
雑誌
行動計量学 (ISSN:03855481)
巻号頁・発行日
vol.40, no.1, pp.17-28, 2013 (Released:2013-09-28)
参考文献数
14
被引用文献数
3 2

This paper proposes a method for authorship identification based on phrase patterns that occur in the Japanese language, using literary work, student’s work, journals to carry out actual proof analysis. The results showed that a writer’s writing characteristics could be told clearly in phrase patterns. Using Random Forests, the correct ratio for identifying the authors from two arbitrary authors of literary works as well as student compositions was 99% and 92% for journals. In order to show the effectiveness of the proposed method, a comparison between phrase patterns and trigram of POS was conducted. There was no obvious difference found in the rate of correct identification of writer between phrase patterns C and POS trigram. However, when the data of the phrase patterns C were combined with morphological data, it can obtain a higher rate of correct identification of the writer than having combined the data of POS trigram with morphological data. Based on this, we carried out an analysis on the authorship doubt surrounding Kawabata Yasunari’s works and the works of Mishima Yukio, HMakoto and Sawana Hisao. Phrase patterns analysis suggested there was no doubt surrounding the authorship in Kawabata’s work.