著者
三村 喬生 松村 杏子 松村 優哉 関家 友子
出版者
一般社団法人 情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.70, no.4, pp.181-186, 2020-04-01 (Released:2020-04-01)

テキスト分析とは,文字として符号化された筆者の意図を定量的な手法により逆符号化するプロセスである。特に大量のデータを用い,その内部に潜む構造や背後にあるアルゴリズムを統計的に推定する手法が盛んに研究され,多くのプログラミング言語において実装が進んでいる。その中でもR言語はプログラミング初心者でも見通しよく解析プロセスを進めることができるため入門に適している。そこで本稿ではテキスト分析初心者に向けた,本格的な分析に挑む前に知っておくべき統計的な基礎知識・基本的な分析環境の構築法・小規模データによる解析の具体事例をハンズオン形式でまとめた。

言及状況

外部データベース (DOI)

Twitter (26 users, 40 posts, 67 favorites)

Rによるテキスト分析入門(情報の科学と技術)https://t.co/vzbMXC444f
"著者らが運営に参画するTokyo.R(https://t.co/IsKyxHqFR2)をはじめ,日本各地にユーザコミュニティが存在する。更に,オンライン上のプラットフォームとしてr-wakalang (https://t.co/iKtZeEyEaR)が公開され,ユーザ間の交流を通じて知の集積と共有が図られている。" https://t.co/k7aXIwZ7Sx
"解析者としては正しくプログラミングすることだけに気を配れば良いと考える向きもあるかもしれない。しかし正しくプログラミングする事は,正しく分析を進めることを保証しない。後者を支えるのは基礎的な概念と,それらと実データの連関に関する正確な理解である。" https://t.co/k7aXIwZ7Sx
"文章中の特定の単語は,どのサイコロを振るか,どんな偏りを持ったサイコロか,という2つの独立の確率的プロセスが働いていた結果だとみなす。この確率モデルをLDA(潜在的ディリクレ配分法)と呼ぶ。Rでは,topicmodels::LDA()関数を使いLDAによるトピック推定を実行できる" https://t.co/k7aXIwZ7Sx
"単語の列から適切な意味情報を生じさせるための単語間の相対的位置関係のことを構文構造と呼ぶ。構文的順序を考慮する方法として,例えば,[私・は],[の・本]といった連続2単語を集計する。これを2-グラム(バイグラム)モデルと呼ぶ。" https://t.co/k7aXIwZ7Sx
"wordcloud::wordcloud()関数に単語名とその出現回数をそれぞれwors引数,freq引数に指定する。min.freq引数において単語出現回数の足切りを指定した。このワードクラウド表現は華やかであるが,その解釈は読み手に委ねられ,あくまで定性的な比較にすぎないことに留意すべき" https://t.co/k7aXIwZ7Sx
"( RMeCabDF()の)実行結果は,名前付きベクトルのリストという形式で得られる。以後の解析に扱いやすいデータ形式に整えておく。" 例 dat <- mecab_results %>% imap_dfr( ~ data.frame(term = ., class = names(.), sentences = .y, stringsAsFactor = F )) https://t.co/k7aXIwZ7Sx
"ある言語において意味を担う最小の単位を形態素と呼ぶ。複数の文からなるテキストデータを用いた分析を行う際には形態素の数え上げ,品詞による集計といった前処理が必要になる。また日本語は,文を単語に分割する必要もある(分かち書き)" https://t.co/k7aXIwZ7Sx
"言語は自己の内部状態(感情・情動・意図など)を外部に出力する際の符号(エンコード)として機能している。テキスト・マイニングは,高度に符号化された情報から感情・情動・意図を逆符号化(デコード)するプロセスであると言える。最初の一歩は形態素解析から始まる。" https://t.co/k7aXIwZ7Sx
"情報を司る専門家(インフォプロ)において,テキストから調査依頼者の要求に応じてマネジメントに関わる情報を掘り起こす,テキスト・マイニングと呼ばれる一連の手法が着目されている。本稿ではテキスト・マイニングの基礎的な知識とRによるプログラミング事例をまとめた" https://t.co/k7aXIwZ7Sx
ちょっとテキストマイニングに手を出したいと思って探してたらこんなのあった。 少し時間を見てやってみようかな。 https://t.co/PGjIuCLObb
句読点が話題ですが、Tokyo.Rにご依頼いただいた『情報の科学と技術』ではカンマと句点というパタンでした。 https://t.co/PnAuy1L68V
いつぞやのやつ、PDFがWebで読めるようになってたわね Rによるテキスト分析入門 https://t.co/NEaEt5eD9P
@niszet0 @Atsushi776 そういえば先日の解説記事でも要旨ではR言語とわざわざ書きました。まー人口の問題かもですね。 https://t.co/Yn8LgHNKi7
三村喬生・松村杏子・松村優哉・関家友子 (2020). 「Rによるテキスト分析入門」 https://t.co/qitscvtDj5 ときおあーる系の人々?
会誌「情報の科学と技術」2020年4月号 特集:Rによるテキスト分析入門…三村 喬生,松村 杏子,松村 優哉,関家 友子 https://t.co/p3Q7PzDKRc
Rによるテキスト分析入門(特集:インフォプロのためのプログラミング事例集) https://t.co/YfitIztLqN

収集済み URL リスト