著者
荒牧 英治 増川 佐知子 森田 瑞樹 保田 祥
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-208, no.9, pp.1-8, 2012-08-26

これまで言語学で高い関心を集めている問題の1つに人間の語彙数がある.数々の調査がなされてきたが,その多くは,理解できる語彙(理解語彙)の調査にとどまり,実際に使用する語彙(使用語彙)についてはどのくらいのものか,いっこうにわからないとされてきた.本研究では,ウェブ上の発言データを利用し,10万人という大規模な人数で使用語彙調査を行った.調査の結果,使用語彙は平均8,000語であることが明らかになった.さらに,同データを用いて,語のユーザ数の調査を行った.この結果,ユーザに偏りがある語や偏りがない語のリストが得られた.このようなユーザ数にもとづいたリストは本研究で初めて得られたものである.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.1, pp.1-8, 2011-05-09

近年のTwitterの普及とともに,そこから有益な情報を抽出する研究の需要が高まっている.本研究ではインフルエンザ流行予測の問題に焦点をあてる.まず,Twitterからインフルエンザに関連した発言を抽出する.次に,SVMを用いた分類器で,その発言者が実際にインフルエンザにかかっているかどうかを判定する.実験では,厚労省報告の症例数と比較し相関係数0.89の精度で流行予測することができ,提案手法の有効性を示した.特に,流行の開始時期においては,相関係数は0.97と高く,最先端の手法であるGoogle Fluトレンドと同等の精度が得られた.本研究によって,Twitter上のテキストが現実の疾病状態を反映していること,また,言語処理技術によって,その情報が抽出可能であることを示した.With the recent rise in popularity and size of social media, there is a growing need for systems that can extract useful information from this amount of data. We address the problem of detecting influenza epidemics. First, the proposed system extracts the influenza related tweets using Twitter API. Then, the SVM based classifies extracts only tweets that include real influenza patients. The experiments demonstrated the feasibility of the proposed approach (0.89 of the correlation to the gold standard). Especially in the rise of the influenza (early stage of the epidemics), the proposed method shows the high accuracy (0.97 correlation), which is the same accuracy to the state-of-the-art method. This paper demonstrated that Twitter texts reflect the real world, and Natural Language Processing (NLP) technique could extracts the information.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011-NL-201, no.1, pp.1-8, 2011-05-09

近年のTwitterの普及とともに,そこから有益な情報を抽出する研究の需要が高まっている.本研究ではインフルエンザ流行予測の問題に焦点をあてる.まず,Twitterからインフルエンザに関連した発言を抽出する.次に,SVMを用いた分類器で,その発言者が実際にインフルエンザにかかっているかどうかを判定する.実験では,厚労省報告の症例数と比較し相関係数0.89の精度で流行予測することができ,提案手法の有効性を示した.特に,流行の開始時期においては,相関係数は0.97と高く,最先端の手法であるGoogle Fluトレンドと同等の精度が得られた.本研究によって,Twitter上のテキストが現実の疾病状態を反映していること,また,言語処理技術によって,その情報が抽出可能であることを示した.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.419-435, 2012-12-14
参考文献数
23
被引用文献数
1

近年,ウェブの情報を用いて,感染症などの疾病状態を監視するシステムに注目が集まっている.本研究では,ソーシャルメディアを用いたインフルエンザ・サーベイランスに注目する. これまでの多くのシステムは,単純な単語の頻度情報をもとに患者の状態を調査するというものであった.しかし,この方法では,実際に疾患にかかっていない場合の発言を収集してしまう恐れがある.また,そもそも,医療者でない個人の自発的な発言の集計が,必ずしもインフルエンザの流行と一致するとは限らない.本研究では,前者の問題に対応するため, 発言者が実際にインフルエンザにかかっているもののみを抽出し集計を行う.後者の問題に対して,発言と流行の時間的なずれを吸収するための感染症モデルを提案する.実験においては,Twitter の発言を材料にしたインフルエンザ流行の推定値は,感染症情報センターの患者数と相関係数 0.910 という高い相関を示し,その有効性を示した.本研究により,ソーシャルメディア上の情報をそのまま用いるのではなく,文章分類や疾患モデルと組み合わせて用いることで,さらに精度を向上できることが示された.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.419-435, 2012-12-14
被引用文献数
1

近年,ウェブの情報を用いて,感染症などの疾病状態を監視するシステムに注目が集まっている.本研究では,ソーシャルメディアを用いたインフルエンザ・サーベイランスに注目する. これまでの多くのシステムは,単純な単語の頻度情報をもとに患者の状態を調査するというものであった.しかし,この方法では,実際に疾患にかかっていない場合の発言を収集してしまう恐れがある.また,そもそも,医療者でない個人の自発的な発言の集計が,必ずしもインフルエンザの流行と一致するとは限らない.本研究では,前者の問題に対応するため, 発言者が実際にインフルエンザにかかっているもののみを抽出し集計を行う.後者の問題に対して,発言と流行の時間的なずれを吸収するための感染症モデルを提案する.実験においては,Twitter の発言を材料にしたインフルエンザ流行の推定値は,感染症情報センターの患者数と相関係数 0.910 という高い相関を示し,その有効性を示した.本研究により,ソーシャルメディア上の情報をそのまま用いるのではなく,文章分類や疾患モデルと組み合わせて用いることで,さらに精度を向上できることが示された.