著者
奥野峻弥 浅井洋樹 山名早人
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014, no.12, pp.1-6, 2014-07-25

従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,推定対象を限定した,少人数に対する著者候補者群が取り扱われてきた.これに対し,我々はマイクロブログを対象にした,不特定多数の候補者群に対する著者推定の提案を行った.その際,精度向上のためマイクロブログ特有の叫喚フレーズに対する正規化手法,および計算量削減のため推定に必要となるメッセージ数を削減する手法を提案してきた.本稿では,より多くのマイクロブログ利用者を対象にした著者推定を行う上での問題点,特に学習用データとテストデータの取得期間の差異が精度に与える影響について検証し,学習用データの取得期間が精度に与える影響を小さくする手法を提案する.実験では Twitter ユーザ 10,000 人に対して著者推定を行い,Precision@1 で 0.535,MRR で 0.602 を達成した.
著者
奥野峻弥 浅井洋樹 山名早人
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014-IFAT-115, no.12, pp.1-6, 2014-07-25

従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,推定対象を限定した,少人数に対する著者候補者群が取り扱われてきた.これに対し,我々はマイクロブログを対象にした,不特定多数の候補者群に対する著者推定の提案を行った.その際,精度向上のためマイクロブログ特有の叫喚フレーズに対する正規化手法,および計算量削減のため推定に必要となるメッセージ数を削減する手法を提案してきた.本稿では,より多くのマイクロブログ利用者を対象にした著者推定を行う上での問題点,特に学習用データとテストデータの取得期間の差異が精度に与える影響について検証し,学習用データの取得期間が精度に与える影響を小さくする手法を提案する.実験では Twitter ユーザ 10,000 人に対して著者推定を行い,Precision@1 で 0.535,MRR で 0.602 を達成した.
著者
上里和也 奥谷貴志 浅井洋樹 奥野峻弥 田中正浩 山名早人
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.21, pp.1-8, 2013-11-19

Twitter のユーザ数が増加を続ける一方で,不正に ID 及びパスワードを入手され,他人によってツイートを投稿される被害が増加している.これに対し,我々はアカウント乗っ取りによって投稿されるメッセージの一部であるスパムツイートの検出手法を提案し,8 割程度の正答率を得ている.同手法では特定の単語が含まれているスパムツイートを検出対象とし,検出の有効性を示している.本研究では同検出対象を広げ,アカウントの所持者以外が投稿したツイート全体を 「乗っ取りツイート」 として定義し,これを検出する手法を提案する.また本研究では,以前提案した手法に対してパラメータの再調整を行うと同時に,頻繁に用いるハッシュタグの種類及びリプライを送る相手が各アカウントにおいて特徴的であることを利用し,F 値の向上を図った.100 アカウントに対して評価実験を行った結果,我々が提案している従来手法と比較し,F 値を 0.1984 向上させ F 値 0.8570 を達成した.
著者
奥野峻弥 浅井洋樹 山名早人
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2014-DBS-159, no.12, pp.1-6, 2014-07-25

従来,著者推定研究は小説に対する著者推定を中心に研究が行われており,推定対象を限定した,少人数に対する著者候補者群が取り扱われてきた.これに対し,我々はマイクロブログを対象にした,不特定多数の候補者群に対する著者推定の提案を行った.その際,精度向上のためマイクロブログ特有の叫喚フレーズに対する正規化手法,および計算量削減のため推定に必要となるメッセージ数を削減する手法を提案してきた.本稿では,より多くのマイクロブログ利用者を対象にした著者推定を行う上での問題点,特に学習用データとテストデータの取得期間の差異が精度に与える影響について検証し,学習用データの取得期間が精度に与える影響を小さくする手法を提案する.実験では Twitter ユーザ 10,000 人に対して著者推定を行い,Precision@1 で 0.535,MRR で 0.602 を達成した.
著者
上里和也 田中正浩 浅井洋樹 山名早人
出版者
一般社団法人情報処理学会
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2014, no.22, pp.1-6, 2014-07-25

Twitter のような大規模なソーシャルサービスにおいて,ユーザの興味や所属などのプロフィールを知ることは,効果的なマーケティングを行う上で重要である.このような背景から,Twitter におけるプロフィール推定に関する研究が行われてきた.従来のプロフィール推定手法では,フォロー情報によって構築されるソーシャルグラフからコミュニティを抽出し,対象のユーザが属するコミュニティの属性を推定することでプロフィール推定を行なっている.しかし,各々のフォローの目的や,活発な交流があるかという点を考慮することができないため,実際に親密な関係を持つユーザ群をコミュニティとして抽出することが困難であるという問題が存在する.それに対して奥谷らは,フォローに代えてメンション情報を用いてソーシャルグラフを構築することで,これらの問題を解決する手法を提案している.しかし同手法には,プロフィール推定の対象となるユーザの周辺ユーザのプロフィールに幅広く共通して出現する単語が,プロフィールとして出力されにくいという問題がある.そこで本論文では,奥谷らのプロフィール推定手法における単語の重要度の算出方法を変更し,Twitter ユーザ全体からランダムにサンプリングした 100,000 ユーザのデータを利用して一般語をフィルタリングすることで,この問題を解決する手法を提案する.6 人の被験者による実験の結果,奥谷らの手法と比較して,Precision@10 が 0.37 から 0.78,MRR が 1.44 から 2.61 に向上した.