著者
大倉 務 清水 伸幸 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.1-6, 2007-09-25
被引用文献数
3

本論文では,ブログの著者属性推定問題を扱う.ブログを用いた流行分析が広がりつつあるが,その際に年齢・性別・居住域などの著者属性が分かればその有用性はさらに高まる.これまでに,いくつかのブログの著者属性推定手法が提案されてきたが,汎用的なものではなかった.本論文では著者属性推定問題を,個々の属性固有の性質を利用しない単純な多クラス文書分類問題ととらえ,χ2値による素性選択と Complement Naive Bayes を用いる方法を提案する.その上で提案手法を現実のブログデータに適用する実験を行い,汎用的であるにも関わらず高速かつ高精度に著者属性を推定できることを示す.We propose a general and scalable method to estimate bloggers' unstated profiles. Recently, trend analysis based on weblogs is gaining popularity, and blogger profiles provide us more detailed interpretation of data. None of previous studies proposed a method generally applicable to different attributes. In this paper, we reduce blogger profile estimation to text classification, using Complement Naive Bayes with feature selection based on χ2 value. We applied our proposed general method to real weblog data, and experimental results show the its effectiveness and scalability.
著者
山下 達雄 笹谷 奈翁美 鍜治 伸裕 石下 美保 沼田 瑞木 嶋 隆宏 清水 伸幸
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

社員の働き方の改善に向けた分析対象として、我々はヤフー株式会社の社員食堂の利用ログに着目した。ヤフーの社員食堂では、社員IDと飲食したメニューと日時のログが蓄積されている。これらに対し、グループ分析とメニュー分類を行った
著者
清水 伸幸 中川 雅史
出版者
情報処理学会 ; 1960-
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.56, no.9, pp.886-890, 2015-08-15

インターネットユーザ(群衆=クラウド)の力を活用(=ソーシング)して課題解決を目指すWebサービスはクラウドソーシングと呼ばれ,近年,さまざまな分野で注目を集めている.2013年,ヤフー(株)は「Yahoo!クラウドソーシング」の提供を開始した.本サービスはマイクロタスク型と呼ばれ,登録ユーザは簡単なデータ入力やチェックを行うことでTポイントを受け取ることができ,PCのみならずスマートフォンなどのモバイル端末からも利用が可能である.本稿では,マイクロタスク型のクラウドソーシングというコンセプトの実施例とその課題,また,ヤフーでのクラウドソーシングサービスでの取り組みについて紹介する.
著者
王玉馨 清水 伸幸 吉田 稔 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2008, no.46, pp.7-14, 2008-05-15
被引用文献数
3

コーパスから同義語の対を抽出するための一般的な方法では、通常二つ単語間の類似度 (例えば、cosine 類似度) が必要である。類似度を使用することで、特定のクエリ単語に対しての類似語ランキングが可能になり、同義語候補リストから正しい同義語が認定できる。この論文では、それに加えて、単語類似度ネットワークを分析する新しい方法を提案する。単語類似度ネットワークでは閾値以上の類似度をアークとして、単語をノードとして定義する。提案する自動同義語候補選択ためのランク閾値(Rank Threshold for synonym candidate Selection RTS) によって類似度の順位が閾値以内のアークが構成される単語類似度ネットワークはスケールフリーグラフである。 この性質に基づいて、我々は新しい同義語候補のリランキング手法を提案する。これを相互リランキング法 (Mutual Re-ranking Method MRM) と呼ぶ。同義語獲得における提案手法の有効性を示すために MRM 方法を Reuters-21578 に適用した。 実験結果によって、RTS と MRM が同義語抽出の品質の向上させることが示された。Popular methods for acquiring synonymous word pairs from a corpus usually require a similarity metric between two words, such as cosine similarity. This metric enables us to retrieve words similar to a query word, and we identify true synonyms from the list of synonym candidates. Instead of stopping at this point, we propose to go further by analyzing word similarity network that are induced by the similarity metric for the edges with the similarities that are ranked as top threshold number. By introducing the rank threshold for synonym candidate selection method (RTS), our analysis shows that the network exhibits a scale-free property. This insight obtained from the network leads us to a method for re-ranking the synonym candidates -a mutual re-ranking method (MRM). We apply our methods to Reuters-21578 to show the generality of the methods on synonym acquisition. The results show that RTS and MRM boosts the quality of acquired synonyms.