著者
池田 和史 柳原 正 松本 一則 滝嶋 康弘
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.3, pp.68-77, 2010-09-28

ブログ上の文書には口語的な表現や特有の表記などのくだけた表現が多数含まれるため,一般の形態素解析器を用いても十分な解析精度を得ることはできない.くだけた表現は人手により辞書登録されることが一般的であるが,人的コストの大きさや専門的な知識を必要とすることが課題である.本稿ではくだけた表現を正規な表現に修正することで高精度な形態素解析を実現する手法を提案する.提案手法ではくだけた表現の修正候補文字列をくだけた表現の少ない文書から自動的に検索し,修正ルールを生成する.生成した多数の修正ルールから文脈に適した修正ルールを選択的に適用するために,検索結果における修正候補文字列の出現頻度,修正前後の文字列間における編集距離,修正前後の文の形態素解析結果の比較,を用いて修正ルールをスコアリングする手法を合わせて提案する.提案手法と従来手法の性能比較評価実験を行い,各手法における未知語の出現率や単語区切りの正確さ,修正前後の文の意味変化を定量的に評価した.提案手法では従来手法と同程度の単語区切りの正確さを維持しながら,対象文章の未知語出現数を 36.1% 減少させることに成功した.これは従来手法における未知語減少数の 2.5 倍以上である.
著者
池田 和史 服部 元 松本 一則 小野 智弘 東野 輝夫
雑誌
情報処理学会論文誌コンシューマ・デバイス&システム(CDS) (ISSN:21865728)
巻号頁・発行日
vol.2, no.1, pp.82-93, 2012-03-21

近年,TwitterのようなブログやWeb掲示板などに投稿された商品やテレビ番組などに対する口コミ情報を分析してマーケティングなどに応用する評判解析技術に注目が集まっている.これらは手軽に情報発信することが可能なため,新鮮かつ多数の意見を即座に収集するツールとして,その活用は大きな可能性を持っている.一方で,評判は投稿者の年齢や性別,趣味などのプロフィールに応じて異なることが多いが,ブログや掲示板には投稿者の年齢や性別が記載されていない場合が多く,投稿数や平均的な意見などの表面的な情報しか抽出できず,プロフィールごとの意見を抽出できないことが課題であった.この問題を解決するため,著者らはTwitter上の口コミ投稿者の日常的な投稿内容を解析することで,年代,性別,居住地域などのプロフィールを推定する技術を開発した.本技術を利用することで,ネット上の口コミ情報をプロフィールごとに分類,集約することが可能となり,商品の改善やテレビ番組の企画などに生かすことが可能となる.性能評価実験の結果,提案手法の汎用的な推定精度は性別で88.0%,年代で68.0%,居住地域で70.8%であり,視聴率測定などへの応用を想定したプロフィール分布誤差の評価では,分布に偏りがある場合でも性別で8.8%,年代で12.4%,居住地で14.0%と実利用に十分な精度であることが示された.
著者
柳原 正 池田 和史 松本 一則 滝嶋 康弘
出版者
FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌
情報科学技術フォーラム講演論文集
巻号頁・発行日
vol.8, no.2, pp.313-315, 2009-08-20

一般的に用いられる形態素解析器では、単語境界や品詞の推定を行う際に形態素解析用辞書が必要である。新しい単語に対応するため、それらの単語を辞書に追加しなければならないが、この作業は人手によって行わなければならないため、コストがかかることが大きな問題となっている。本論文では、情報量基準に基づく形態素解析用辞書の自動獲得方式を提案する。提案内容では、情報量基準に基づくモデル検定によって、単語境界及び品詞を自動推定する。これにより、人手を借りずに形態素解析用辞書を自動的に更新可能となる。
著者
池田 和史 柳原 正 服部 元 松本 一則 小野 智弘 滝嶋 康弘
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.8, pp.2474-2483, 2011-08-15
被引用文献数
2

本稿では高速かつ高精度に有害サイトを検出するため, Webサイトの背景色やリンク先, ブラウザに特定の動作をさせるスクリプトなど, 有害サイトに特徴的に見られる傾向をHTML要素から検出する手法を提案する. 提案手法では有害サイトのHTMLに偏って出現するような文字列を自動的に抽出し, SVM(Support Vector Machine)を用いてこれらの特徴を組み合わせて有害サイトの検出を行う. 提案手法はWebサイトの本文の情報を利用しないため, 既存のキーワードベース方式によって検出が困難なサイトも検出が可能である. このため, 既存のキーワードベース方式と組み合わせて利用することで検出精度を向上させることも可能である. 大規模なWebサイトデータを用いた性能評価実験を行い, 既存のキーワードベース方式と比較して, 適合率を9.3ポイント向上するなどの性能向上を確認した.In this paper, we propose high-speed and accurate algorithms for detecting malicious Web pages. Our algorithms detect the features of malicious Web pages from their HTML elements such as the background colors of Web pages, the server names related to malicious Web pages, or the name of javascript functions that makes browsers perform unusual actions in response to malicious Web pages. Strings that appear especially in HTML elements of malicious Web pages are automatically chosen. SVMs (Support Vector Machines) combine these strings and detect malicious Web pages. Since our algorithms do not rely on the text parts of Web pages, they can detect Web pages that existing text-based algorithms have difficulty in detecting. By conducting a large-scale performance evaluation with real malicious Web pages, we showed that the hybrid algorithms of our algorithms and existing text-based algorithms increase the precision of existing text-based algorithms alone by 9.3 points.
著者
池田 和史 柳原 正 松本 一則 滝嶋 康弘
出版者
FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌
情報科学技術フォーラム講演論文集
巻号頁・発行日
vol.8, no.2, pp.13-18, 2009-08-20

ブログ上の文書には口語的な表現や特有の表記などのくだけた表現が多数含まれるため、一般の形態素解析器を用いても十分な解析精度を得ることはできない。くだけた表現は人手により辞書登録されることが一般的であるが、人的コストの大きさや専門的な知識を必要とすることが課題である。本稿ではくだけた表現を文語的な表現に修正するための教師なし学習手法を提案する。提案手法ではくだけた表現の修正候補文字列をくだけた表現の少ない文書から自動的に検索し、修正ルールを生成する。生成した多数の修正ルールから文脈に適した修正ルールを選択的に適用するために、検索結果における修正候補文字列の出現頻度、修正前後の文字列間における編集距離、修正前後の文の形態素解析結果の比較、を用いて修正ルールをスコアリングする手法を合わせて提案する。提案手法を実装し、従来手法との性能比較評価実験を行った。各手法を利用したときの未知語の出現率や文節区切りの正確さ、修正前後の文の意味変化を定量的に評価した。提案手法では従来手法と同程度の文節区切りの正確さを維持しながら、対象文書の未知語出現数を30.3%減少させることに成功した。これは従来手法における未知語減少数の2倍以上である。
著者
池田 和史 柳原 正 服部 元 松本 一則 小野 智弘
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.39, pp.1-8, 2010-11-05

評判解析や文書の要約、検索などを高精度に行うために、係り受け解析や格解析が用いられるが、ブログや電子掲示板上の文書を対象とする場合、口語的な記述が多数見られるため、十分な解析精度が得られないことが課題となる。本稿では、口語的な記述に頻繁に見られる助詞落ち表現が解析精度低下の原因の1つであることに着目し、助詞落ちを自動的に推定し、欠落した助詞を補完することで解析精度を向上する手法を提案する。提案手法では、新聞などの助詞落ちの少ない正規の文書から意図的に助詞落ちを発生させた文書を正例、助詞落ちを発生させていない文書を負例として識別器を学習させ、解析対象である口語文書の助詞落ち箇所を推定する。加えて、推定した助詞落ち箇所の前後の単語をキーとして新聞文書を検索することで、適切な助詞を自動的に補完する。性能評価実験では、Webから収集したブログ文書に対して、人手により助詞落ち箇所と補完すべき助詞を付与し、提案手法における助詞落ち推定精度および補完精度の評価を行った。加えて、助詞を補完することによる係り受け解析精度の向上についても評価した。In this paper, we propose algorithms for reducing the errors of the dependency analysis on colloquial style sentences by complementing the omission of postpositions which makes dependency analysis errors. In our algorithms, the omission of postpositions is detected by a classifier which is trained by the features extracted from formally written documents such as newspaper sentences. As positive examples of the classifier, we automatically omit the postpositions from newspaper sentences, and as negative examples, we used the newspaper sentences as they are. After estimating the omission of the postpositions, complementation candidates of the omitted postpositions are automatically retrieved from newspapers. In the experimental evaluations, we collect blog documents which contain colloquial style sentences and manually labeled the omitted postpositions on them. We evaluated the estimation accuracy, complementation accuracy, and improvement of the dependency analysis accuracy.
著者
池田 和史 服部 元 松本 一則 小野 智弘 東野 輝夫
出版者
情報処理学会
雑誌
情報処理学会論文誌コンシューマ・デバイス&システム(CDS) (ISSN:21865728)
巻号頁・発行日
vol.2, no.1, pp.82-93, 2012-03-21
被引用文献数
1

近年,TwitterのようなブログやWeb掲示板などに投稿された商品やテレビ番組などに対する口コミ情報を分析してマーケティングなどに応用する評判解析技術に注目が集まっている.これらは手軽に情報発信することが可能なため,新鮮かつ多数の意見を即座に収集するツールとして,その活用は大きな可能性を持っている.一方で,評判は投稿者の年齢や性別,趣味などのプロフィールに応じて異なることが多いが,ブログや掲示板には投稿者の年齢や性別が記載されていない場合が多く,投稿数や平均的な意見などの表面的な情報しか抽出できず,プロフィールごとの意見を抽出できないことが課題であった.この問題を解決するため,著者らはTwitter上の口コミ投稿者の日常的な投稿内容を解析することで,年代,性別,居住地域などのプロフィールを推定する技術を開発した.本技術を利用することで,ネット上の口コミ情報をプロフィールごとに分類,集約することが可能となり,商品の改善やテレビ番組の企画などに生かすことが可能となる.性能評価実験の結果,提案手法の汎用的な推定精度は性別で88.0%,年代で68.0%,居住地域で70.8%であり,視聴率測定などへの応用を想定したプロフィール分布誤差の評価では,分布に偏りがある場合でも性別で8.8%,年代で12.4%,居住地で14.0%と実利用に十分な精度であることが示された.This paper proposes a real-time analysis technology of the online opinions of commercial products and broadcast TV programs. As many people submit their opinions via social media services, such as Twitter, utilizing these real-time and huge amounts of opinions is strongly desired as a novel marketing tool. However, it is impossible in many cases to understand the overall trend of such enormous user opinions by browsing the information stream on the screen. In addition, though presuming the ratio of positive and negative opinions is useful, that discrimination is not much enough because the ratio of opinions differs depending on user demographics (age, sex, area, etc.) The proposed technology makes it possible to analyze the contents of Twitter streams related to commercial products or broadcast TV programs, and estimate the demographics of the users by tracking and analyzing their past tweets. This analysis attracts peoples such as, product planners, broadcast TV directors, and advertisement agencies that produce and promote products/TV programs for target segments. Our experimental results show that the estimation accuracy of the proposed algorithms is, 88.0% in sex, 68.0% in age, 70.8% in areas, respectively. The error ratio in the distribution of estimated demographics was 8.8% in sex, 12.4% in age, 14.0% in area, respectively, which is high enough for practical use.
著者
池田和史 服部元 松本一則 小野智弘 東野輝夫
雑誌
マルチメディア、分散協調とモバイルシンポジウム2011論文集
巻号頁・発行日
vol.2011, pp.1308-1315, 2011-06-30

近年、TwitterのようなブログやWeb掲示板などに投稿された商品やテレビ番組などに対する口コミ情報を分析してマーケティング等に応用する評判解析技術に注目が集まっている。これらは手軽い情報発信が可能なため、新鮮かつ多数の意見を即座に収集するツールとして、その活用は大きな可能性を持っている。一方で、評判は投稿者の年齢や性別、趣味などのプロフィールに応じて異なることが多いが、ブログや掲示板には投稿者の年齢や性別が記載されていない場合が多く、投稿数や平均的な意見などの表面的な情報しか抽出できず、プロフィールごとの意見を抽出できないことが課題であった。この問題を解決するため、著者らはTwitter上の口コミ投稿者の日常的な投稿内容を解析することで、年代、性別、居住地域などのプロフィールを推定する技術を開発した。本技術を利用することで、ネット上の口コミ情報をプロフィールごとに分類、集約することが可能となり、商品の改善やテレビ番組の企画などに生かすことが可能となる。性能評価実験の結果、提案手法の汎用的な推定精度は性別で88.0%、年代で68.0%、居住地域で70.8%であり、視聴率測定などへの応用を想定したプロフィール分布誤差の評価では、分布に偏りがある場合でも性別で8.8%、年代で12.4%、居住地で14.0%と実利用に十分な精度であることが示された。
著者
池田 和史 柳原 正 服部 元 松本 一則 小野 智弘 滝嶋 康弘
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.8, pp.2474-2483, 2011-08-15

本稿では高速かつ高精度に有害サイトを検出するため, Webサイトの背景色やリンク先, ブラウザに特定の動作をさせるスクリプトなど, 有害サイトに特徴的に見られる傾向をHTML要素から検出する手法を提案する. 提案手法では有害サイトのHTMLに偏って出現するような文字列を自動的に抽出し, SVM(Support Vector Machine)を用いてこれらの特徴を組み合わせて有害サイトの検出を行う. 提案手法はWebサイトの本文の情報を利用しないため, 既存のキーワードベース方式によって検出が困難なサイトも検出が可能である. このため, 既存のキーワードベース方式と組み合わせて利用することで検出精度を向上させることも可能である. 大規模なWebサイトデータを用いた性能評価実験を行い, 既存のキーワードベース方式と比較して, 適合率を9.3ポイント向上するなどの性能向上を確認した.