著者
池田 和史 柳原 正 松本 一則 滝嶋 康弘
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.3, no.3, pp.68-77, 2010-09-28

ブログ上の文書には口語的な表現や特有の表記などのくだけた表現が多数含まれるため,一般の形態素解析器を用いても十分な解析精度を得ることはできない.くだけた表現は人手により辞書登録されることが一般的であるが,人的コストの大きさや専門的な知識を必要とすることが課題である.本稿ではくだけた表現を正規な表現に修正することで高精度な形態素解析を実現する手法を提案する.提案手法ではくだけた表現の修正候補文字列をくだけた表現の少ない文書から自動的に検索し,修正ルールを生成する.生成した多数の修正ルールから文脈に適した修正ルールを選択的に適用するために,検索結果における修正候補文字列の出現頻度,修正前後の文字列間における編集距離,修正前後の文の形態素解析結果の比較,を用いて修正ルールをスコアリングする手法を合わせて提案する.提案手法と従来手法の性能比較評価実験を行い,各手法における未知語の出現率や単語区切りの正確さ,修正前後の文の意味変化を定量的に評価した.提案手法では従来手法と同程度の単語区切りの正確さを維持しながら,対象文章の未知語出現数を 36.1% 減少させることに成功した.これは従来手法における未知語減少数の 2.5 倍以上である.
著者
池田 和史 服部 元 松本 一則 小野 智弘 東野 輝夫
雑誌
情報処理学会論文誌コンシューマ・デバイス&システム(CDS) (ISSN:21865728)
巻号頁・発行日
vol.2, no.1, pp.82-93, 2012-03-21

近年,TwitterのようなブログやWeb掲示板などに投稿された商品やテレビ番組などに対する口コミ情報を分析してマーケティングなどに応用する評判解析技術に注目が集まっている.これらは手軽に情報発信することが可能なため,新鮮かつ多数の意見を即座に収集するツールとして,その活用は大きな可能性を持っている.一方で,評判は投稿者の年齢や性別,趣味などのプロフィールに応じて異なることが多いが,ブログや掲示板には投稿者の年齢や性別が記載されていない場合が多く,投稿数や平均的な意見などの表面的な情報しか抽出できず,プロフィールごとの意見を抽出できないことが課題であった.この問題を解決するため,著者らはTwitter上の口コミ投稿者の日常的な投稿内容を解析することで,年代,性別,居住地域などのプロフィールを推定する技術を開発した.本技術を利用することで,ネット上の口コミ情報をプロフィールごとに分類,集約することが可能となり,商品の改善やテレビ番組の企画などに生かすことが可能となる.性能評価実験の結果,提案手法の汎用的な推定精度は性別で88.0%,年代で68.0%,居住地域で70.8%であり,視聴率測定などへの応用を想定したプロフィール分布誤差の評価では,分布に偏りがある場合でも性別で8.8%,年代で12.4%,居住地で14.0%と実利用に十分な精度であることが示された.
著者
松本 一則 服部 元 小川 圭介 橋本 真幸
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013, no.22, pp.1-3, 2013-07-15

web サイトの内容や分野を表すジャンルコードを計算機で推定するジャンル推定技術がマーケティング分野で重要になってきている.一般的に同技術の場合,ジャンル推定に適した単語をあらかじめ求めておき,推定対象ページに現れるそれらの語の出現頻度を基とした特徴ベクトルでジャンル判定を行う.しかし必要な単語数は膨大で識別器の学習は通常困難である.そこで,情報量基準で選択した最小限の単語数でジャンル別 SVM を構築し,同 SVM の各識別結果から総合判定を行う 2 段階 SVM を実現した.さらにエラー識別に役立つ語を学習させた SVM を第 1 段に追加する工夫で精度を向上させた。Automatic genre estimation for specified web sites or web pages is important for web marketing. In general, bag of words (BOWs) extracted from specified web pages are inputted to the genre discriminator. However, the number of necessary words is huge for the discriminator. Thus authors propose genre-specific words extraction based on Information Criteria, and a practical 2-stage SVMs which are ensemble with genre-specific SVMs. We also show SVMs discriminating errors of another SVM improve the accuracy of the estimation.
著者
武吉 朋也 帆足 啓一郎 松本 一則 小野 智弘
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.53, no.12, pp.2841-2853, 2012-12-15

インターネットの普及により,一般ユーザでもオンラインでのディスカッションを容易に行えるようになった.このような状況下では,多数存在するディスカッションのそれぞれについて,どの程度円滑に進行しているのか数値化することがユーザ,およびディスカッションサイトの管理者双方にとって必要である.そこで本稿では,ディスカッションの円滑な進行に寄与すると人間が感じる発言のディスカッション全体に占める割合を健全度と定義し,ディスカッションのデータから単純集計により取得可能な参加人数や発言間の時間間隔等の表層的特徴量と,ディスカッションの内容を表す単語の重要度からなるテキスト特徴に基づいて,ディスカッションの健全度を定量化する手法を提案する.人手で付与した健全度に応じてディスカッションに健全,半分程度が荒れ,荒れの3つのラベルを設定し,提案手法によるラベル予測の精度を評価した結果,テキスト特徴のみに基づく分類手法よりもF値が上回ることを確認した.これにより,本稿で述べる提案手法は健全度が高いディスカッションをユーザに提示し,参加を促すといった利用シーンへの適用が期待できる.The spread of online community sites such as social networking services has made it possible for common users to conduct discussions online. The rapid increase of such online discussions has aroused the demand of technologies to automatically present lively and exciting online discussions to the user, and also to detect "flamed" discussions to the service providers to prevent unnecessary collisions between users. This research proposes a novel method to quantify the soundness of online discussion based on simple surface and textual features extracted from online discussions. The features used by the proposed method needs neither a large-scale dictionary nor advanced text analysis. In addition, the features are generic, thus extractable from any type of online discussion. Our proposed method achieved higher F-measure for the classification of "sound" and "flamed" online discussions than typical text classification methods using term features, proving the effectiveness to select such discussions to system users.
著者
柳原 正 池田 和史 松本 一則 滝嶋 康弘
出版者
FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌
情報科学技術フォーラム講演論文集
巻号頁・発行日
vol.8, no.2, pp.313-315, 2009-08-20

一般的に用いられる形態素解析器では、単語境界や品詞の推定を行う際に形態素解析用辞書が必要である。新しい単語に対応するため、それらの単語を辞書に追加しなければならないが、この作業は人手によって行わなければならないため、コストがかかることが大きな問題となっている。本論文では、情報量基準に基づく形態素解析用辞書の自動獲得方式を提案する。提案内容では、情報量基準に基づくモデル検定によって、単語境界及び品詞を自動推定する。これにより、人手を借りずに形態素解析用辞書を自動的に更新可能となる。
著者
池田 和史 柳原 正 服部 元 松本 一則 小野 智弘 滝嶋 康弘
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.8, pp.2474-2483, 2011-08-15
被引用文献数
2

本稿では高速かつ高精度に有害サイトを検出するため, Webサイトの背景色やリンク先, ブラウザに特定の動作をさせるスクリプトなど, 有害サイトに特徴的に見られる傾向をHTML要素から検出する手法を提案する. 提案手法では有害サイトのHTMLに偏って出現するような文字列を自動的に抽出し, SVM(Support Vector Machine)を用いてこれらの特徴を組み合わせて有害サイトの検出を行う. 提案手法はWebサイトの本文の情報を利用しないため, 既存のキーワードベース方式によって検出が困難なサイトも検出が可能である. このため, 既存のキーワードベース方式と組み合わせて利用することで検出精度を向上させることも可能である. 大規模なWebサイトデータを用いた性能評価実験を行い, 既存のキーワードベース方式と比較して, 適合率を9.3ポイント向上するなどの性能向上を確認した.In this paper, we propose high-speed and accurate algorithms for detecting malicious Web pages. Our algorithms detect the features of malicious Web pages from their HTML elements such as the background colors of Web pages, the server names related to malicious Web pages, or the name of javascript functions that makes browsers perform unusual actions in response to malicious Web pages. Strings that appear especially in HTML elements of malicious Web pages are automatically chosen. SVMs (Support Vector Machines) combine these strings and detect malicious Web pages. Since our algorithms do not rely on the text parts of Web pages, they can detect Web pages that existing text-based algorithms have difficulty in detecting. By conducting a large-scale performance evaluation with real malicious Web pages, we showed that the hybrid algorithms of our algorithms and existing text-based algorithms increase the precision of existing text-based algorithms alone by 9.3 points.
著者
池田 和史 柳原 正 松本 一則 滝嶋 康弘
出版者
FIT(電子情報通信学会・情報処理学会)運営委員会
雑誌
情報科学技術フォーラム講演論文集
巻号頁・発行日
vol.8, no.2, pp.13-18, 2009-08-20

ブログ上の文書には口語的な表現や特有の表記などのくだけた表現が多数含まれるため、一般の形態素解析器を用いても十分な解析精度を得ることはできない。くだけた表現は人手により辞書登録されることが一般的であるが、人的コストの大きさや専門的な知識を必要とすることが課題である。本稿ではくだけた表現を文語的な表現に修正するための教師なし学習手法を提案する。提案手法ではくだけた表現の修正候補文字列をくだけた表現の少ない文書から自動的に検索し、修正ルールを生成する。生成した多数の修正ルールから文脈に適した修正ルールを選択的に適用するために、検索結果における修正候補文字列の出現頻度、修正前後の文字列間における編集距離、修正前後の文の形態素解析結果の比較、を用いて修正ルールをスコアリングする手法を合わせて提案する。提案手法を実装し、従来手法との性能比較評価実験を行った。各手法を利用したときの未知語の出現率や文節区切りの正確さ、修正前後の文の意味変化を定量的に評価した。提案手法では従来手法と同程度の文節区切りの正確さを維持しながら、対象文書の未知語出現数を30.3%減少させることに成功した。これは従来手法における未知語減少数の2倍以上である。
著者
池田 和史 柳原 正 服部 元 松本 一則 小野 智弘
出版者
情報処理学会
雑誌
研究報告データベースシステム(DBS) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.39, pp.1-8, 2010-11-05

評判解析や文書の要約、検索などを高精度に行うために、係り受け解析や格解析が用いられるが、ブログや電子掲示板上の文書を対象とする場合、口語的な記述が多数見られるため、十分な解析精度が得られないことが課題となる。本稿では、口語的な記述に頻繁に見られる助詞落ち表現が解析精度低下の原因の1つであることに着目し、助詞落ちを自動的に推定し、欠落した助詞を補完することで解析精度を向上する手法を提案する。提案手法では、新聞などの助詞落ちの少ない正規の文書から意図的に助詞落ちを発生させた文書を正例、助詞落ちを発生させていない文書を負例として識別器を学習させ、解析対象である口語文書の助詞落ち箇所を推定する。加えて、推定した助詞落ち箇所の前後の単語をキーとして新聞文書を検索することで、適切な助詞を自動的に補完する。性能評価実験では、Webから収集したブログ文書に対して、人手により助詞落ち箇所と補完すべき助詞を付与し、提案手法における助詞落ち推定精度および補完精度の評価を行った。加えて、助詞を補完することによる係り受け解析精度の向上についても評価した。In this paper, we propose algorithms for reducing the errors of the dependency analysis on colloquial style sentences by complementing the omission of postpositions which makes dependency analysis errors. In our algorithms, the omission of postpositions is detected by a classifier which is trained by the features extracted from formally written documents such as newspaper sentences. As positive examples of the classifier, we automatically omit the postpositions from newspaper sentences, and as negative examples, we used the newspaper sentences as they are. After estimating the omission of the postpositions, complementation candidates of the omitted postpositions are automatically retrieved from newspapers. In the experimental evaluations, we collect blog documents which contain colloquial style sentences and manually labeled the omitted postpositions on them. We evaluated the estimation accuracy, complementation accuracy, and improvement of the dependency analysis accuracy.
著者
松本 一則 内藤 正樹 帆足 啓一郎 呉 剣明 滝嶋 康弘
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. ITS (ISSN:09135685)
巻号頁・発行日
vol.108, no.424, pp.59-63, 2009-01-28
参考文献数
3
被引用文献数
2

Microsoft Wordによる電子情報通信学会技術研究報告形式のテンプレートファイルです.
著者
池田 和史 服部 元 松本 一則 小野 智弘 東野 輝夫
出版者
情報処理学会
雑誌
情報処理学会論文誌コンシューマ・デバイス&システム(CDS) (ISSN:21865728)
巻号頁・発行日
vol.2, no.1, pp.82-93, 2012-03-21
被引用文献数
1

近年,TwitterのようなブログやWeb掲示板などに投稿された商品やテレビ番組などに対する口コミ情報を分析してマーケティングなどに応用する評判解析技術に注目が集まっている.これらは手軽に情報発信することが可能なため,新鮮かつ多数の意見を即座に収集するツールとして,その活用は大きな可能性を持っている.一方で,評判は投稿者の年齢や性別,趣味などのプロフィールに応じて異なることが多いが,ブログや掲示板には投稿者の年齢や性別が記載されていない場合が多く,投稿数や平均的な意見などの表面的な情報しか抽出できず,プロフィールごとの意見を抽出できないことが課題であった.この問題を解決するため,著者らはTwitter上の口コミ投稿者の日常的な投稿内容を解析することで,年代,性別,居住地域などのプロフィールを推定する技術を開発した.本技術を利用することで,ネット上の口コミ情報をプロフィールごとに分類,集約することが可能となり,商品の改善やテレビ番組の企画などに生かすことが可能となる.性能評価実験の結果,提案手法の汎用的な推定精度は性別で88.0%,年代で68.0%,居住地域で70.8%であり,視聴率測定などへの応用を想定したプロフィール分布誤差の評価では,分布に偏りがある場合でも性別で8.8%,年代で12.4%,居住地で14.0%と実利用に十分な精度であることが示された.This paper proposes a real-time analysis technology of the online opinions of commercial products and broadcast TV programs. As many people submit their opinions via social media services, such as Twitter, utilizing these real-time and huge amounts of opinions is strongly desired as a novel marketing tool. However, it is impossible in many cases to understand the overall trend of such enormous user opinions by browsing the information stream on the screen. In addition, though presuming the ratio of positive and negative opinions is useful, that discrimination is not much enough because the ratio of opinions differs depending on user demographics (age, sex, area, etc.) The proposed technology makes it possible to analyze the contents of Twitter streams related to commercial products or broadcast TV programs, and estimate the demographics of the users by tracking and analyzing their past tweets. This analysis attracts peoples such as, product planners, broadcast TV directors, and advertisement agencies that produce and promote products/TV programs for target segments. Our experimental results show that the estimation accuracy of the proposed algorithms is, 88.0% in sex, 68.0% in age, 70.8% in areas, respectively. The error ratio in the distribution of estimated demographics was 8.8% in sex, 12.4% in age, 14.0% in area, respectively, which is high enough for practical use.
著者
池田和史 服部元 松本一則 小野智弘 東野輝夫
雑誌
マルチメディア、分散協調とモバイルシンポジウム2011論文集
巻号頁・発行日
vol.2011, pp.1308-1315, 2011-06-30

近年、TwitterのようなブログやWeb掲示板などに投稿された商品やテレビ番組などに対する口コミ情報を分析してマーケティング等に応用する評判解析技術に注目が集まっている。これらは手軽い情報発信が可能なため、新鮮かつ多数の意見を即座に収集するツールとして、その活用は大きな可能性を持っている。一方で、評判は投稿者の年齢や性別、趣味などのプロフィールに応じて異なることが多いが、ブログや掲示板には投稿者の年齢や性別が記載されていない場合が多く、投稿数や平均的な意見などの表面的な情報しか抽出できず、プロフィールごとの意見を抽出できないことが課題であった。この問題を解決するため、著者らはTwitter上の口コミ投稿者の日常的な投稿内容を解析することで、年代、性別、居住地域などのプロフィールを推定する技術を開発した。本技術を利用することで、ネット上の口コミ情報をプロフィールごとに分類、集約することが可能となり、商品の改善やテレビ番組の企画などに生かすことが可能となる。性能評価実験の結果、提案手法の汎用的な推定精度は性別で88.0%、年代で68.0%、居住地域で70.8%であり、視聴率測定などへの応用を想定したプロフィール分布誤差の評価では、分布に偏りがある場合でも性別で8.8%、年代で12.4%、居住地で14.0%と実利用に十分な精度であることが示された。
著者
帆足 啓一郎 上向 俊晃 松本 一則 滝嶋 康弘
出版者
情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.3, pp.41-52, 2009-09-30
被引用文献数
1

本研究では,過去の研究において筆者らが提案した,位置情報付き写真共有 Web サイト上から収集した画像に対し,その位置情報と色特徴に基づいてクラスタリングを行うことにより,Points of Interest (POI) を表す画像群 (POI クラスタ) を自動的に抽出する手法に加え,抽出された POI クラスタに関連するランドマークの名称を自動的に推測する手法の提案と評価を行う.具体的には,POI クラスタの場所と領域に基づき,地図検索を行い,POI クラスタ周辺のランドマークの名称を収集し,次に,各ランドマーク名称を検索クエリとして Web 画像検索を行い,ランドマークに関連する画像情報を収集し,POI クラスタ内の画像との類似度を算出することにより,POI クラスタの画像との関連度が高いランドマーク名称を推測する.東京都心で撮影された画像群を対象とした評価実験により,提案手法によるランドマーク推測の有効性を実証する.This research proposes a novel method to associate specific landmarks to points of interest (POIs), i.e., areas that are expected to be of interest to many users, which can be automatically extracted by clustering geo-tagged images based on their geographical location and color features. Namely, the proposed method first collects images from the Web, by using the names of the landmark candidates of the extracted POIs as Web image search queries. The collected images are used as references of the respective landmarks. The landmark representing each POI is then determined, based on the content-based similarity between the images in the POIs, and the Web images of the landmark candidates. This approach makes possible the automatic construction of a landmark identification system for geo-tagged images. The effectiveness of the proposed method is proved by evaluation experiments conducted with images in the Tokyo metropolitan area.
著者
池田 和史 柳原 正 服部 元 松本 一則 小野 智弘 滝嶋 康弘
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.8, pp.2474-2483, 2011-08-15

本稿では高速かつ高精度に有害サイトを検出するため, Webサイトの背景色やリンク先, ブラウザに特定の動作をさせるスクリプトなど, 有害サイトに特徴的に見られる傾向をHTML要素から検出する手法を提案する. 提案手法では有害サイトのHTMLに偏って出現するような文字列を自動的に抽出し, SVM(Support Vector Machine)を用いてこれらの特徴を組み合わせて有害サイトの検出を行う. 提案手法はWebサイトの本文の情報を利用しないため, 既存のキーワードベース方式によって検出が困難なサイトも検出が可能である. このため, 既存のキーワードベース方式と組み合わせて利用することで検出精度を向上させることも可能である. 大規模なWebサイトデータを用いた性能評価実験を行い, 既存のキーワードベース方式と比較して, 適合率を9.3ポイント向上するなどの性能向上を確認した.
著者
青木 圭子 松本 一則 橋本 和夫
雑誌
全国大会講演論文集
巻号頁・発行日
vol.55, pp.208-209, 1997-09-24

近年, 電子化文書の流通が増大し, 大量の文書情報の中から必要なものを検索する必要性が増してきており, 類似性を基準に大量の文書をクラスタリングする技術が重要となってきた。既に, 文書中の語の出現確率を用い, 文書集合をベイジアンクラスタリングする手法が提案されているが, 同手法の場合, 生成中の全クラスタ対においてクラスタどうしを一旦マージする必要があるため, 大量の文書集合を処理することが困難になる。そこで筆者らは, 計算量を削減することを目的とした大量文書向けのクラスタリング手法を提案・実装して, 提案手法と従来手法によるマージ回数の比較を行った。本稿では, 提案手法のマージ回数の推定方法について考察し, 実測値との比較結果を報告する。
著者
松本 一則 内藤 正樹 帆足 啓一郎 呉 剣明 滝嶋 康弘
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IE, 画像工学 (ISSN:09135685)
巻号頁・発行日
vol.108, no.425, pp.59-63, 2009-01-28
参考文献数
3
被引用文献数
1

Microsoft Wordによる電子情報通信学会技術研究報告形式のテンプレートファイルです.
著者
帆足 啓一郎 上向 俊晃 松本 一則 菅谷 史昭
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.107, no.281, pp.87-92, 2007-10-18

本研究では,近年活発になっている動画像共有サービスにおいて,一般ユーザが撮影しているCGM(Consumer Generated Media)動画像コンテンツを対象とした動画像検索手法の提案と評価を行う.CGM動画像コンテンツの多くは,カメラ付携帯電話などで撮影されていることもあり,テレビ番組などのプロ製作コンテンツと比較してショットなどの編集効果が少なく,かつ画質が悪いという特性がある.そのため,カット点検出を適用してから特徴抽出を行う従来の検索手法では高精度な検索結果が得られない.そこで,本研究では,CGM動画像コンテンツの各フレームの色配置特徴量に基づき,フレームをクラスタリングした結果を「疑似ショット」とみなし,Earth Mover's Distance(EMD)を利用した動画像検索手法を提案する.正解ラベルが付与されたCGM動画像コンテンツに対する評価実験の結果,従来手法を上回る検索精度が得られることが実証された.