著者
立石 健二 宮崎 林太郎 長田 誠也 増山 毅司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.114, no.211, pp.53-57, 2014-09-11

本稿では、「結婚」「子育て」等のライフイベントに関するユーザ属性をYahoo!知恵袋の書込みとYahoo! Japan上の行動ログを用いて推定する方法を提案する。ユーザ属性は詳細に得られる程、ピンポイントなパーソナライズが可能になる一方、取得方法が課題となる。提案方式は2ステップで構成され、まずYahoo!知恵袋の「3歳の子供がいる」といった書き込みから「子育て」といった特定のライフイベント属性を持つ質問者をパターンマッチングにより抽出する。次に、得られた質問者を学習データとして、質問者のYahoo! Japan上の行動ログ(例.クエリ、閲覧ページ)を元に、知恵袋に投稿しないユーザがライフイベント属性を持つかを推定する。評価実験により、1ステップ目が、2ステップ目で正例として用いるに十分な数の質問者を高精度に抽出できることを確認した。
著者
中野 正寛 渋木 英潔 宮崎 林太郎 石下 円香 森 辰則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.107-114, 2008-09-17
被引用文献数
3

本稿では情報信憑性の判断に役立つ要約について扱う.プロードバンド化の進展やブログの普及に伴って爆発的に増加する情報の中には利用者に不利益をもたらす情報も含まれており,情報の信憑性判断を支援する技術の実現は重要な課題である.我々は情報信憑性の判断に役立つ要約の自動生成に向けて,複数の作業者の人手により情報信憑性判断のための要約を作成する実験を行った.そして,得られた要約文章の安定性や複数作業者間の一致度を分析し,情報信憑性の判断に役立つ要約を作成する際に人間が重要視する情報を調査した.実験結果では,要約対象として収集した文書から要約に必要な記述を抜き出すまでの何段階かの絞り込みで中程度の一致が期待できる事がわかった.事後の作業者へのアンケート調査によれば,要約として適当な長さと考えたのは 1 000 から 3 000 文字程度であり,作業者がまとまっていることである.また,情報信憑性の判断に役立つ要約の自動生成に向けて,作業者が作成した要約を参照要約とし,それに対応する原文からの文の抜粋に関するデータを整備した.In this paper, we investigated processes of text summarization that supports the judgment of the information credibility. The realization of technology that supports the judgment of the information credibility is one of important issues, because information harmful to users creeps into the huge amount of available information in the era of information explosion. Aiming at automated summarization, we conducted experiments in which multiple subjects manually created text summaries from the viewpoint of the judgment of the information credibility. We studied the stability of the summarization and the degree of agreement in the results of extraction of important information. We also investigated the information that subjects supposed to be important in the process of the creation of summaries, by using questioners after the experiments. The experimental results show that moderate agreement can be expected in the result of extraction of important information. The length of summaries was between about 1,000 and 3,000 characters. According to the questioners, the documents that were well-organized and information about information holders were supposed to be important. Aiming at the automated summarization, we also prepared the information of the extracted sentences that correspond to the created summaries.
著者
宮崎 林太郎 塚原 裕常 西村 純 前田 直人 森 辰則 小林 寛之 石川 雄介 田中 裕也 翁 松齢
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.26, no.2, pp.376-386, 2011 (Released:2011-02-08)
参考文献数
8

In order to achieve faceted search in net auction system, several researchers have dealt with the automated extraction of attributes and their values from descriptions of exhibits. In this paper, we propose a two-staged method to improve the performance of the extraction. The proposed method is based on the following two assumptions. 1) Identifying whether or not each sentence includes the target information is easier than extracting the target information from raw plain text. 2) Extracting the target information from the sentences selected in the first stage is easier than extracting the target information from the entire raw plain text. In the first stage, the method selects each sentence in a description that is judged to have attributes and/or values. In this stage, each sentence is represented a bag-of-words-styled feature vector, and is labeled as selected or not by a classifier derived by SVM. In the second stage, the extraction of attributes and values are performed on the cleaned text that does not contain parts of description irrelevant to exhibits, like descriptions for the postage, other exhibits, and so on. In the second stage, we adopt a sequential labeling method similar to named entity recognizers. The experimental result shows that the proposed method improves both the precision and the recall in the attribute-value extraction than only using second-stage extraction method. This fact supports our assumptions.