著者
新里圭司 絹川 博之
雑誌
情報処理学会研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2002, no.28(2001-DD-032), pp.95-102, 2002-03-15

パソコンや各種携帯端末の普及により、多くの人がインターネット上のデータベースを利用することが可能になった。しかし、以下に示す課題が残っている.(1)情報機器に不慣れなユーザにとって,複雑な論理条件からなる検索要求を指定するのは難しい.(2)パソコンのディスプレイと比べ携帯端末等の表示画面領域は狭いため、多くの検索条件指定項目を表示することができず、ユーザが満足する検索要求を指定することは難しい.このような問題を解決する一つの方法として、会話的表現によるデータベース操作可能な自然言語インタフェースが考えられる.本研究では,図書データベースシステムの検索操作を対象に,パソコンや携帯電話からアクセス可能な自然言語インタフェース処理方式を開発することとした.
著者
新里 圭司 益子 宗 関根 聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.56, no.4, pp.1305-1316, 2015-04-15

本稿では商品の使用感を記述した文を商品レビューから抽出する手法について述べる.オンラインショッピングサイトでは,実店舗で買い物するときのように商品に触れたり,試したりしてから購入することができない.そのため,ユーザがいだく商品のイメージと実際に届く商品の間に,質感や食感などの使用感に関して不一致が生じることがあり,顧客満足度低下の原因となっている.購入前のユーザに対して,商品の使用感に関する情報を提供することはオンラインショッピングサイトの普及のために重要である.提案手法は,「オノマトペを含む文に出現しやすい表現は商品の使用感を記述する際に用いられやすい」という仮説に従い,単語とオノマトペのレビュー文中での共起の強さを計算し,得られた語の共起の強さを用いてレビュー中の文が使用感を記述しているかどうか判定する.実験の結果,F1値で65.9ポイントの精度で使用感を記述した文を抽出できることが分かった.This paper describes an automatic methodology for extracting sentences that contain product impressions (the description about "how a purchased product was after obtaining and using it") from review data in an e-commerce site. E-commerce users cannot grasp such information before purchasing the product. This can be regarded as one of the shortcomings of e-commerce. It is important to convey this information to the users in order to prevent them from having a bad shopping experience. First, we investigate product review sentences that contain onomatopoeias, and reveal that these sentences tend to contain product impressions. Through this finding we assume that words frequently co-occurring with onomatopoeias are likely to be used for describing product impressions. According to this assumption, the proposed method calculates scores for given sentences using co-occurrence strength between words and onomatopoeias, and extracts the sentences that exceed a threshold value. The co-occurrence strength for each word is calculated from sentences in product reviews beforehand. The experimental results show that the performance of our method achieves an average F1 score of 65.9 points and that the method outperforms its alternatives.
著者
新里 圭司
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, pp.28-29, 2015-12-15

本稿では商品の属性値抽出タスクにおけるエラー分析のひとつの事例研究について報告する.具体的には,属性-属性値辞書を用いた単純な辞書マッチに基づく属性値抽出システムを構築し,人手により属性値がアノテーションされたコーパスに対してシステムを適用することで明らかとなる誤り事例の分析を行った.エラー分析は実際のオンラインショッピングサイトで用いられている5つの商品カテゴリから無作為に抽出した100商品ページに対して行った.ここでは誤り事例の多かった2つのエラータイプを挙げ,このような誤りをなくすために必要な処理について述べる.
著者
橋本 力 黒橋 禎夫 河原 大輔 新里 圭司 永田 昌明
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.175-201, 2011 (Released:2011-09-28)
参考文献数
22
被引用文献数
5 7

近年,ブログを対象とした情報アクセス・情報分析技術が盛んに研究されている.我々は,この種の研究の基礎データの提供を目的とし,249 記事,4,186 文からなる,解析済みブログコーパスを構築した.主な特長は次の 4 点である.i) 文境界のアノテーション.ii) 京大コーパス互換の,形態素,係り受け,格・省略・照応,固有表現のアノテーション.iii) 評価表現のアノテーション.iv) アノテーションを可視化した HTML ファイルの提供.記事は,大学生 81 名に「京都観光」「携帯電話」「スポーツ」「グルメ」のいずれかのテーマで執筆してもらうことで収集した.解析済みブログコーパスを構築する際,不明瞭な文境界,括弧表現,誤字,方言,顔文字等,多様な形態素への対応が課題になる.本稿では,本コーパスの全容とともに,いかに上記の課題に対応しつつコーパスを構築したかについて述べる.
著者
馬塲康夫 新里圭司 黒橋 禎夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2008, no.4, pp.67-74, 2008-01-22
被引用文献数
3

本稿では,検索エンジン基盤TSUBAKIを使って検索されたウェブページを,ページ中の複合名詞に注目して自動的にクラスタリングするシステムについて述べる.検索エンジン基盤TSUBAKI とは 日本語ウェブページ1億件を対象にした研究用途に主眼をおいた検索エンジンである.本クラスタリングシステムは,このTSUBAKIと連係することで,数千から数万件のウェブページを分類することが可能であり,さらに,豊富な言語情報を利用した高精度な複合名詞抽出を行うことが可能である.簡単な評価実験の結果,本システムを用いることでTSUBAKIの検索結果中で下位に埋もれているウェブページに対し効率よくアクセスできること,さらには,抽出した複合名詞が有用な情報へアクセスする際に有効であることがわかった.This paper describes a system that organizes a large number of web pages retrieved from the search engine TSUBAKI into clusters according to compound nouns extracted from the pages. TSUBAKI is a search engine infrastructure that can retrieve pages from 100 million web pages. Our clustering system deeply cooperates with TSUBAKI. This enables the system to generate clusters from several thousand web pages, and to give elaborate labels to the clusters. Experimental results showed that our system users can efficiently access low-ranked web pages in a search result obtained from TSUBAKI, and that generated labels navigate the users to information that they want.