著者
新 隼人 坂田 亘 田中 リベカ 黒橋 禎夫
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.1, pp.1-13, 2020-06-26

タスク志向の自動対話システムであってもユーザが雑談のような発話を入力することは少なくない.特に自治体などが運営する公的な対話システムにおいては,それに対して不適切な応答を行わないようにすることは重要である.本研究では,実サービスのクエリログおよびクラウドソーシングで集めたデータを利用して,対話システムの不適切発話の調査を行った.調査を基に不適切発話を「品行方正でない発話」,「システムの設定を逸脱した内容の発話」の 2 つに分類し,それらに対するフィルタリング手法を提案した.さらに,Twitter から収集したデータにフィルタリングを適用し,得られたデータで対話システムを学習した.その結果,ベースラインに比べて品行方正でない発話が減少し,システムの設定の逸脱も見られなくなった.
著者
吉田 崇裕 久野 遼平 大西 立顕
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-241, no.6, pp.1-8, 2019-08-22

トピックモデルは自然言語処理を始めとして多くの分野で用いられる手法である.トピックモデルの基本形である Latent Dirichlet Allocation (LDA) の提唱後,様々な LDA の改良モデルが提案されてきた.例えば Correlated Topic Model (CTM) は LDA が文書中のトピック間の相関を十分に考慮できない点に注目したモデルであり,汎化性能が向上すると報告されている.Gaussian LDA は LDA が単語間の意味的な近さを十分に考慮できない点に注目したモデルであり,トピックの意味一貫性が向上すると報告されている.両者を組み合わせた Correlated Gaussian Topic Model (CGTM) と呼ばれるモデルは上記二つの欠点を同時に補うのみならず,単語の埋め込み空間上でトピックの相関構造を可視化することができ革新的である.しかし,文書内におけるトピックの関係性は,CGTM が対象とする単純な相関構造だけで表現できるものではない.実際日常生活においても,例えば 「経済」 - 「金融政策」 - 「出口戦略」 のように話題の階層性を意識し会話をすることは多々ある.そこで本稿では階層的トピックモデルとして最も単純な PAM (Pachinko Allocation Model) とGaussian LDA を組み合わせたモデルを提案することで,トピックの階層構造を単語埋め込みベクトル空間上で分析する一歩としたい.
著者
濱田 晃一 藤川 和樹 小林 颯介 菊池 悠太 海野 裕也 土田 正明
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2017-NL-232, no.12, pp.1-7, 2017-07-12

個性を反映した返答生成は,様々な個性のキャラクタを用意することで多様な返答を可能にしたり応答の一貫性を確保できる点で近年注目されている.一方で,それぞれの返答個性を学習させるための対話例の準備が高コストであるという問題がある.本研究では,深層学習を用いた返答文生成モデルに対して,特定の返答個性を追加反映する手法の提案及び比較評価を行う.さらに,返答文生成に用いる個性表現ベクトルの演算による生成文の変化について分析を行う.
著者
坂地 泰紀 野中 尋史 酒井 浩之 増山 繁
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2009-NL-192, no.14, pp.1-8, 2009-07-15

特許文書から直接的なユーザの便益に相当する表現と,技術上の解決課題を示す表現を自動的に抽出するアルゴリズム 「Cross-Bootstrapping」 を提案する.抽出した直接的なユーザの便益に相当する表現と,技術上の解決課題を示す表現はパテントマップを生成するために役立つ.本手法は,二つの手がかりと統計情報を用いて,ブートストラップ的に表現対を抽出する.また,辞書や人手により作成したパターンを用いず,自動的に表現を抽出することができる.最後に本手法の評価実験を行い,パテントマップを自動生成するために,十分な性能を達成したことを確認した.
著者
今村 賢治 隅田 英一郎
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-241, no.1, pp.1-8, 2019-08-22

本稿では,事前訓練済みの BERT (Bidirectional Encoder Representations from Transformer) モデルを Transformer ベースのニューラル機械翻訳 (NMT) に適用する.単言語のタスクと異なり,NMT の場合,BERT のモデルパラメータ (訓練済み) に比べ,デコーダー (未学習) のパラメータ数が多い.そこで,まず BERT エンコーダーのパラメータを固定して,未学習パラメータのみを訓練し,その後,全体を微調整する 2 段階最適化を行う.実験では,直接微調整したときには BLEU スコアが極めて低くなったのに対して,2 段階最適化では訓練が成功した.その結果,Transformer の基本モデルや,モデル構造が同じ事前訓練なしの Transformer に比べても BLEU スコアが向上することが確認された.また,少資源設定で,より効果が高いことが確認された.
著者
加藤 玲大 馬 青 村田 真樹
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-228, no.10, pp.1-6, 2016-09-22

本稿は,深層学習の手法である Deep Belief Network (DBN),Stacked Denoising Autoencoder (SdA) を用いて,QA サイトに投稿された質問文のカテゴリ分類について述べる.カテゴリ分類における DBN と SdA の有効性を確認するため,多層パーセプトロン (MLP),サポートベクターマシン (SVM) をベースライン手法とし,分類精度の比較を行った.次元数の異なる入力データを 2 種類用意し,入力の次元数の違いにおける分類精度の比較を行った.機械学習手法のパラメータの最適化にはグリッドサーチを行うことにより決定した.実験の結果,SdA が最も精度が高かった.また,入力が高次元の時,DBN,SdA ともに分類精度がベースライン手法より高かった.さらに,入力の次元数を増やすことが深層学習の精度の向上に有効であることが確認できた.
著者
Pannawit Samatthiyadikun Atsuhiro Takasu
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.6, pp.1-4, 2013-01-04

We have proposed multi-criteria (MC) recommender system by using a latent probabilistic model. In this model, users and items are mapped into small number of groups, and preference is represented based on the group instead of indivisual user. In other words, features of users and items are represented by probability distributions over latent topics. When predicting rating scores, we need to aggregate features into predicted rating score. This paper compares two ways to aggregate features for predicting rating score of unrated items in MC recommendation.We have proposed multi-criteria (MC) recommender system by using a latent probabilistic model. In this model, users and items are mapped into small number of groups, and preference is represented based on the group instead of indivisual user. In other words, features of users and items are represented by probability distributions over latent topics. When predicting rating scores, we need to aggregate features into predicted rating score. This paper compares two ways to aggregate features for predicting rating score of unrated items in MC recommendation.
著者
酒井 哲也 野上 謙一
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2009, no.2, pp.105-112, 2009-01-15

(株)ニューズウォッチは,ユーザの情報要求の変化をシステム側が促進し,ユーザが繰り返し検索を行う過程で有用な情報に 「出会う」 ことを可能にする探検型検索サイト「コトバ ノ ウチュウ」 を 2008 年 9 月に正式リリースした.このサイトでは,情報要求の変化促進の手段として,日本語版ウィキペディアの参照関係を視覚したインタフェース 「ギンガ」 を提供している.本研究では,「コトバ ノ ウチュウ」の 2008 年 10 月分のクエリログおよびクリックスルーデータを用い,ユーザが 「ギンガ」 上でどのようなクエリからどのようなクエリに遷移するかを分析した.その結果,ユーザは,人名から人名,組織名から組織名,地名から地名といったように現在のクエリと同一のタイプのクエリに遷移する明確な傾向があることがわかった.本知見は,探検型検索においてより有用なクエリ候補をユーザに提示するために役立てる予定である.In September 2008, NewsWatch, Inc. released an exploratory Web search site called KotobaNoUchu (Galaxies of Words), which encourages change in the user's information need and enables "serendipitous search" through repeated querying. To this end, KotobaNoUchu visualises the graph structures of Japanese Wikipedia, in a graphical interface called ginga (galaxy). In this study, we analyse the query log and clickthrough data of KotobaNoUchu from October 2008, to see how users move from a certain type of query to another on the ginga interface. Our results show that users clearly tend to make transitions within the same query type - from person names to person names, from place names to place names, and so on. We plan to utilise this finding for providing the user with more useful query candidates for exploratory search.
著者
長野 翔一 市川 裕介 小林 透
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.7, pp.1-7, 2009-11-09
参考文献数
19
被引用文献数
1

ウェブ広告において,ユーザのある期間の閲覧履歴を利用して広告を配信する行動ターゲティング広告が注目されている.しかし,行動ターゲティング広告は,検索連動広告のようにユーザからそのとき調べたかったことをキーワードとして与えられることは期待できないため,ある期間の閲覧履歴から,そのユーザが探していたもの,欲しかったもの (意図) をキーワードとして抽出する技術が必要とされている.キーワードの抽出には TFIDF に代表される文書単体への重みづけを適用し,その総和を採用する従来方式が利用されるが,従来方式は,各履歴を均等に扱うため,出現する履歴が少ないキーワードは抽出は困難である,本稿はこれらの課題を解決するため,文書分類を利用し,キーワードが出現した履歴からユーザの意図を推定する方式を提案する.また,被験者実験を通して,直前のクラスタと分析期間の履歴に共通して出現するキーワードの数が確保されていれば,提案方式が従来方式より有効であることを検証した.In this paper, we suggest a keyword suggestion method considering user's browsing interests in access log to overcome these problems. First, we make a hierarchical tree by using keywords appearance in access logs, for extracting lower abstraction keywords. Then 2 different abstraction levels set for contextual keywords and unique keywords, for deciding abstraction level of suggested keywords. In addition, we evaluate on effectiveness of a suggested framework by experiment results.
著者
篠井 暖
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-236, no.3, pp.1-7, 2018-07-02

音楽ファンにとって,自分の好みに合う新たな楽曲に出会えることは大きな喜びである.近年の定額制音楽配信サービスの普及で膨大な量の楽曲を聴取可能になった一方で,数百万 ~ 数千万曲という規模の楽曲の中から好みに合う楽曲をひとつひとつ試聴しながら探すのはもはや不可能になっており,リスナーの好みに合う楽曲を簡単に検索可能な仕組みが必要になっている.本稿では,楽曲を探す際の有力な手がかりとしてアーティスト情報に着目し,アーティストの特徴抽出手法について検討する.アーティストに関する情報を記述した文書の潜在表現を学習することによりアーティストのベクトル表現 (ArtistVector) を獲得し,クエリアーティストと類似するアーティストを検索可能にする手法を提案する.アーティストを特徴づける文書として,(1) アーティスト自身の説明を記述した文書と (2) リスナーからのアーティストの評価を記述した文書が重要になると考え,両者に対応する文書として Wikipedia 記事と Web レビュー記事を学習データに利用して ArtistVector を獲得した.得られた ArtistVector に対しジャンル分類タスクによる評価を行い,データセットおよび手法の有効性を検証した.また ArtistVector を UMAP により 2 次元平面上に可視化し,コンテキストに基づく関係性を反映した類似アーティストが得られていることを確認した.
著者
岡崎直観 乾健太郎
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-217, no.8, pp.1-5, 2014-06-26

単語の意味ベクトルを大規模コーパスから学習するためのツールとして,Mikolov らの手法 [14] を実装した word2vec が注目を浴びている.本論文は,word2vec を複数のプロセッサで並列で動作させた時に学習速度が低下する原因を説明し,これを改善するアルゴリズムを提案する.提案手法は学習で得られる単語ベクトルの質を落とすこと無く,複数のプロセッサを効率よく利用できることを実験的に示す.
著者
若山龍太 白井清昭
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-216, no.21, pp.1-8, 2014-05-15

質問タイプの分類はファクトイド型質問応答システムにおける重要な要素技術である.従来手法では,あらかじめ定義されている質問タイプの粒度が粗いため,実用的な質問応答システムに用いるには不十分であるという問題があった.本研究では,関根の拡張固有表現階層に基づく詳細な質問タイプを定義し,質問文の質問タイプを Support Vector Machine (SVM) ならびに k-NN 法を用いて自動分類することを試みる.また,分類器の訓練データとして,正解の質問タイプが付与された質問文のコーパスに加えて,固有表現タグ付きコーパスを併用する手法を提案する.実験の結果,質問タイプ分類の正解率は 60.3%となった.学習素性の有効性を検証した結果,自立語,疑問詞の素性が質問タイプの分類に有効であること,訓練データの量が多いときには単語 bi-gram も有効な素性であることがわかった.一方,訓練データとして固有表現タグ付きコーパスを併用することの効果は確認できなかった.
著者
若山龍太 白井清昭
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014, no.21, pp.1-8, 2014-05-15

質問タイプの分類はファクトイド型質問応答システムにおける重要な要素技術である.従来手法では,あらかじめ定義されている質問タイプの粒度が粗いため,実用的な質問応答システムに用いるには不十分であるという問題があった.本研究では,関根の拡張固有表現階層に基づく詳細な質問タイプを定義し,質問文の質問タイプを Support Vector Machine (SVM) ならびに k-NN 法を用いて自動分類することを試みる.また,分類器の訓練データとして,正解の質問タイプが付与された質問文のコーパスに加えて,固有表現タグ付きコーパスを併用する手法を提案する.実験の結果,質問タイプ分類の正解率は 60.3%となった.学習素性の有効性を検証した結果,自立語,疑問詞の素性が質問タイプの分類に有効であること,訓練データの量が多いときには単語 bi-gram も有効な素性であることがわかった.一方,訓練データとして固有表現タグ付きコーパスを併用することの効果は確認できなかった.
著者
早川 晃央 韓 東力
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.5, pp.1-7, 2011-11-14

インターネットの普及に伴い、個人がWeb掲示板やブログなどを利用して容易に情報発信を行うことができるようになり、ある商品や組織について評価・評判の情報を収集する際に個人が発信源となっている情報を重視する傾向にある。中でもトピックごとに開設されているWeb掲示板に有用な情報が含まれることが多く、利用者にとって大きな手助けとなっている。しかし、このような情報が不規則な形式でWeb掲示板内に乱雑に置かれているため、有益な情報を素早く取得することは難しく時間を要してしまう。そこで我々はWeb掲示板内の記事を回答記事と非回答記事に分類し、さらに回答記事から質問記事を探索することにより、質問回答対の自動作成を試みた。また、Web掲示板から直接抽出された質問回答対の集合には、一つの質問に対して複数の回答が付与されているものがあるため、ベスト回答の選定手法を提案した。実験結果によって、本研究で提案した質問回答対の作成手法及びベスト回答の選定手法に一定の有効性があることを確認できたが、十分な精度が得られていないことが今後の課題として残っている。Individual information transmission on the Internet has been one of main information resources for general users. More and more users prefer to utilize information provided by individuals on web message boards or blogs rather than particular or formal information when carrying out an investigation on a product or an organization. In this paper, we focus on web message boards where almost all posted messages are expected to be related to a particular topic. A web message board is supposed to contain plenty of useful information. However it is not easy to extract useful information from it as messages are usually posted irregularly in time and format. In order to make the process of information extraction from web message boards more efficient and less time-consuming, we classify all the messages in a web message board into two groups, queries and answers, and then find all the answers for each query to generate a QA entry. During this process, we have proposed a method to select the best answer among all the answers for a particular query. Finally we show the results of some experiments that have been conducted to examine the effectiveness of our methods.
著者
秋葉 拓哉
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2015-NL-222, no.8, pp.1-1, 2015-07-08

物事の関係が現れるほぼあらゆる場面で,データはグラフとして表現され処理される.特に近年では,インターネット及びワールド・ワイド・ウェブの普及に伴い,ソーシャルネットワークやウェブグラフを始めとする非常に大規模なグラフデータが偏在している.そのため,大規模グラフデータから有用な情報を効率的に引き出すことは現代社会の様々な場面において重要な役割を担っている.本講演では,基本的なネットワーク解析の手法,小規模グラフデータで用いられてきた古典的なアルゴリズム,大規模なグラフの処理に向けた課題とそれに立ち向かう現代の研究などについて扱う.
著者
佐藤 一誠
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2015-NL-222, no.7, pp.1-1, 2015-07-08

ベイズ的最適化とは,入力から出力を得るコストが高いブラックボックス関数を効率的に最適化する手法の総称である.高コストなブラックボックス関数に対して,できるだけ少ない入力のステップでより最適化な出力を得ることを目的とする.例えば化学実験において,ある実験設定を入力として,得られた化合物の良し悪しが数値的に計測可能な場合に,より良い実験設定を探索する問題は,ベイズ的最適化の 1 つの応用例となる.近年,機械学習アルゴリズムの複雑化にともない,機械学習アルゴリズムの実験設定も複雑化しており,ベイズ的最適化によって機械学習の実験を効率化する研究が注目を集めている.例えば,word2vec に代表される単語のベクトル表現学習では,ベクトルの次元,窓幅,負例サンプリング分布のパラメータ,負例数,学習率などさまざまな実験設定があり,これらの効果的な実験設定を効率的に探索する必要がある.本発表では,ベイズ的最適化の入門から最先端の話題まで説明し,NLP の実験の効率化などについても触れる予定である.
著者
磯野 史弥 松吉 俊 福本 文代
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-213, no.7, pp.1-8, 2013-09-05

本研究では,Web 掲示板に存在する皮肉や誹謗中傷などの不適切な表現を自動的に検出する手法を提案する.我々は,Web 掲示板における皮肉を人手で体系的に分類し,8 つの分類クラス (疑問,推測,諦め,不相応,誇張,驚き,形容,対比) を構築した.それぞれの分類クラスに対して,対象の文とその前後文の評価極性を考慮する構文パターンを設計した.提案する皮肉検出システムは,構文パターンの集合を利用することにより,入力された文が皮肉文であるかどうかを判定する.提案する誹謗中傷検出システムは,Support Vector Machine (SVM) を用いて,入力された文が誹謗中傷文であるかどうかを判定する.ここでは,素性として,独自に構築した辞書に存在する誹謗中傷語の出現頻度と,対象の文とその前後文の評価極性を利用した.評価実験の結果,提案するシステムは,F 値においてベースラインを上回った.
著者
吉田 達平 松崎 拓也 佐藤 理史
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-225, no.2, pp.1-9, 2016-01-15

高校化学の計算問題の自動解答システムの開発を行った.システムではまず問題文に対する言語処理を行い,問題の意味を表す中間表現を生成したのち,計算処理を行い解答を導出する.本稿では特に前半の言語処理に関して,係り受け解析誤りの修正と,ゼロ代名詞のような省略された要素の検出について報告する.これらは非文法的なパターンを検出するヒューリスティクスと,高校化学分野に対する簡易的なオントロジーに基づき選択制限を記述した格フレーム辞書を用いて行う.
著者
榎原 博之 大塚 隆弘 宮川 朋也
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-210, no.5, pp.1-6, 2013-01-04

研究活動において論文などの文献情報を管理することは重要な作業の 1 つであり,現在はコンピュータの普及に伴い PDF 形式等の電子データで文献情報を扱うことが一般的になっている.電子データの文献情報は,コンピュータを介して容易に他者とのやりとりができるなどの利点がある.他者との共有を支援するアプリケーションがあれば,より便利に共有を行うことができ,さらに研究活動の効率化を図ることができると考え,我々は研究室内での利用に特化した BibTEX ベースの文献管理システム bole[1] の開発を行なっている.本稿では bole の追加機能などについて説明する.さらに, 2 つの研究室に実際に bole を長期間利用していただき,利用者による評価を行い提案システムの有用性を検証する.