著者
太田 瑶子 進藤 裕之 松本 裕治
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-235, no.1, pp.1-8, 2018-05-06

文学の一つとして詩がある.詩は言葉の表面的な意味だけでなく,言葉が持つ美学的 ・ 喚起的な性質を用いて表現される.詩は短い文字列であっても,詩として表現する事で,言葉の持つ奥深さによってその場の雰囲気を封じ込めることが出来る.しかし,実際にいざ詩を作ろうとすると,どのように始めれば良いのか難しい.そのような場合であっても,手軽に詩を作れるようにしたいと考えた.本研究では,詩の中でも有季定型俳句を選び,言葉を入力することにより俳句の自動生成を行った.本研究ではより柔軟な表現が生成できるように,深層学習を使った.また,韻律や季語のような有季定型俳句の規定を素性や制限として用いた.俳句としての体をなすような生成結果が得られた.
著者
福永 隼也 西川 仁 徳永 健伸 横野 光 高橋 哲朗
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-236, no.12, pp.1-9, 2018-07-02

本論文は,データベース検索を行うタスク指向型対話を対象として,ユーザ発話中で明示的に述べられていないユーザ要求の解釈をおこなう手法を提案する.ユーザ発話において,検索条件としてデータベースフィールドとその値が明示的に指定されない場合,その発話を直接データベースへのクエリに変換することはできない.しかし,そのような発話中にも明示的に述べられないユーザ要求が含まれる場合があり,それを解釈することは,対話システムがより自然で効率的なデータベース検索対話をおこなうために重要である.本論文ではこのように明示的に述べられないユーザ要求を非明示的条件と呼ぶ.また,非明示的条件の解釈を,ユーザ発話を関連するデータベースフィールドに紐づけ,また同時にその根拠となるユーザ発話中の文字列を抽出する課題として定式化する.このような新しい課題を提案するとともに,課題に対する 2 つの手法として,サポートベクターマシンに基づく手法と,分類と根拠となる部分文字列の抽出を同時に行うニューラルネットワークによる手法を実装した.不動産に関する対話のコーパスを利用した評価実験の結果,サポートベクターマシンに基づく手法がより良好な結果を示すことがわかった.
著者
新見 祐佳 宮治 裕
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-245, no.3, pp.1-5, 2020-09-23

近年,うつ病患者は年々増加しており,深刻な社会問題になっている.情報技術が急速に進歩している現代において,無条件で簡単に受けられる心理療法を施すシステムは,新しい解決手段になると考えられる.本研究では,誰でもかかりうる病気であるうつ病を未然に防ぐことを目的とし,自然言語から感情を自動で可視化する機能を搭載した認知行動療法を提案する.認知行動療法の一つであるエクスプレッシブ・ライティングを想定し,フィードバックとして感情を可視化する.感情可視化機能は,感情認識部と感情可視化部の 2 部で構成される.感情認識部では,辞書ベースでアノテーションの付与を行ったデータを用いて,BiLSTM で 6 感情のマルチラベル分類をする.感情可視化部では,分類結果の数値に沿ったグラフでの可視化と,分類結果の最大値の感情に沿った色による Word Cloud での可視化をおこなう.これらの認知行動療法に搭載する機能を提案し,今後の展望について述べる.
著者
田中 裕隆 曹 鋭 白 静 馬 ブン 新納 浩幸
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-243, no.8, pp.1-6, 2019-11-27

近年,BERT のような事前学習モデルを利用することで,自然言語処理システムの性能が大きく向上している.BERT は,Transformer の Multi-head Attention を用いることで文脈に応じた単語の埋め込み表現列を得ることのできるモデルである.文書分類のタスクの場合,文書を BERT に入力し,その出力から文書の特徴ベクトルを構築する方法によって処理できる.しかし,BERTに入力できるシーケンスの長さには上限がある.この制限によって,長い文書を扱う場合,標準的な手法では文書分類に必要な情報を十分に得られないと考えられる.そこで,BERT から長い文書内の全ての単語に対応する埋め込み表現を得て,そこから文書の特徴ベクトルを作成する手法を提案する.
著者
山田 康輔 笹野 遼平 武田 浩一
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.5, pp.1-6, 2020-06-26

本研究では,大規模コーパスからのフレーム知識獲得において,コーパスから収集された動詞の文脈を考慮することの有用性を検証する.具体的には,FrameNet および PropBank において 2 種類以上のフレームを喚起する動詞に着目し,それらの動詞が喚起するフレームの違いを ELMo や BERT に代表される文脈化単語埋め込みがどのくらい捉えているかを,各用例の文脈化単語埋め込みのクラスタリング結果とそれらに付与されたフレームを比較することにより調査する.
著者
築地 毅 鈴木 晴也 柴原 一友 藤本 浩司 池田 龍司 尾﨑 和基 森田 克明 松原 敬信
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.4, pp.1-7, 2020-06-26

本稿では,BERT を利用した教師無しデータへの適用について論ずる.近年ディープラーニングの技術が確立し始めており,特に画像認識分野において,既存の技術では困難だった特徴の自動抽出を実現したことにより,非常に高い精度を上げるようになってきている.自然言語処理においてもディープラーニングの研究は広く行われているが,近年 Google により発表された BERT の功績は大きく,教師あり学習のタスクに対して,既存の成果を大きく上回る成果を上げている.本稿では,教師あり学習の精度を大きく高めた BERT を教師無しデータに適用することで,既存手法の性能向上につながる可能性があるという仮説を主張する.本稿では,特許文書を対象に,教師あり学習を行わずに特許の類似性を図る実験を行った.実験の結果,人手で付与した特許分類フラグに対し 61.9 %の正解率となり,BERT を活用することで教師データを与えずとも,特許の類似度を表現できることを示した.
著者
鈴木 祥太 伊藤 孝行
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.2, pp.1-8, 2020-06-26

議論マイニングは Argumentation を解析し,その構造を特定することを目的とする.議論マイニングにおいて,コンポーネント分類は重要な課題である.コンポーネント分類を行うため,既存の手法は,複雑な議論構造をベクトルのような簡単な表現の特徴量に変換する.しかしながら,これらの特徴量に基づく手法では,複雑な構造を扱う上で貴重な情報が失われると考えられる.この問題を解決するため,本稿では,議論構造を直接的に学習することで,コンポーネント分類を行う手法を提案する.議論構造を直接的に学習するために,提案手法は Graph Attention Network を用いる.提案手法を評価するため,評論のコーパスを用いて実験を行った.実験の結果,提案手法は既存の特徴量に基づく手法よりも正確にコンポーネント分類を行うことが示された.
著者
中野 佑哉 河野 誠也 吉野 幸一郎 中村 哲
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.3, pp.1-5, 2020-06-26

質問応答とは,与えられた質問に対し適切な答えを見つけて提示するタスクであり,機械読解や対話システムなど様々な応用を構成する重要な基本タスクの一つである.これまでの質問応答システムの研究は様々な問題を解決し,いくつかのベンチマークで高い精度を実現してきた.しかしながら,質問応答システムを実際に利用する場合,様々な課題が残されている.その中の一つに,質問応答システムに対するユーザ発話の曖昧性がある.本論文では,解答が一意に定まらない曖昧な質問文に対し,問い返しを行うことによって質問文の意味を一意に定めることを目的とする新たな質問応答タスクを設定した.その上で,この問題のベンチマークとなる質問応答データセットを既存の質問応答タスク向け大規模データセットから変換することにより作成した.また,作成したデータセットに対して既存モデルを用いた際の精度評価実験を行い,どのような問題が存在するか議論した.
著者
新 隼人 坂田 亘 田中 リベカ 黒橋 禎夫
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.1, pp.1-13, 2020-06-26

タスク志向の自動対話システムであってもユーザが雑談のような発話を入力することは少なくない.特に自治体などが運営する公的な対話システムにおいては,それに対して不適切な応答を行わないようにすることは重要である.本研究では,実サービスのクエリログおよびクラウドソーシングで集めたデータを利用して,対話システムの不適切発話の調査を行った.調査を基に不適切発話を「品行方正でない発話」,「システムの設定を逸脱した内容の発話」の 2 つに分類し,それらに対するフィルタリング手法を提案した.さらに,Twitter から収集したデータにフィルタリングを適用し,得られたデータで対話システムを学習した.その結果,ベースラインに比べて品行方正でない発話が減少し,システムの設定の逸脱も見られなくなった.
著者
吉田 崇裕 久野 遼平 大西 立顕
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-241, no.6, pp.1-8, 2019-08-22

トピックモデルは自然言語処理を始めとして多くの分野で用いられる手法である.トピックモデルの基本形である Latent Dirichlet Allocation (LDA) の提唱後,様々な LDA の改良モデルが提案されてきた.例えば Correlated Topic Model (CTM) は LDA が文書中のトピック間の相関を十分に考慮できない点に注目したモデルであり,汎化性能が向上すると報告されている.Gaussian LDA は LDA が単語間の意味的な近さを十分に考慮できない点に注目したモデルであり,トピックの意味一貫性が向上すると報告されている.両者を組み合わせた Correlated Gaussian Topic Model (CGTM) と呼ばれるモデルは上記二つの欠点を同時に補うのみならず,単語の埋め込み空間上でトピックの相関構造を可視化することができ革新的である.しかし,文書内におけるトピックの関係性は,CGTM が対象とする単純な相関構造だけで表現できるものではない.実際日常生活においても,例えば 「経済」 - 「金融政策」 - 「出口戦略」 のように話題の階層性を意識し会話をすることは多々ある.そこで本稿では階層的トピックモデルとして最も単純な PAM (Pachinko Allocation Model) とGaussian LDA を組み合わせたモデルを提案することで,トピックの階層構造を単語埋め込みベクトル空間上で分析する一歩としたい.
著者
濱田 晃一 藤川 和樹 小林 颯介 菊池 悠太 海野 裕也 土田 正明
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2017-NL-232, no.12, pp.1-7, 2017-07-12

個性を反映した返答生成は,様々な個性のキャラクタを用意することで多様な返答を可能にしたり応答の一貫性を確保できる点で近年注目されている.一方で,それぞれの返答個性を学習させるための対話例の準備が高コストであるという問題がある.本研究では,深層学習を用いた返答文生成モデルに対して,特定の返答個性を追加反映する手法の提案及び比較評価を行う.さらに,返答文生成に用いる個性表現ベクトルの演算による生成文の変化について分析を行う.
著者
今村 賢治 隅田 英一郎
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-241, no.1, pp.1-8, 2019-08-22

本稿では,事前訓練済みの BERT (Bidirectional Encoder Representations from Transformer) モデルを Transformer ベースのニューラル機械翻訳 (NMT) に適用する.単言語のタスクと異なり,NMT の場合,BERT のモデルパラメータ (訓練済み) に比べ,デコーダー (未学習) のパラメータ数が多い.そこで,まず BERT エンコーダーのパラメータを固定して,未学習パラメータのみを訓練し,その後,全体を微調整する 2 段階最適化を行う.実験では,直接微調整したときには BLEU スコアが極めて低くなったのに対して,2 段階最適化では訓練が成功した.その結果,Transformer の基本モデルや,モデル構造が同じ事前訓練なしの Transformer に比べても BLEU スコアが向上することが確認された.また,少資源設定で,より効果が高いことが確認された.
著者
加藤 玲大 馬 青 村田 真樹
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-228, no.10, pp.1-6, 2016-09-22

本稿は,深層学習の手法である Deep Belief Network (DBN),Stacked Denoising Autoencoder (SdA) を用いて,QA サイトに投稿された質問文のカテゴリ分類について述べる.カテゴリ分類における DBN と SdA の有効性を確認するため,多層パーセプトロン (MLP),サポートベクターマシン (SVM) をベースライン手法とし,分類精度の比較を行った.次元数の異なる入力データを 2 種類用意し,入力の次元数の違いにおける分類精度の比較を行った.機械学習手法のパラメータの最適化にはグリッドサーチを行うことにより決定した.実験の結果,SdA が最も精度が高かった.また,入力が高次元の時,DBN,SdA ともに分類精度がベースライン手法より高かった.さらに,入力の次元数を増やすことが深層学習の精度の向上に有効であることが確認できた.
著者
篠井 暖
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-236, no.3, pp.1-7, 2018-07-02

音楽ファンにとって,自分の好みに合う新たな楽曲に出会えることは大きな喜びである.近年の定額制音楽配信サービスの普及で膨大な量の楽曲を聴取可能になった一方で,数百万 ~ 数千万曲という規模の楽曲の中から好みに合う楽曲をひとつひとつ試聴しながら探すのはもはや不可能になっており,リスナーの好みに合う楽曲を簡単に検索可能な仕組みが必要になっている.本稿では,楽曲を探す際の有力な手がかりとしてアーティスト情報に着目し,アーティストの特徴抽出手法について検討する.アーティストに関する情報を記述した文書の潜在表現を学習することによりアーティストのベクトル表現 (ArtistVector) を獲得し,クエリアーティストと類似するアーティストを検索可能にする手法を提案する.アーティストを特徴づける文書として,(1) アーティスト自身の説明を記述した文書と (2) リスナーからのアーティストの評価を記述した文書が重要になると考え,両者に対応する文書として Wikipedia 記事と Web レビュー記事を学習データに利用して ArtistVector を獲得した.得られた ArtistVector に対しジャンル分類タスクによる評価を行い,データセットおよび手法の有効性を検証した.また ArtistVector を UMAP により 2 次元平面上に可視化し,コンテキストに基づく関係性を反映した類似アーティストが得られていることを確認した.
著者
秋葉 拓哉
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2015-NL-222, no.8, pp.1-1, 2015-07-08

物事の関係が現れるほぼあらゆる場面で,データはグラフとして表現され処理される.特に近年では,インターネット及びワールド・ワイド・ウェブの普及に伴い,ソーシャルネットワークやウェブグラフを始めとする非常に大規模なグラフデータが偏在している.そのため,大規模グラフデータから有用な情報を効率的に引き出すことは現代社会の様々な場面において重要な役割を担っている.本講演では,基本的なネットワーク解析の手法,小規模グラフデータで用いられてきた古典的なアルゴリズム,大規模なグラフの処理に向けた課題とそれに立ち向かう現代の研究などについて扱う.
著者
佐藤 一誠
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2015-NL-222, no.7, pp.1-1, 2015-07-08

ベイズ的最適化とは,入力から出力を得るコストが高いブラックボックス関数を効率的に最適化する手法の総称である.高コストなブラックボックス関数に対して,できるだけ少ない入力のステップでより最適化な出力を得ることを目的とする.例えば化学実験において,ある実験設定を入力として,得られた化合物の良し悪しが数値的に計測可能な場合に,より良い実験設定を探索する問題は,ベイズ的最適化の 1 つの応用例となる.近年,機械学習アルゴリズムの複雑化にともない,機械学習アルゴリズムの実験設定も複雑化しており,ベイズ的最適化によって機械学習の実験を効率化する研究が注目を集めている.例えば,word2vec に代表される単語のベクトル表現学習では,ベクトルの次元,窓幅,負例サンプリング分布のパラメータ,負例数,学習率などさまざまな実験設定があり,これらの効果的な実験設定を効率的に探索する必要がある.本発表では,ベイズ的最適化の入門から最先端の話題まで説明し,NLP の実験の効率化などについても触れる予定である.
著者
吉田 達平 松崎 拓也 佐藤 理史
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-225, no.2, pp.1-9, 2016-01-15

高校化学の計算問題の自動解答システムの開発を行った.システムではまず問題文に対する言語処理を行い,問題の意味を表す中間表現を生成したのち,計算処理を行い解答を導出する.本稿では特に前半の言語処理に関して,係り受け解析誤りの修正と,ゼロ代名詞のような省略された要素の検出について報告する.これらは非文法的なパターンを検出するヒューリスティクスと,高校化学分野に対する簡易的なオントロジーに基づき選択制限を記述した格フレーム辞書を用いて行う.