著者
石垣 達也 トピチ ゴラン 濵園 侑美 能地 宏 小林 一郎 宮尾 祐介 高村 大也
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-250, no.8, pp.1-11, 2021-09-21

本稿では,新たな言語生成タスクとして,レーシングゲーム実況テキスト生成を提案する.このタスクでは,視覚情報としてレーシングゲームの録画映像,言語データとして実況発話,構造化データとして速度,ハンドル角度といった数値データを入力として扱い,視聴者が映像を視聴しながら,レースをより理解し,楽しむための実況テキストを生成する.既存の言語生成研究においては,データセットの欠如が一因となり映像,言語,構造化データの複数モダリティを同時に考慮する言語生成研究を行うことは困難であった.また,言語生成の中でも,特に実況生成においては「どのタイミングで発話するか」「何を発話するか」を最低限決定する必要があるが,例えば野球を対象とした既存研究においてはイニング間に実況を行うなど,発話タイミングがあらかじめ与えられる設定が扱われ,後者にのみ着目されてきた.本研究ではまず,映像,構造化データとそれらに対応する実況テキストが対になった大規模データセットを作成し,レース実況の特徴について分析する.分析より,実況テキストはその言語的な特徴が,時間および実況者の視点の影響を受け,変化することが分かった.さらに,実況生成タスクをタイミング同定と発話生成の 2 つのサブタスクに分割し,これらについてベースライン手法を提案する.実験より,構造化データの活用は有益である一方,視覚情報については最先端の画像エンコーダを用いたとしても,本タスクにおいて効果が限定的であり,実況生成タスクが挑戦的な課題であることが分かった.マルチモーダルな言語生成タスクのためのデータセットとして,本研究で作成したデータセットは公開する.
著者
井手 佑翼 出口 祥之 五藤 巧 Armin Sarhangzadeh 渡辺 太郎
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2022-NL-253, no.18, pp.1-5, 2022-09-22

既存の典型的な文法誤り訂正モデルは各入力文を独立に扱うため,文脈を考慮した訂正を行えない.この問題に対して先行研究では,訂正対象の文だけでなく,先行する文脈をモデルに入力する手法が提案されてきた.本研究は,これに加えて後続の文脈または前後両方の文脈を入力した場合に訂正性能がどのように変化するか,定性分析を交えて調査する.
著者
尾崎 竜史 一杉 裕志
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-228, no.8, pp.1-4, 2016-09-22

双閉モノイド圏 (biclosed monoidal category) を紹介し,これが古典的な範疇文法のモデルとなることを説明する.また,このモデルでは古典的な範疇文法において ad hoc に導入されていた文法範疇の同値性 (X\Y ) /Z ● X\ (Y/Z) のようなルールが自然同型として構成されることを示す.また,単一の文に対して同じ意味を与えるような二通りの構文解析が可能な現象を,双閉モノイド圏における図式の可換性を通して捉えることを提案する.最後に,組み合わせ範疇文法への拡張を簡単に検討する.
著者
伊藤 彰則
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2015-NL-221, no.12, pp.1-6, 2015-05-18

筆者のグループがこれまで研究してきた,音声対話を利用した英会話のための CALL システムに関する技術について述べる.音声認識技術を利用した現状の CALL システムは,発音やイントネーションなど,1 つの発話に含まれる要素を採点するものが多い.それも重要ではあるが,英会話学習には 「実際に使われる表現を何度も繰り返して練習する」 ということも必要である.この考えに基づき,筆者のグループではこれまで 「対話に基づく CALL システム」 について研究してきた.本稿では,対話音声からの韻律評価,文法誤り検出および応答タイミング制御練習のためのシステムについて述べる.
著者
廣川 純也 深澤 拓海 松村 冬子 原田 実
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-225, no.3, pp.1-7, 2016-01-15

言語処理システムの基盤技術である形態素解析では既に高い精度が実現されている.しかし,方言やネットスラングなどの標準語から外れた日本語文を解析する際,それらの表現が形態素解析で用いる辞書に登録されていないため,正しく解析ができない場合がある.本研究では方言の中でも特に関西弁を含む日本語文の形態素解析の精度向上を目指し,形態素解析器 JUMAN に関西弁特有の語の表記や活用形,連接規則を追加することで,従来は未知語として処理されていた語の正しい解析を実現する.
著者
小池 誠
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-228, no.5, pp.1-7, 2016-09-22

本稿は,音声対話システムの出力インタフェースとして,マイクロ波聴覚刺激を応用した無線通信を提案する.この無線通信の原理は,音声信号で振幅変調し,次にパルス変調し,更に頭部に向けてパルス変調されたマイクロ波ビームを照射する.マイクロ波聴覚刺激により頭部が復調器として機能し,頭の中に直接,音声が聞こえる.
著者
佐藤 敏紀 橋本 泰一 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-229, no.15, pp.1-14, 2016-12-14

SNS やニュース記事で発見される新語や未知語の継続的な採録は,分かち書き用の辞書を作成して更新する際の課題のひとつである.我々は,固有名詞や複合語に対する高い網羅性と分かち書き精度を実現し続ける際に,コーパスではなく辞書として言語資源を追加することを選択した.そして,形態素より長い固有名詞や複合語を単一の見出し語として分かち書きし,品詞情報や読み仮名などを付与できる辞書を生成するためのシステムを構築した.さらに辞書生成システムを運用して短い周期での更新を長期間継続した.我々は,形態素より長い固有名詞や複合語を一語として分かち書きすること,及び,辞書生成システムを運用して短い周期で更新することの各効果を,ニュース記事を複数のカテゴリに分類する実験を通じて確認した.
著者
吉越 卓見 河原 大輔 黒橋 禎夫
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.6, pp.1-8, 2020-06-26

言語を理解するには,字義通りの意味を捉えるだけでなく,それが含意する意味を推論することが不可欠である.このような推論能力を計算機に与えるために,自然言語推論(NLI)の研究が盛んに行われている.NLI は,前提が与えられたときに,仮説が成立する(含意),成立しない(矛盾),判別できない(中立)かを判断するタスクある.自然言語推論を計算機で解くには数十万規模の前提・仮説ペアのデータセットが必要となるが,これまでに構築された自然言語推論データセットは言語間でその規模に大きな隔たりがある.この状況は,自然言語推論の研究の進展を妨げる要因となっている.このような背景から,本研究では,機械翻訳に基づく,安価かつ高速な自然言語推論データセットの構築手法を提案する.提案する構築手法は二つのステップからなる.まず,既存の大規模な自然言語推論データセットを機械翻訳によって目的の言語に変換する.次に,翻訳によって生じるノイズを軽減するため,フィルタリングを行う.フィルタリングの手法として,評価データと学習データに対し,それぞれ別のアプローチをとる.評価データは,正確さが重要となるため,クラウドソーシングを用い,人手で検証する.学習データは,大規模な自然言語推論データセットでは数十万ペアの問題が存在するため,翻訳文の検証を自動的に行い,効率的にデータをフィルタリングする.本研究では,機械翻訳を用いた逆翻訳による手法と,言語モデルによる手法の二つを提案する.本研究では,SNLI を翻訳対象とし,日本語を対象言語として実験を行った.その結果,評価データが 3,917 ペア,学習データが 53 万ペアのデータセットを構築した.このデータセットは BERT に基づく自然言語推論モデルによって 93.0 %の精度で解くことが可能である.
著者
藤田 正悟 上垣外 英剛 船越 孝太郎 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-250, no.3, pp.1-6, 2021-09-21

抽出型要約は元の文書において重要度が高い文を抽出し要約として再構成する手法であり広く使われている.その一方,この方法では複数文書を横断して重要文を抽出し要約を構成する際に,抽出された文の順序が適切ではない場合がある.解決策として既存の文並び替えモデルを使って文並び替えを行うことが考えられるが,抽出型要約に適した文並び替えの教師データが存在せず,尚且つ抽出型要約において並び替えを考慮した評価尺度が存在しないという問題がある.そこで我々は抽出型要約に適した文並び替えの教師データの作成手法と抽出型要約を並び替える場合の評価指標を提案する.いくつかのベースラインと比較した結果,我々の評価指標は特に一貫性において人手評価と高い相関を示した.
著者
磯沼 大 藤野 暢 浮田 純平 村上 遥 浅谷 公威 森 純一郎 坂田 一郎
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-227, no.6, pp.1-6, 2016-07-22

近年,記事生成などへの自動要約技術の適用が注目されている.本研究で対象とする決算記事は,どの事業や事象が企業全体の業績変動に大きな影響を及ぼすかといった記者の知見をもとに作成される.したがって自動要約においてはこうした記者の知見を抽出し,情報抽出・要約に適用する技術が必要である.本研究では過去の決算短信と決算記事から業績変動と短信文の掲載パターンを学習し,記事に掲載されるべき文を決算短信から抽出する手法を提案する.提案手法は 2 パートに分かれ,第 1 パートでは各事業セグメントの業績変動と,記事掲載パターンを学習することにより,各事業セグメントの重要度を判定する.第 2 パートでは,判定した各事業セグメントの重要度と極性判定を用いることで各文の重要度を評価し,抽出を行う.極性判定では,決算記事中の各表現に関する極性を自動で獲得し,非負値行列因子分解 (NMF) による極性値推定を行うことで,決算記事に未出現の表現も含めた多様な表現に関する極性の獲得を可能にした.提案手法を適用して決算短信から抽出された文と実際の決算記事を比較した実験において,重要文抽出精度の評価を行い,事業セグメントの重要度判定と NMF による極性推定の有用性を確認した.
著者
川口 輝太 久保 遼馬 藤田 拓也 前田 竜冶 宇津呂 武仁 小林 彰夫 西崎 博光 河田 容英
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-241, no.22, pp.1-9, 2019-08-22

本論文では,テレビドラマ視聴者がドラマ視聴後にウェブ上で行うドラマ関連関心動向 ・感想 ・レビュー類の情報探索過程を支援することを目的として,ブログ ・ドラマ関連サイト等のウェブページからの情報収集 ・集約を行うウェブマイニング技術を提案する.具体的には,本論文では,BERT および Wikipedia を用いて,文単位での当該ドラマ関連判定および主観情報判定を行うとともに,文単位での判定結果に基づいて,ウェブページ単位での当該ドラマ関連判定および主観情報判定を行う手法,および,その評価結果について述べる.
著者
林 正頼 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-227, no.7, pp.1-7, 2016-07-22

英語教育において,学習者が書いた英作文が,どの程度のレベルであるかを把握することは,教育者,学習者双方にとって有用である.本研究では,英作文のレベル判定問題を順序回帰問題として定式化する.レベル判定の手がかりとして,語彙情報といった基本的な素性に加え,英作文に含まれる誤りの傾向や,文の容認性などを導入し,それらの有効性を検証する.
著者
中村 泰貴 河野 誠也 湯口 彰重 川西 康友 吉野 幸一郎
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2022-NL-253, no.6, pp.1-7, 2022-09-22

ロボットをはじめとする人間を支援するシステムは,観測から状況を正しく理解し,人間が必要とする支援行動を出力する必要がある.特に人間を対象とした支援において,システムがどのような状況理解を行い,どのような動作行動の生成しようとしているかは,言語で表現することが重要である.そこで本研究では,現在の状況からシステムが行うべき行動を予測しその内容を言語で説明する,動作行動予測とその言語化 (captioning operative action) に取り組む.具体的には,ある状況とそこに対して何らかの支援行動が行われた理想状態の画像を入力とし,どのような支援行動が行われたかを説明する言語化タスクによって動作行動予測を実現するシステムを構築した.この際,こうした状況を説明する補助情報であるシーングラフの予測を補助タスクとして用いることで,シーングラフのアノテーションが存在しないテストセットに対しても精度高く動作行動の予測・言語化を行うことができることが確認された.
著者
松尾 和哉 能登 肇 深山 篤
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2022-NL-252, no.12, pp.1-7, 2022-06-22

複数の深層学習モデル(顔認識や音声合成など)から成るヒトデジタルツイン(ヒト DT)を元の人間(フィジカルツイン:PT)らしく振舞わせるためには,PT からしか取得できないデータを収集・意味づけし,そのデータを DT に学習させる必要がある.しかし,一つのモデルを作るためには学習データが大量に必要であり,かつその大量のデータが PT ごとに必要になるため,手動で学習データを作成することは非現実的である.そこで本研究では,この学習データの自動生成を目指す.本稿ではまず,顔画像に名前が付与されたデータを映像データから自動的に作成することを目的とし,複数人の対話を文字起こししたデータから,各話者名を推定する手法を提案する.提案手法では,人名が含まれる発言の内容の解析結果と,当該発言の直前直後のターン・テイキングを応用して,話者名を推定する.提案手法の性能を,2 種類の会話コーパスを用いて定量評価を行った.
著者
高山 隼矢 梶原 智之 荒瀬 由紀
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-249, no.11, pp.1-8, 2021-07-20

人間は対話においてしばしば相手の質問や発話に対して間接的な応答をする.例えば,予約サービスにおいてユーザがオペレータに対して「あまり予算がないのですが」と応答した場合,オペレータはその応答には間接的に「もっと安い店を提示してください」という意図が含まれていると解釈することができる.大規模な対話コーパスを学習したニューラル対話モデルは流暢な応答を生成する能力を持つが,間接的な応答に焦点を当てたコーパスは存在せず,モデルが人間と同様に間接的な応答を扱うことができるかどうかは明らかではない.本研究では既存の対話コーパスである MultiWoZ を拡張し,間接的な応答と直接的な応答の対からなる 7 万件規模の対話コーパスを構築した.ユーザーからの入力発話を事前により直接的な発話に言い換えることで対話応答生成の性能が向上することを確認した.
著者
為栗 敦生 中村 鴻介 高橋 良颯 山口 実靖
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-249, no.1, pp.1-7, 2021-07-20

深層学習は文書分類等の自然言語処理にて活用され,Self-Attention などが大きな成果をあげている.一方で深層学習による分類は,分類精度は高いがその判断根拠を人間が理解することが困難であるとの指摘がされている.本稿では,テーマが定められたニュース記事群のテーマによる分類のタスクに着目し,深層学習による分類の判断根拠の提示手法について考察する.具体的には,LSTM Attention により記事分類を行い,高い精度で分類をできることを示す.そして,Attention 値や既存の判断根拠提示手法 Smooth-grad に着目し,自然言語記事分類の判断根拠提示手法について考察する.また性能評価により,これらに着目することにより判断根拠を提示できることを示す.
著者
月出 絵里香 高岡 詠子
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2017-NL-234, no.21, pp.1-5, 2017-12-13

2020 年に予期される訪日外国人の増加に向けて,本研究室では医療現場で使用する多言語対応情報提供システムの開発に取り組んでおり,より幅広い状況に対応できるようにしたいと考えている.そのために,医療用コーパスを作成し,他のコーパスと共に評価し,比較,改善に努めている.本研究では,統計的機械翻訳において,日本語,英語,中国語の複数のコーパスの自動評価を行った.最初の実験では,一般的な英日機械翻訳モデルを用いて,医療用コーパスの評価を行った.次の実験では,基本的な日本語,英語,中国語のコーパスで作成した機械翻訳モデルを用いて,複数のコーパスの評価を行った.また,語順の制限の有無を加味し,評価を行った.最後に,後編集を行い,機械翻訳の改善を図った.発表時には,本研究室で作成した医療用コーパスの評価値も紹介できると思われる.
著者
田上 諒 越前 谷博 荒木 健治
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-238, no.2, pp.1-6, 2018-12-04

本報告では,対訳辞書などの高品質な対訳知識を用いることなく,コンパラブルコーパスから対訳文を自動抽出する手法を提案する.提案手法では,単語分散表現を用いて翻訳行列と類似度計算を行うことで対訳文を抽出する.その際,類似度計算には Earth Mover's Distance を用いる.更に,提案手法では文長の違いを重みとして類似度に用いることで抽出精度の向上を図っている.ニュース記事のコンパラブルコーパスを用いた性能評価実験の結果,全記事の平均の F 値はベースラインで 0.13, EMD のみのシステムと提案手法にける文長を考慮しない場合では共に 0.42,文長を考慮した場合は 0.49 となった.これらの結果から,文長を考慮した提案手法の有効性が確認された.
著者
井上 剛 進藤 裕之 松本 裕治
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2017-NL-232, no.8, pp.1-9, 2017-07-12

アラビア語などの形態的に豊かな言語の品詞タグ付けは,英語など形態的に乏しい言語の品詞タグ付けに比べ,タグセットが膨大になるため,困難な問題である.これは,言語固有の情報を反映した高粒度な品詞タグが,各形態統語的カテゴリごとに定義されたタグの組み合わせによって構成されるためである.既存のアラビア語品詞タグ付けでは,各形態統語的カテゴリを独立に予測しており,各カテゴリを予測する上で有益な情報をカテゴリ間で共有できていなかった.本研究では,マルチタスク学習の枠組みを用いて,各形態統語的カテゴリを同時に予測する手法を提案する.また,入力語に対して各形態統語的カテゴリが取りうるタグを登録した辞書情報をモデルに組み込むことで,さらなる性能向上が得られることを示す.Penn Arabic Treebank を用いた評価実験の結果,これまでに報告されている最高性能の品詞タガーの正解率を上回ることを確認した.