著者
小川 拓貴 松本 和幸 任 福継
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.2, pp.1-6, 2010-01-21
参考文献数
12
被引用文献数
1

本研究では,Webサービス"えもにゅ"の投稿文をコーパスとして用い, 単語1-gramを素性としたSVMによるつぶやきや一言を対象とした感情推定手法を提案する."えもにゅ"とは一言メモに感情マークを付加して投稿できるWebサービスで, この投稿文をコーパスとして用いることで書き手の感情をコーパスに直接反映でき, また感情タグ付け作業を削減できる. 単語1-gramを素性とした理由としては, つぶやきや一言のような短文において書き手が感情表現する際に単語や記号の言語的意味を用いて感情を表現することが多いと考えられる事,1文あたりに含まれる素性の数が少ないつぶやきや一言から十分な素性の出現頻度を得るためには素性数を抑えることで1素性あたりの出現頻度を上げる必要がある事が挙げられる. 評価実験として, 単語1-gramを素性とした場合と単語2-gramを素性とした場合で比較をしたところ, F値を評価基準とすると単語1-gramを素性とした場合の方が全ての感情において高い値を示した.This paper proposes a SVM-based emotion estimation method from a short message or a word by using word 1-gram as feature and use contribution of "Emonyu" as a corpus. "Emonyu" is a web service to which users contribute a short message or a word with a emotion mark.Therefore, the corpus using"Emonyu"contribution enables reflect writer's emotion directly,and reduce work of adding emotion tags to sentences of corpus. We use word 1-gram as feature is,in short sentences like a short message or a word including a few features,a writer generally express emotion using a linguistic meaning of a word or a mark and it is necessary to reduce a number of kinds of feature to get exact appear frequency of features. The result of experiments show that the F-measure of proposed method is higher than the F-measure of method using word 2-gram as a feature in all emotions.
著者
草刈 秀平 近山 隆
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.36, pp.51-58, 2009-03-18
被引用文献数
1

Google の PageRank のように Web ページにランク付けを行う際、Web ページ中の単語など文書の内容のみを用いる手法は、リンク構造を含まない文書にも適用可能なうえ通信や計算コストも低いという利点がある。一方で、ランク値が文書の扱うトピックや含まれるキーワードによって影響されやすいという欠点を持つ。本研究では、その改善策として、df 値の低い単語を排除して特徴素性を選択する手法を提案する。ランダムページを訓練データとして既知の PageRank 値との関係を分析した結果、ランダムのテストページ群や別々のトピックを扱うページ群に対し、いずれも同様の線形関係を再現することができ、トピックの変化に対してロバストであることが示された。Web Page Ranking Method like PageRank of Google, only with words or contents of the documents in the page have advantage that can be applied for documents without Link Structure and low culculation cost. But it also have disadvantage that caluculated Rank Point is easily affected with topics or keywords of the pages. So we propose a method choosing features by its value of df. The relationships trained with random pages and its values of PageRank, can be applied for another random pages and pages with different topics each other. So we find that proposal method is robust for changing of topics.
著者
高松 雅彦 荒木 健治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2010-NL-195, no.9, pp.1-7, 2010-01-21

本研究では,ユーザにとってオンラインゲームの対話文内において未知語となる語の情報抽出を行う.オンラインゲーム上の対話文には,未知語,インターネット用語,スラングなどが多く含まれるため,新たにゲームを始めるユーザにとって発話内容の意図が理解しにくく,コミュニケーションが阻害される原因となる.そこで本稿では,ユーザが指定する任意の語について関連語とその語意をチャットログ内とWebから抽出し,ユーザに提示することでユーザ間のコミュニケーション支援を可能とするシステムを提案する.実験の結果,ユーザの発話内容の理解度の大幅な向上が見られ,支援システムとしての有効性を明らかにした.
著者
中村 泰貴 河野 誠也 湯口 彰重 川西 康友 吉野 幸一郎
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2022-NL-253, no.6, pp.1-7, 2022-09-22

ロボットをはじめとする人間を支援するシステムは,観測から状況を正しく理解し,人間が必要とする支援行動を出力する必要がある.特に人間を対象とした支援において,システムがどのような状況理解を行い,どのような動作行動の生成しようとしているかは,言語で表現することが重要である.そこで本研究では,現在の状況からシステムが行うべき行動を予測しその内容を言語で説明する,動作行動予測とその言語化 (captioning operative action) に取り組む.具体的には,ある状況とそこに対して何らかの支援行動が行われた理想状態の画像を入力とし,どのような支援行動が行われたかを説明する言語化タスクによって動作行動予測を実現するシステムを構築した.この際,こうした状況を説明する補助情報であるシーングラフの予測を補助タスクとして用いることで,シーングラフのアノテーションが存在しないテストセットに対しても精度高く動作行動の予測・言語化を行うことができることが確認された.
著者
松尾 和哉 能登 肇 深山 篤
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2022-NL-252, no.12, pp.1-7, 2022-06-22

複数の深層学習モデル(顔認識や音声合成など)から成るヒトデジタルツイン(ヒト DT)を元の人間(フィジカルツイン:PT)らしく振舞わせるためには,PT からしか取得できないデータを収集・意味づけし,そのデータを DT に学習させる必要がある.しかし,一つのモデルを作るためには学習データが大量に必要であり,かつその大量のデータが PT ごとに必要になるため,手動で学習データを作成することは非現実的である.そこで本研究では,この学習データの自動生成を目指す.本稿ではまず,顔画像に名前が付与されたデータを映像データから自動的に作成することを目的とし,複数人の対話を文字起こししたデータから,各話者名を推定する手法を提案する.提案手法では,人名が含まれる発言の内容の解析結果と,当該発言の直前直後のターン・テイキングを応用して,話者名を推定する.提案手法の性能を,2 種類の会話コーパスを用いて定量評価を行った.
著者
セーヨーサンティ 榊 剛史 内山 幸樹
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2010-NL-199, no.10, pp.1-7, 2010-11-11

ソーシャルメディアを介した情報伝搬が活発になる中で、多くの人々の個人単位での行動や心理状態が把握しやすくなりつつある。本研究は大量の口コミ分析によって得られた市場心理と日経 225 先物の推移を機械学習させ、売買予測モデルを確立した。取引シミュレーションの検証結果は日経 225 先物の動向予測において、口コミ分析が有効であることを示している。
著者
高山 隼矢 梶原 智之 荒瀬 由紀
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-249, no.11, pp.1-8, 2021-07-20

人間は対話においてしばしば相手の質問や発話に対して間接的な応答をする.例えば,予約サービスにおいてユーザがオペレータに対して「あまり予算がないのですが」と応答した場合,オペレータはその応答には間接的に「もっと安い店を提示してください」という意図が含まれていると解釈することができる.大規模な対話コーパスを学習したニューラル対話モデルは流暢な応答を生成する能力を持つが,間接的な応答に焦点を当てたコーパスは存在せず,モデルが人間と同様に間接的な応答を扱うことができるかどうかは明らかではない.本研究では既存の対話コーパスである MultiWoZ を拡張し,間接的な応答と直接的な応答の対からなる 7 万件規模の対話コーパスを構築した.ユーザーからの入力発話を事前により直接的な発話に言い換えることで対話応答生成の性能が向上することを確認した.
著者
為栗 敦生 中村 鴻介 高橋 良颯 山口 実靖
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-249, no.1, pp.1-7, 2021-07-20

深層学習は文書分類等の自然言語処理にて活用され,Self-Attention などが大きな成果をあげている.一方で深層学習による分類は,分類精度は高いがその判断根拠を人間が理解することが困難であるとの指摘がされている.本稿では,テーマが定められたニュース記事群のテーマによる分類のタスクに着目し,深層学習による分類の判断根拠の提示手法について考察する.具体的には,LSTM Attention により記事分類を行い,高い精度で分類をできることを示す.そして,Attention 値や既存の判断根拠提示手法 Smooth-grad に着目し,自然言語記事分類の判断根拠提示手法について考察する.また性能評価により,これらに着目することにより判断根拠を提示できることを示す.
著者
月出 絵里香 高岡 詠子
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2017-NL-234, no.21, pp.1-5, 2017-12-13

2020 年に予期される訪日外国人の増加に向けて,本研究室では医療現場で使用する多言語対応情報提供システムの開発に取り組んでおり,より幅広い状況に対応できるようにしたいと考えている.そのために,医療用コーパスを作成し,他のコーパスと共に評価し,比較,改善に努めている.本研究では,統計的機械翻訳において,日本語,英語,中国語の複数のコーパスの自動評価を行った.最初の実験では,一般的な英日機械翻訳モデルを用いて,医療用コーパスの評価を行った.次の実験では,基本的な日本語,英語,中国語のコーパスで作成した機械翻訳モデルを用いて,複数のコーパスの評価を行った.また,語順の制限の有無を加味し,評価を行った.最後に,後編集を行い,機械翻訳の改善を図った.発表時には,本研究室で作成した医療用コーパスの評価値も紹介できると思われる.
著者
田上 諒 越前 谷博 荒木 健治
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-238, no.2, pp.1-6, 2018-12-04

本報告では,対訳辞書などの高品質な対訳知識を用いることなく,コンパラブルコーパスから対訳文を自動抽出する手法を提案する.提案手法では,単語分散表現を用いて翻訳行列と類似度計算を行うことで対訳文を抽出する.その際,類似度計算には Earth Mover's Distance を用いる.更に,提案手法では文長の違いを重みとして類似度に用いることで抽出精度の向上を図っている.ニュース記事のコンパラブルコーパスを用いた性能評価実験の結果,全記事の平均の F 値はベースラインで 0.13, EMD のみのシステムと提案手法にける文長を考慮しない場合では共に 0.42,文長を考慮した場合は 0.49 となった.これらの結果から,文長を考慮した提案手法の有効性が確認された.
著者
井上 剛 進藤 裕之 松本 裕治
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2017-NL-232, no.8, pp.1-9, 2017-07-12

アラビア語などの形態的に豊かな言語の品詞タグ付けは,英語など形態的に乏しい言語の品詞タグ付けに比べ,タグセットが膨大になるため,困難な問題である.これは,言語固有の情報を反映した高粒度な品詞タグが,各形態統語的カテゴリごとに定義されたタグの組み合わせによって構成されるためである.既存のアラビア語品詞タグ付けでは,各形態統語的カテゴリを独立に予測しており,各カテゴリを予測する上で有益な情報をカテゴリ間で共有できていなかった.本研究では,マルチタスク学習の枠組みを用いて,各形態統語的カテゴリを同時に予測する手法を提案する.また,入力語に対して各形態統語的カテゴリが取りうるタグを登録した辞書情報をモデルに組み込むことで,さらなる性能向上が得られることを示す.Penn Arabic Treebank を用いた評価実験の結果,これまでに報告されている最高性能の品詞タガーの正解率を上回ることを確認した.
著者
宮原聡 飯田龍 徳永健伸
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-211, no.2, pp.1-7, 2013-05-16

文を談話単位と呼ばれる基礎的な単位に分割する処理は談話関係解析などの前処理として必須である.ただし,談話単位間に論理的な談話関係を想定する場合には,談話単位に適切な粒度で命題が含まれる必要がある.これは,談話単位間で論理的な談話関係を想起する場合に,一つの談話単位に命題に相当する情報が含まれない場合には,関係を人手で付与する場合に解釈が困難になったり,また一つの談話単位に複数の命題が含まれている場合にはどちらの命題と関連させて関係を付与するのかわからなくなるという問題があるためである.本稿では談話単位の認定基準について議論し,談話単位アノテーションの仕様を設計し,日本語書き言葉均衡コーパス (BCCWJ) の一部に人手でアノテーションを行った.さらに,談話単位の境界にどのような特徴が現れるのかを人手で分析し,それらを手がかりとした自動分割の手法を提案する.この手法の有効性を調査するために BCCWJ にアノテーションした結果を利用した評価実験を行った結果について報告する.
著者
太田 瑶子 進藤 裕之 松本 裕治
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-235, no.1, pp.1-8, 2018-05-06

文学の一つとして詩がある.詩は言葉の表面的な意味だけでなく,言葉が持つ美学的 ・ 喚起的な性質を用いて表現される.詩は短い文字列であっても,詩として表現する事で,言葉の持つ奥深さによってその場の雰囲気を封じ込めることが出来る.しかし,実際にいざ詩を作ろうとすると,どのように始めれば良いのか難しい.そのような場合であっても,手軽に詩を作れるようにしたいと考えた.本研究では,詩の中でも有季定型俳句を選び,言葉を入力することにより俳句の自動生成を行った.本研究ではより柔軟な表現が生成できるように,深層学習を使った.また,韻律や季語のような有季定型俳句の規定を素性や制限として用いた.俳句としての体をなすような生成結果が得られた.
著者
福永 隼也 西川 仁 徳永 健伸 横野 光 高橋 哲朗
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-236, no.12, pp.1-9, 2018-07-02

本論文は,データベース検索を行うタスク指向型対話を対象として,ユーザ発話中で明示的に述べられていないユーザ要求の解釈をおこなう手法を提案する.ユーザ発話において,検索条件としてデータベースフィールドとその値が明示的に指定されない場合,その発話を直接データベースへのクエリに変換することはできない.しかし,そのような発話中にも明示的に述べられないユーザ要求が含まれる場合があり,それを解釈することは,対話システムがより自然で効率的なデータベース検索対話をおこなうために重要である.本論文ではこのように明示的に述べられないユーザ要求を非明示的条件と呼ぶ.また,非明示的条件の解釈を,ユーザ発話を関連するデータベースフィールドに紐づけ,また同時にその根拠となるユーザ発話中の文字列を抽出する課題として定式化する.このような新しい課題を提案するとともに,課題に対する 2 つの手法として,サポートベクターマシンに基づく手法と,分類と根拠となる部分文字列の抽出を同時に行うニューラルネットワークによる手法を実装した.不動産に関する対話のコーパスを利用した評価実験の結果,サポートベクターマシンに基づく手法がより良好な結果を示すことがわかった.
著者
新見 祐佳 宮治 裕
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-245, no.3, pp.1-5, 2020-09-23

近年,うつ病患者は年々増加しており,深刻な社会問題になっている.情報技術が急速に進歩している現代において,無条件で簡単に受けられる心理療法を施すシステムは,新しい解決手段になると考えられる.本研究では,誰でもかかりうる病気であるうつ病を未然に防ぐことを目的とし,自然言語から感情を自動で可視化する機能を搭載した認知行動療法を提案する.認知行動療法の一つであるエクスプレッシブ・ライティングを想定し,フィードバックとして感情を可視化する.感情可視化機能は,感情認識部と感情可視化部の 2 部で構成される.感情認識部では,辞書ベースでアノテーションの付与を行ったデータを用いて,BiLSTM で 6 感情のマルチラベル分類をする.感情可視化部では,分類結果の数値に沿ったグラフでの可視化と,分類結果の最大値の感情に沿った色による Word Cloud での可視化をおこなう.これらの認知行動療法に搭載する機能を提案し,今後の展望について述べる.
著者
田中 裕隆 曹 鋭 白 静 馬 ブン 新納 浩幸
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-243, no.8, pp.1-6, 2019-11-27

近年,BERT のような事前学習モデルを利用することで,自然言語処理システムの性能が大きく向上している.BERT は,Transformer の Multi-head Attention を用いることで文脈に応じた単語の埋め込み表現列を得ることのできるモデルである.文書分類のタスクの場合,文書を BERT に入力し,その出力から文書の特徴ベクトルを構築する方法によって処理できる.しかし,BERTに入力できるシーケンスの長さには上限がある.この制限によって,長い文書を扱う場合,標準的な手法では文書分類に必要な情報を十分に得られないと考えられる.そこで,BERT から長い文書内の全ての単語に対応する埋め込み表現を得て,そこから文書の特徴ベクトルを作成する手法を提案する.
著者
山田 康輔 笹野 遼平 武田 浩一
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.5, pp.1-6, 2020-06-26

本研究では,大規模コーパスからのフレーム知識獲得において,コーパスから収集された動詞の文脈を考慮することの有用性を検証する.具体的には,FrameNet および PropBank において 2 種類以上のフレームを喚起する動詞に着目し,それらの動詞が喚起するフレームの違いを ELMo や BERT に代表される文脈化単語埋め込みがどのくらい捉えているかを,各用例の文脈化単語埋め込みのクラスタリング結果とそれらに付与されたフレームを比較することにより調査する.
著者
築地 毅 鈴木 晴也 柴原 一友 藤本 浩司 池田 龍司 尾﨑 和基 森田 克明 松原 敬信
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.4, pp.1-7, 2020-06-26

本稿では,BERT を利用した教師無しデータへの適用について論ずる.近年ディープラーニングの技術が確立し始めており,特に画像認識分野において,既存の技術では困難だった特徴の自動抽出を実現したことにより,非常に高い精度を上げるようになってきている.自然言語処理においてもディープラーニングの研究は広く行われているが,近年 Google により発表された BERT の功績は大きく,教師あり学習のタスクに対して,既存の成果を大きく上回る成果を上げている.本稿では,教師あり学習の精度を大きく高めた BERT を教師無しデータに適用することで,既存手法の性能向上につながる可能性があるという仮説を主張する.本稿では,特許文書を対象に,教師あり学習を行わずに特許の類似性を図る実験を行った.実験の結果,人手で付与した特許分類フラグに対し 61.9 %の正解率となり,BERT を活用することで教師データを与えずとも,特許の類似度を表現できることを示した.
著者
鈴木 祥太 伊藤 孝行
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.2, pp.1-8, 2020-06-26

議論マイニングは Argumentation を解析し,その構造を特定することを目的とする.議論マイニングにおいて,コンポーネント分類は重要な課題である.コンポーネント分類を行うため,既存の手法は,複雑な議論構造をベクトルのような簡単な表現の特徴量に変換する.しかしながら,これらの特徴量に基づく手法では,複雑な構造を扱う上で貴重な情報が失われると考えられる.この問題を解決するため,本稿では,議論構造を直接的に学習することで,コンポーネント分類を行う手法を提案する.議論構造を直接的に学習するために,提案手法は Graph Attention Network を用いる.提案手法を評価するため,評論のコーパスを用いて実験を行った.実験の結果,提案手法は既存の特徴量に基づく手法よりも正確にコンポーネント分類を行うことが示された.
著者
中野 佑哉 河野 誠也 吉野 幸一郎 中村 哲
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.3, pp.1-5, 2020-06-26

質問応答とは,与えられた質問に対し適切な答えを見つけて提示するタスクであり,機械読解や対話システムなど様々な応用を構成する重要な基本タスクの一つである.これまでの質問応答システムの研究は様々な問題を解決し,いくつかのベンチマークで高い精度を実現してきた.しかしながら,質問応答システムを実際に利用する場合,様々な課題が残されている.その中の一つに,質問応答システムに対するユーザ発話の曖昧性がある.本論文では,解答が一意に定まらない曖昧な質問文に対し,問い返しを行うことによって質問文の意味を一意に定めることを目的とする新たな質問応答タスクを設定した.その上で,この問題のベンチマークとなる質問応答データセットを既存の質問応答タスク向け大規模データセットから変換することにより作成した.また,作成したデータセットに対して既存モデルを用いた際の精度評価実験を行い,どのような問題が存在するか議論した.