著者
銭本 友樹 古俣 槙山 宇津呂 武仁
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第37回 (2023) (ISSN:27587347)
巻号頁・発行日
pp.4A2GS605, 2023 (Released:2023-07-10)

対話システムは常に一貫した口調を保つことが望まれるため,文全体の口調の類似性評価は重要なタスクである.しかしながら日本語には多様な口調が存在し,口調ごとに特徴的な語彙や語法は膨大に存在するため,文全体の口調の類似性評価は困難なタスクである.そこで本研究では,文章同士の口調の類似性を評価可能な文ベクトル(以下口調ベクトル)を生成する口調埋め込みモデルを提案する.口調埋め込みモデルは,事前学習済みのBERTモデルを対照学習でファインチューニングして構築する.対照学習に必要な類似した口調及び異なる口調の文章ペアは,ウェブ小説中の連続した発話文を利用して大規模に自動収集する.また,Ward法を用いた口調ベクトルのクラスタリングによって,全体的な口調の種類と,各口調での特徴的な語彙や語法について分析する.最後に,発話相手や周囲の状況による同一人物の口調の変化に着目し,小説の登場人物の発話文全体における口調ベクトルのばらつきを分析する.
著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
中崎 寛之 川場 真理子 横本 大輔 宇津呂 武仁 福原 知宏
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.5, pp.613-622, 2010 (Released:2010-08-06)
参考文献数
12
被引用文献数
1

The overall goal of this paper is to cross-lingually analyze multilingual blogs collected with a topic keyword. The framework of collecting multilingual blogs with a topic keyword is designed as the blog feed retrieval procedure. In this paper, we take an approach of collecting blog feeds rather than blog posts, mainly because we regard the former as a larger information unit in the blogosphere and prefer it as the information source for cross-lingual blog analysis. In the blog feed retrieval procedure, we also regard Wikipedia as a large scale ontological knowledge base for conceptually indexing the blogosphere. The underlying motivation of employing Wikipedia is in linking a knowledge base of well known facts and relatively neutral opinions with rather raw, user generated media like blogs, which include less well known facts and much more radical opinions. In our framework, first, in order to collect candidates of blog feeds for a given query, we use existing Web search engine APIs, which return a ranked list of blog posts, given a topic keyword. Next, we re-rank the list of blog feeds according to the number of hits of the topic keyword as well as closely related terms extracted from the Wikipedia entry in each blog feed. We compare the proposed blog feed retrieval method to existing Web search engine APIs and achieve significant improvement. We then apply the proposed blog distillation framework to the task of cross-lingually analyzing multilingual blogs collected with a topic keyword. Here, we cross-lingually and cross-culturally compare less well known facts and opinions that are closely related to a given topic. Results of cross-lingual blog analysis support the effectiveness of the proposed framework.
著者
林 友超 呉 双 板東 勇樹 宇津呂 武仁
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第31回 (2017)
巻号頁・発行日
pp.1N11in2, 2017 (Released:2018-07-30)

本論文では,人狼AIを実現するための要素技術の一つとして,ウェブ上の人狼ゲー ム「人狼BBS」のプレーログを対象として,各プレーヤーの視点で他プレーヤー の役職を絞り込む過程を,定式化する.特に本論文では,役職割り当てを更新す る過程を制約充足問題として定式化して,制約充足問題に対する汎用的なソルバー 用いて実装した.
著者
板東 勇樹 呉 双 林 友超 宇津呂 武仁
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

本論文では,ウェブ上の人狼ゲーム「人狼BBS」のプレーログを情報源として, 狼役職のプレーヤーを絞り込むためのセオリーをマイニングする手法を提案する. 具体的には,(1) 複数の矛盾する占い結果を利用して狼役職のプレーヤーを絞り 込むためのセオリー,および,(2) 狼に襲撃されたプレーヤーの発言を利用して 狼役職のプレーヤーを絞り込むためのセオリーをマイニングする手法を提案する.
著者
高橋 佑介 横本 大輔 宇津呂 武仁 吉岡 真治
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.6, pp.1-6, 2011-11-14
被引用文献数
1

本論文では,時系列ニュースを対象として,情報集約を行うための二種類の方式として,バースト解析およびトピックモデルの2つの手法の考え方を組み合わせることにより,トピックのバーストを検出する方式を提案する.時系列ニュースにおけるバーストとは,世の中における特異な出来事に対応して,ある時期からその出来事に関連するニュース記事が急激に増加する現象を指す.バーストを検出するための代表的な手法として,Kleinbergのバースト解析が挙げられる.この手法においては,一般的に,バーストの検出はキーワード単位で行われる.一方,文書集合におけるトピックの分布を推定するものとしてLDA (latent Dirichlet allocation) やDTM (dynamic topic model) に代表されるトピックモデルがある.トピックモデルを適用することにより,ニュース記事集合全体の情報を,いくつかのトピックに集約することができる.以上の既存技術をふまえて,本論文では,DTMを用いて推定したトピックに対してバースト度を付与することで,トピック単位のバーストが検出可能であることを示す.Among various types of recent information explosion, that in news stream is also a kind of serious problems. This paper studies issues regarding two types of modeling of information flow in news stream, namely, burst analysis and topic modeling. First, when one wants to detect a kind of topics that are paid much more attention than usual, it is usually necessary for him/her to carefully watch every article in news stream at every moment. In such a situation, it is well known in the field of time series analysis that Kleinberg's modeling of bursts is quite effective in detecting burst of keywords. Second, topic models such as LDA (latent Dirichlet allocation) and DTM (dynamic topic model) are also quite effective in estimating distribution of topics over a document collection such as articles in news stream. This paper focuses on the fact that Kleinberg's modeling of bursts is usually applied only to bursts of keywords but not to those of topics. Then, based on Kleinberg's modeling of bursts of keywords, we propose how to measure bursts of topics estimated by a topic model such as LDA and DTM.
著者
板東 勇樹 呉 双 林 友超 宇津呂 武仁
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第31回全国大会(2017)
巻号頁・発行日
pp.1N13in2, 2017 (Released:2018-07-30)

本論文では,ウェブ上の人狼ゲーム「人狼BBS」のプレーログを情報源として, 狼役職のプレーヤーを絞り込むためのセオリーをマイニングする手法を提案する. 具体的には,(1) 複数の矛盾する占い結果を利用して狼役職のプレーヤーを絞り 込むためのセオリー,および,(2) 狼に襲撃されたプレーヤーの発言を利用して 狼役職のプレーヤーを絞り込むためのセオリーをマイニングする手法を提案する.
著者
川口 輝太 久保 遼馬 藤田 拓也 前田 竜冶 宇津呂 武仁 小林 彰夫 西崎 博光 河田 容英
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-241, no.22, pp.1-9, 2019-08-22

本論文では,テレビドラマ視聴者がドラマ視聴後にウェブ上で行うドラマ関連関心動向 ・感想 ・レビュー類の情報探索過程を支援することを目的として,ブログ ・ドラマ関連サイト等のウェブページからの情報収集 ・集約を行うウェブマイニング技術を提案する.具体的には,本論文では,BERT および Wikipedia を用いて,文単位での当該ドラマ関連判定および主観情報判定を行うとともに,文単位での判定結果に基づいて,ウェブページ単位での当該ドラマ関連判定および主観情報判定を行う手法,および,その評価結果について述べる.
著者
笠松 美歩 上原 宏 宇津呂 武仁 齋藤 有
出版者
日本知能情報ファジィ学会
雑誌
知能と情報 (ISSN:13477986)
巻号頁・発行日
vol.30, no.3, pp.581-590, 2018-06-15 (Released:2018-06-15)
参考文献数
38

本論文では,絵本に対する子どもの認知発達的反応が描写された絵本レビューに対してテキストマイニング技術を適用し,絵本に対する子どもの認知発達的反応事例を網羅的に収集した.特に,典型的な5種類の反応の事例に対して,反応の詳細および絵本の特徴に基づき,合計13種類の下位分類を設定することができた.さらに,以上の結果と,既存の発達心理学文献における知見との間の比較分析を行った結果,発達心理学文献での報告事例の規模・種類とも上回る子どもの認知発達的事例を収集・類型化できることが分かった.
著者
堀内 貴司 千葉 靖伸 浜本 武 宇津呂 武仁
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.102, no.200, pp.93-100, 2002-07-09

本論文では,WWW上の報道記事サイト等から日本語および英語など,異なった言語で書かれた文書を収集し,多種多様な分野について,分野固有の固有名詞(固有表現)や事象・言い回しなどの訳語対応を半自動的に獲得する枠組を提案する.特に本論文では,言語を横断して内容的に関連した日英報道記事を収集する手法について述べ,さらに,言語横断関連報道記事検索により自動収集された日英関連記事対から,半自動的に訳語対応を獲得する手法を提案する.評価実験においては,評価用記事集合に対して言語横断関連報道記事検索の性能を評価した後,言語横断関連報道記事検索の性能と訳語対応獲得の性能の相関について分析した結果について詳しく述べる.
著者
日野 浩平 宇津呂 武仁 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.73, pp.57-63, 2004-07-15
被引用文献数
1

近年,ウェブ上の日本国内の新聞社などのサイトにおいては,日本語だけでなく英語で書かれた報道記事も掲載しており,これらの英語記事においては,同一時期の日本語記事とほぼ同じ内容の報道が含まれている.本研究では,これらの報道記事のページから,日本語で書かれた文書および英語で書かれた文書を収集し,多種多様な分野について,分野固有の固有名詞(固有表現)や事象・言い回しなどの翻訳知識を自動または半自動で獲得するというアプローチをとる.翻訳知識獲得においては,まず,報道内容がほぼ同一もしくは密接に関連した日本語記事および英語記事を検索する.そして,関連記事組における訳語候補の共起に基づく相関尺度を用いて,二言語間の訳語対応を推定する.本稿では,この尺度を用い,英語タームの出現頻度の分布に応じて,訳語対応推定性能が変化するかどうかを調査し,その相関を評価する.そして,英語タームの頻度が大きいほど,高い訳語対応推定性能が達成できることを示す.This paper focuses on bilingual news articles on WWW news sites as a source for translation knowledge acquisition. We take an approach of acquiring translation knowledge of domain specific named entities, event expressions, and collocational expressions from the collection of bilingual news articles on WWW news sites. In this framework, pairs of Japanese and English news articles which report identical contents or at least closely related contents are retrieved. Then, a statistical measure is employed for the task of estimating bilingual term correspondences based on co-occurrence of Japanese and English terms across relevant Japanese and English news articles. This paper then examines the correlation of term frequencies and correctness of term correspondences estimation. We experimentally show that the more frequent the target English terms be, the more reliably bilingual term correspondences can be estimated.
著者
土井 俊弥 井上 祐輔 今田 貴和 宇津呂 武仁 河田 容英 神門 典子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

本論文では,ウェブ検索者の関心事項に着目し,検索エンジン・サジェストを情 報源としてウェブ検索者の情報要求観点を収集し,集約を行う手法を提案する. 特に,サジェストを用いた検索によって収集されるウェブページ集合に対してト ピックモデルを適用し,ウェブページのクラスタリングを行うことによって,ウェ ブページに対応付けられたサジェストの集約を行う.
著者
今田 貴和 井上 祐輔 李 雪山 宇津呂 武仁 河田 容英 神門 典子
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

本論文では,検索エンジン・サジェストによって測定される関心事項の情報を最 大限に有効活用するタスクとして,特定商品ジャンルにおける製品・サービス等 の供給者である複数の企業の間で,検索における関心の度合いを比較するという タスクを設定する.そして,検索における関心の度合いが,実社会における市場 シェア統計との間でどの程度の相関を持つのかについて分析を行う.
著者
阿部 佑亮 中崎 寛之 横本 大輔 宇津呂 武仁 河田 容英 福原 知宏
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.24, 2010

本研究では,ブログ空間の情報や知識を類型化するための方式の一つとして, 「ブロガーの立場」に着目する.そして,事例研究として,「詐欺」,「イン ターネット犯罪」の分野を対象として,日英ブログサイトの収集を行い,ブロ グでの記述内容を被害者・ニュース記事引用・防止対策に類型化した結果を報 告する.さらに,それらの類型のうち,特に被害者によるブログ記事の自動収 集手法を提案する.
著者
久保 遼馬 藤田 拓也 宇津呂 武仁 小林 彰夫 西崎 博光 河田 容英
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2020, pp.1B5GS601, 2020

<p>本論文では,テレビドラマ視聴者がドラマ視聴後にウェブ上で行うドラマ関連関心動向・感想・レビュー類の情報探索過程を支援することを目的として,ブログ・ドラマ関連サイト・ツイッター等のウェブページからの情報収集・集約を行うウェブマイニング技術を提案する.本論文では,特に,テレビドラマ視聴者がドラマ放送期間中に,ツイッター上で行うドラマ関連の関心・感想の情報探索支援を行うことを目的とし,ツイートの収集・集約を行う手法を提案する.具体的には,ドラマに出演する主要な俳優や登場人物名を表すキーワード,および,それらのキーワードに対する感想を表す形容詞が共起するツイートを収集し,BERTを用いて,それらのキーワードと形容詞の間の感想関係の有無の判定を行う.実際に数百事例を収集し,人手で感想関係の有無を判定した訓練・評価事例を作成し,BERTのfine-tuningおよび評価を行ったところ,約70-80%の精度で感想関係の有無を同定することができた.</p>
著者
林 友超 呉 双 板東 勇樹 宇津呂 武仁
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2017, pp.1N11in2, 2017

<p>本論文では,人狼AIを実現するための要素技術の一つとして,ウェブ上の人狼ゲー ム「人狼BBS」のプレーログを対象として,各プレーヤーの視点で他プレーヤー の役職を絞り込む過程を,定式化する.特に本論文では,役職割り当てを更新す る過程を制約充足問題として定式化して,制約充足問題に対する汎用的なソルバー 用いて実装した.</p>
著者
片山 太一 芳中 隆幸 宇津呂 武仁 河田 容英 福原 知宏
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2009-DBS-149, no.19, pp.1-8, 2009-11-13

本研究では,ブログにおいてアフィリエイト収入を得ることを目的とするスパム (スパムブログ,スプログ) のうち,特に,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログの検出において,HTML 構造の類似性が効果的であることを示す.具体的には,ブログの HTML ファイルにおける DOM ツリーから,コンテンツの最小単位に相当するブロックを抽出し,複数のスプログの間でブロック構造の類似性を測定する.その結果,同一ブログホストにおけるスプログのうち,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログ同士では,ブロック構造が類似する傾向があることを示す.また,ブロック構造の類似性を素性として用いることにより,SVM によるスプログ検出の性能が向上する場合があることを示す.
著者
龍 梓 木村 龍一郎 飯田 頌平 宇津呂 武仁 三橋 朋晴 山本 幹雄
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J102-D, no.3, pp.104-117, 2019-03-01

ニューラル機械翻訳(NMT)の弱点の一つとして,扱える語彙に限りがある点が知られている.NMTにおいては,語彙辞書に含まれていない単語は未知語トークンとして出力されるため,これが誤訳となる.従来法では,出力文に含まれた未知語トークンが対応する原言語の単語を推定しその訳語に置き換えることによって,NMTにおいて出力可能となる語彙の規模を拡大した.しかし,この方式は,単語単位での語彙規模の拡大にとどまる点が弱点であった.本論文においては,ニューラル翻訳において,大規模フレーズ語彙に対応する方式を提案する.具体的には,訓練用対訳文においてフレーズ間の二言語対応の情報を収集し,二言語間で対応済みのフレーズ対訳対を同一のトークンに置き換えた後,NMTモデルの訓練を行う.翻訳時には,NMTモデルの語彙集合中の語彙部分に対しては,NMTモデルによる訳文生成がなされ,一方,その他のフレーズまたは単語語彙部分に対しては,SMTモデルによる翻訳がなされる.日中,中日,日英,英日の各方向の翻訳において評価を行い,提案手法の有効性を検証した.
著者
本間真一 小林 彰夫 佐藤庄衛 今井 亨 安藤 彰男 宇津呂 武仁 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.55, pp.29-34, 2001-06-01
参考文献数
12
被引用文献数
1

我々は、ニュース解説を対象にした音声認識の研究を行っている。これまでの研究では、解説音声は原稿読み上げ音声と異なる音響的特徴および言語的特徴をもつことや、学習データ量も不足していることから、まだ十分な認識精度は得られていない。そこで本稿では、比較的多くのデータ量が得られる講演スタイルの解説番組「あすを読む」を対象にした音声認識について検討を行う。ニュース原稿と「あすを読む」の書き起こしの混合による言語モデルの適応化、言語モデルの学習テキストと発音辞書におけるフィラーの扱いの見直し、音響モデルの話者適応などを行った結果、単語正解精度が67.4%から84.9 %まで改善した。We are studying speech recognition for news commentary. So far we haven't achieved satisfied accuracy for it, because speech of news commentary has different linguistic and acoustic features from read speech and supplies insufficient training data. Therefore, this paper treats speech recognition of a broadcast commentary program called "Asu wo Yomu (Reading Tomorrow)", which has rather more training data. We adapted language models by mixing the news manuscripts and transcriptions of "Asu wo Yomu" in their training texts, changed how to treat pause fillers in the training texts and word lexicon, and carried out speaker adaptation of acoustic models and so on. As a result, we improved the word accuracy from 67.4% to 84.9%.