著者
小坂 直輝 小林 哲則 林 良彦
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回 (2020)
巻号頁・発行日
pp.3Rin477, 2020 (Released:2020-06-19)

近年,インターネット上で個人が小説を投稿できる,小説投稿サイトが多数開設され,数多くの作品が投稿されている.こうした作品はweb小説等と呼ばれ,これらの中には商業用に書籍化・映像化される作品も存在している.一方でこれらweb小説に関して,その作品数の多さから読者が好みの作品を探すのが難しいという問題や,人気の作品や最新の作品といった限られた少数の作品に大多数の読者が集中し隠れた良作が出来てしまうという問題がある.本研究の目的は,上記問題点を解決し,ユーザが作品を探すのを助ける推薦システムを実現することである.具体的には,作品の本文とジャンルやキーワードといった付属情報から,作品の類似度や質を推定することで,読者の評価情報が無い作品の推薦や,ユーザによる推薦基準の操作が可能な推薦システムを試作し評価を行った.結果として,作品の類似度や質を一定の精度で予測でき,試作したシステムが隠れた良作を発掘するのに有用であることが示唆された.
著者
菊池 英明 工藤 育男 小林 哲則 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.77, no.8, pp.1502-1511, 1994-08-25
被引用文献数
19

音声を利用したマルチモーダルインタフェースのベースシステムとなる音声対話インタフェースにおいて,ユーザに発話のタイミングに関する自由を保証するための割込みの扱いについて検討した.ユーザに割込みを許すとき,従来のように1文を単位としてシステムの発話を計画するのでは,計画した発話内容と実際に発話した内容あるいはユーザが受け取った内容の間に差異が生じる.そこで,発話の計画の単位を,1文中の伝えるべき情報と定め,対話中に話者間でやりとりされる発話権を管理することにより,どの情報が受聴されたかを常に把握する方式を提案した.実験の結果,提案した方式によって,システムが計画した発話とユーザが受聴した発話の差異をなくしながら,スムーズな割込みへの対処が被験者の半数以上に認められた.また,割込みに対処することにより,ユーザのタスク完了までの所用時間は7%減少し,積極的な話題提起数が21%増えるなど,インタフェースの利便性が向上することが確認された.
著者
松坂 要佐 東條 剛史 小林 哲則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.6, pp.898-908, 2001-06-01
被引用文献数
56

グループ会話に参与できる対話ロボットを開発した.グループ会話とは, 会話の参加者同士が, 対等の関係で行う多人数会話である.人と機械が1対1で会話することを前提としていた従来の人・機械の対話システムと異なり, グループ会話においては、投げかけられた声が誰によって発せられ誰に向けられたものか, それぞれの会話参加者は誰に注目しているかなど, 会話の場に関する状況理解をするとともに, 自らも適切な場の形成に努める必要がある.本研究では, 画像処理, 音響処理などを併用することで状況理解を行うとともに, 身体表現によって会話状況への働きかけを行う機能を実現し, これらを音声認識と組み合わせることで, 複数の参加者を相手に会話できるロボットを作成した.
著者
佐々木 浩 中野 鐵兵 緒方 淳 後藤 真孝 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.10, pp.57-62, 2009-01-30
被引用文献数
3

ポッドキャストの音声認識における言語モデルの適応手法を提案する.ポッドキャストは,幅広い話題,タスクの音声データが日々増え続けるという特徴を持っているため,言語モデルをいかにして学習,構築するかが認識性能を左右する大きなポイントとなる.本稿では,言語モデリングにおいて,あらかじめポッドキャストが持つメタ情報と「語彙情報サービス」を活用することで,ポッドキャスト音声認識の性能向上をはかる.具体的には,あらかじめ用意された言語モデリング用学習テキストを各テキスト毎に特徴語を抽出し,ポッドキャストのタイトルや概要などに記載された語との共起を基準にテキストの選択を行い,ポッドキャスト毎に特化された言語モデルの学習を行う.加えて,学習テキストやポッドキャストのメタ情報上の語の不足から生じる,テキスト選択の精度低下の問題を解決するため,語彙情報サービスのタグ情報を活用する.本手法で適応された言語モデルを実際に用いて,その性能を単語パープレキシティと未知語率で評価した結果,単語パープレキシティがベースラインの86%,未知語率もベースラインの80%となり,言語モデルの性能が改善されたことが確認された.This paper presents a language model adaptation method for automatic transcription of podcasts. Since podcasts include speech data that contains a variety of topics and many newly created words, well designed language models are indispensable to achieve sufficient speech recognition rate. In this paper, we propose a new topic dependent language modeling method by using meta information of podcasts and vocabulary information service. In this method, a large amount of training data are collected from the Internet such as web news and blogs on a daily basis. By using RSS texts of podcasts, topic dependent texts are selected from these training data, and proper language models are created for each podcast. In addition, we utilize the tag information of the vocabulary information service to solve the problem of the precision fall of the text choice that the lack of the word in a learning text and a meta information of Podcast cause. The assessment result showed that the performance of the language model using this method is improved because the word perplexity of the result using this method is 86% of that of the baseline and the out-of-vocabraly rate of the result using this method is 80% of that of the baseline.
著者
岩田 和彦 小林 哲則
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J106-D, no.1, pp.57-65, 2023-01-01

多様な音声表現が可能な対話音声合成の構築を目的として,複数の異なる音声表現を収集する手法の設計に取り組んだ.従来は,それぞれを適切な表現とすることに注意が向けられ,互いに他の表現とは無関係に表出させた音声が収集されていた.しかし,このような収集方法を採ると,それぞれの表現の隔たりが大きくなり,それらの合成音声を対話の流れの中で発話ごとに使い分けたときに違和感が生じるという問題が起こる.そこで,話し手の心的状態が次々と変化して,収集したい音声表現が満遍なく出現するように進行する対話シナリオを導入した収集手法を設計した.所望の音声表現を対話の流れの中で順に表出させることで,全体としての調和が保たれた表現となることが期待できる.実際に,対話の状況に応じて異なる複数の音声表現を収集し,これらと従来の方法で収集した音声表現とに基づく合成音声を用いたそれぞれの模擬対話の対比較による主観評価を行った.本手法で収集した音声表現の合成音声では,異なる表現を対話の流れの中で使い分けたときの自然性が改善されていることが示され,本手法の有効性が確認された.
著者
松山 洋一 藤江 真也 齋藤 彰宏 XU Yushi 小林 哲則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.110, no.220, pp.7-12, 2010-10-01
参考文献数
7

通所介護施設において,人同士の会話に介在させ,コミュニケーションを活性化するロボットについて報告する.本研究では,具体的なタスクとして高齢者通所施設で行われている難読ゲームを取り上げる.難読ゲームは,司会者の存在する複数人対話の一形態だと考えることができる.ここでロボットは,複数人会話における制約を満たしながら,会話を活性化させるための行動選択を行う必要がある.本論文では,既に人同士で行われているコミュニケーションを妨害せずに活性化を実現するため,会話における参加者の役割や,参加者間が共有する話題を推定しながら,様々な場面において適した行動を取るフレームワークを提案する.
著者
小林 哲則 関根 英敏
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.47, no.8, pp.539-544, 1991-08-01 (Released:2017-06-02)
被引用文献数
1

実音声における基本周期の揺らぎの統計的性質について調べると共に、規則合成のための揺らぎを考慮した基本周期生成モデルについて検討した。実音声の分析の結果、基本周期の揺らぎの系列相関は、35〜70次を周期とする減衰波状の概形を示すことが明らかになった。次にこの性質を考慮しながら種々の揺らぎを有する基本周期生成モデルを構成し、揺らぎの性質と合成音声の自然性との関係について検討した。聴取実験の結果、ARフィルタを用いて実音声における揺らぎの系列相関を合成音に与えるよう構成したモデルの性能が良いことが分かった。この揺らぎを有する基本周期生成モデルによる合成音声の自然性は実音声の揺らぎを用いた合成音声と同程度であることが示された。
著者
斎藤 奨 Chiang Chun-Wei Savage Saiph 中野 鐵兵 小林 哲則 Bigham Jeffrey
出版者
人工知能学会
雑誌
2019年度 人工知能学会全国大会(第33回)
巻号頁・発行日
2019-04-08

クラウドソーシングにおいて、ワーカーの多くが十分な賃金を獲得できていないことが問題視されている。原因の一つとして、まだ取り組んだことのないマイクロタスクの「割の良さ」を正確に見積もることの難しさが挙げられる。本研究では、他のワーカーによる過去のタスク作業履歴をもとに、新たに発行された未知のタスクに必要な作業時間と時給を推定する手法を提案する。Amazon Mechanical Turkのワーカー84人に独自に開発したウェブブラウザ拡張機能をインストールさせて9,155件のタスクデータを抽出し、異なる方法で計測した4パターンの時間の候補からワーカー自身に一つ選ばせることで作業時間のラベルを付与した。さらにGradient Boosting Decision Treeのモデルから作業時間を回帰推定するTurkScannerを設計・評価し、約150次元の特徴ベクトルから高い精度で作業時間を推定することを示した。
著者
高津 弘明 福岡 維新 藤江 真也 岩田 和彦 小林 哲則
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.34, no.2, pp.B-I65_1-15, 2019-03-01 (Released:2019-03-01)
参考文献数
46
被引用文献数
1

We have been developing a speech-based “news-delivery system”, which can transmit news contents via spoken dialogues. In such a system, a speech synthesis sub system that can flexibly adjust the prosodic features in utterances is highly vital: the system should be able to highlight spoken phrases containing noteworthy information in an article; it should also provide properly controlled pauses between utterances to facilitate user’s interactive reactions including questions. To achieve these goals, we have decided to incorporate the position of the utterance in the paragraph and the role of the utterance in the discourse structure into the bundle of features for speech synthesis. These features were found to be crucially important in fulfilling the above-mentioned requirements for the spoken utterances by the thorough investigation into the news-telling speech data uttered by a voice actress. Specifically, these features dictate the importance of information carried by spoken phrases, and hence should be effectively utilized in synthesizing prosodically adequate utterances. Based on these investigations, we devised a deep neural network-based speech synthesis model that takes as input the role and position features. In addition, we designed a neural network model that can estimate an adequate pause length between utterances. Experimental results showed that by adding these features to the input, it becomes more proper speech for information delivery. Furthermore, we confirmed that by inserting pauses properly, it becomes easier for users to ask questions during system utterances.
著者
福地 佑介 俵 直弘 小川 哲司 小林 哲則
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012, no.8, pp.1-6, 2012-07-12

高精度な話者表現とクラスタリングアルゴリズムを統合した新たな話者クラスタリング手法を提案する.従来用いられる話者クラスタリング手法では,データ量が多くなると正確なクラスタリングが困難になるという問題があった.そのような条件下において正確な話者クラスタリングを実現するためには,音響変動に対して頑健なモデルにより話者を表現し,このモデルを用いて各発話を効率的にクラスタリングする手法が必要となる.そこで提案手法では,話者照合の分野で高い精度を達成しているi-vectorを話者の表現として用い,クラスタリング手法として非負値行列分解に基づいた効率的なクラスタリング手法を導入した.本手法の有効性を示すために,CSJデータを用いた話者クラスタリング実験を行い,従来手法と比較して,提案手法が発話データ量の変化に対し頑健に話者クラスタリングが行えることを確認した.We have developed a novel speaker clustering method by integrating highly accurate speaker representation and a clustering algorithm. The conventional method caused significant degradation in clustering accuracy when the number of utterances increased. High-accuracy speaker representation and high-performance clustering method are required to realize robust speaker clustering system against such a condition. For this purpose, we used i-vectors for the speaker representation, which contributes to the realization of high-accuracy speaker verification systems, and efficient non-negative matrix factorization for the clustering algorithm. Experimental results show that the proposed method outperforms the conventional methods, irrespective of the amount of data.
著者
西本 卓也 志田 修利 小林 哲則 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.12, pp.2176-2183, 1996-12-25
被引用文献数
32

マルチモーダルインタフェースの枠組みの中で音声入力がどのようにインタフェースの改善に貢献し得るかを検討し,そこで得た知見を生かしたマルチモーダル作図システムS-tgifを作成・評価した.システムの作成にあたっては,インタフェースの原則論に従って音声の特長である操作性および手順連想容易性を生かし,欠点である状態理解容易性,頑健性を他で補うよう努めた.評価実験の結果,システムの利用を開始してまもない時期あるいは一時利用を中断した後などにおいては特に音声の利用効果が高く,課題の完了までに要する時間を約80%に減少できた.ユーザがシステムに熟練すると音声の利用の客観的効果は薄れるが,特定のコマンドでは音声の利用率が90%を超え,また主観評価の結果でも高い評価を得るなど,音声入力はユーザから支持された.このように,インタフェースの原則論に従って音声の効果的利用を考慮することにより,有用なインタフェースを構築できることが示された.
著者
福岡 維新 麥田 愛純 高津 弘明 藤江 真也 林 良彦 小林 哲則
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

ニュース記事の伝達をタスクとして,聞き手が挟む相槌や聞き返しに応じて適宜情報を補完しながら会話を進める音声対話システムを提案する.要点を伝える主発話計画と,それに対し情報を補完する副発話計画を記事から自動生成する機能,これらの発話計画を聞き手の反応に暗に表れる理解状態に応じて切り替える機能を実装した.これらにより,リズムある対話による効率的な情報伝達が実現できた.
著者
秋葉巌 松山洋一 小林哲則
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.10, pp.1-8, 2013-07-18

多人数会話において発生する発話機会の不均衡を調整するために,機会が十分に与えられず 「置いてけぼり」 状態になっている会話参加者に適切な手続きを経て発話機会を与えることのできる会話ロボットを提案する.特に,ファシリテーションのモデルを扱うための最小単位である 4 者会話 (ロボットを含む) を対象として,主導的に会話を進めている参加者らの状況も考慮しながら,段階的に主導権を奪取し,しかるべき対象者に発話機会を与えるような手続きの計算モデルを提案する.モデル化には,誤りを含むセンサ情報にロバストな部分観測マルコフ決定過程 (POMDP) を用いる.さらに手続きとそのタイミングの適切性について評価した被験者実験の結果を報告する.We propose a facilitation robot harmonizing four-participant conversations. Four-participant conversation is the minimum unit that needs facilitation skills. In general, three is the minimum number of participants of a multiparty conversation. In such three-participant situations, back-and-forth interactions between two participants out of three primarily occur and another participant tends to be left behind, who cannot properly get floors to speak. Here, they need one more participant who helps the participant left behind to harmonize him/her with the others. Conversational robots have potentials to participate in such conversations as the fourth participant. When the robot steps in the situation to help, there should be proper facilitating procedures to obtain initiatives to control conversational contexts. In this paper, we propose a conversational robot system harmonizing four-participant conversations along procedures of obtaining initiatives of topic and floor control. These situations and procedures were modeled and optimized as the partially observable Markov decision process. We conducted an experiment to evaluate appropriateness of the proposal procedures and the result shows evidence of its acceptability.
著者
大町 基 岩田 和彦 小林 哲則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.109, no.355, pp.159-163, 2009-12-14
参考文献数
7

合成音声に,相手との距離に応じた距離感を与えることを試みる.人が,例えば,離れたところにいる相手に話しかけようとして大きな声を出す際には,通常よりも強く息を吐くなどの発声の仕方の変化を伴うと考えられる.このことは音量が大きくなる以外に,声質の変化をももたらすと予想される.そこでまず,人が,相手との距離を意識して発声した音声にどのような特徴が現れるかを調べた.話しかける相手との距離をいくつか設定し,声優がそれぞれの距離感を表現して発声した音声を収録した.これらの音声を分析した結果,距離感が遠くなるにしたがって(1)第1フォルマント周波数の高域へのシフト,(2)スペクトル傾斜の緩和が特徴として見られることがわかった.さらに,これらの特徴の変化を踏まえ,音声の距離感を変換する方法を検討した.