著者
高木 大生 佐藤 理史 駒谷 和範
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

我々は、既存の短編小説から会話文を抜き出し、その一部を他作品の会話文と置換することにより、新たな超短編小説を自動生成することに取り組んでいる。このプロセスを機械的に実行するための準備として、我々はまず、星新一のショートショートに含まれる会話文に対し、発話者を特定する方法を実装した。この方法は、発話者を特定する手がかりとして、会話文の文体的特徴と、会話文の前後の地の文を利用する。
著者
中野 幹生 駒谷 和範
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第37回 (2023) (ISSN:27587347)
巻号頁・発行日
pp.4A2GS604, 2023 (Released:2023-07-10)

対話システムの構築には様々な技術の統合が必要なため,情報技術教育の題材として有効であると考えられる.しかしながら,既存の対話システム構築フレームワークは情報技術教育を目的としたものではないため,必ずしも初学者が学習目的で使うのに適しているとは言えない.そこで我々は,拡張性の高いアーキテクチャを持ち,可読性の高いコードで書かれた対話システム構築フレームワークDialBBを開発している.DialBBは,ブロックと呼ぶモジュールを組み合わせることで対話システムを構築できる.システム開発者は,DialBB付属のブロックを用いることで簡単にシステムを構築できるが,自作のブロックを用いて高度なシステムを構築することもできる.DialBBを複数のシステムの構築に利用してもらい,対話システム構築フレームワークとしての有用性を確認した.
著者
緒方 健人 佐藤 理史 駒谷 和範
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

本研究では、既存の短編小説を模倣利用した、超短編小説の自動生成を目指す。最も単純な模倣は、完全な複製である。しかしながら、複製した文章の一部を改変することで、単純な模倣から脱却し、創作に近づけていくことができると考えられる。本発表では、星新一のショートショート作品からいくつかの文を抜き出し、その一部を変化させたり、置換したりすることで、新たなる超短編小説が生成できる可能性を示す。
著者
佐藤 理史 加納 隼人 西村 翔平 駒谷 和範
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.5, pp.1-9, 2013-07-11

大学入試センター試験 『国語』 の現代文で出題される,いわゆる 「傍線部問題」 を解く方法を定式化し,実装した.実装した方法は,「評論」 の 「傍線部問題」 の半数を正しく解くことができた.We have formalized and implemented a method for solving questions about underlined segments in contemporary Japanese language, National Center Test for University Admissions. The method can solve a half of these questions in "critical essay" correctly.
著者
武田 龍 駒谷 和範 中島 圭祐 中野 幹生
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.37, no.3, pp.IDS-B_1-9, 2022-05-01 (Released:2022-05-01)
参考文献数
24

Dialogue system development involves a variety of factors and requires multifaceted consideration, so design guidelines would be helpful. Although a neural-based approach can be used, it requires a vast amount of dialogue data and would take too much effort to collect them to develop a system for a specific and fixed-length dialogue. Furthermore, errors in automatic speech recognition and language understanding should be explicitly considered in the design because they are inevitable when the system talks with general users and would lower their impressions. We propose design guidelines for developing dialogue systems. Our systems developed with the aid of these guidelines took first place in two dialogue system competitions: the situation track of the second Dialogue System Live Competition and a pre-preliminary test of the Dialogue Robot Competition. Our proposed design guidelines are to (1) make the system take initiative, (2) avoid dialogue flows from relying too much on user utterances, and (3) include in system utterances that the system understands what the user said. We also show more details regarding the systems designed for each of the two competitions with examples, such as the dialogue examples in the two competitions and the scores of questionnaire by real users.
著者
佐藤 理史 加納 隼人 西村 翔平 駒谷 和範
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.3, pp.465-483, 2014-06-16 (Released:2014-09-16)
参考文献数
6
被引用文献数
2 1

大学入試センター試験『国語』の現代文で出題される,いわゆる「傍線部問題」を解く方法を定式化し,実装した.本方法は,問題の本文の一部と 5 つの選択肢を照合し,表層的に最も類似した選択肢を選ぶことにより問題を解く.実装した方法は,「評論」の「傍線部問題」の半数以上に対して正解を出力した.
著者
杉山 貴昭 船越 孝太郎 中野 幹生 駒谷 和範
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.31, no.3, pp.C-FB2_1-9, 2016-05-01 (Released:2016-05-25)
参考文献数
18
被引用文献数
1

When a robot interacts with users in public spaces, it receives various sounds such as surrounding noises and users' voices. And furthermore, the robot needs to interact with multiple people at the same time. If the robot incorrectly determines whether it should respond to these sounds, it will erroneously respond to surrounding noises or ignore user utterances directed to the robot. In this paper, we present a machine learning-based method to estimate a response obligation, i.e., whether the robot should respond to an input sound. We address a problem setting that is more similar to interactions in public spaces than those assumed in previous studies. While previous studies assume only utterances directed to one of interlocutors as input sounds, we deal with not only those utterances but also noises and monologues. To deal with various sounds, our method uses the results of input sound classification and user behaviors both in an input sound interval and after the interval. In particular, the user behaviors after the interval are introduced as a key factor for improving the estimation accuracy of response obligation, such as a tendency that a user stands and keeps still after he/she talks to the robot. We demonstrate the new features significantly improved the estimation performance. We also investigate performances with various combinations of features and reveal that the results of input sound classification and the user behaviors after the interval are helpful for the estimation.
著者
糸山 克寿 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.3, pp.1-6, 2009-07-22

本報告では,楽曲の楽器パート音量操作によってユーザがクエリをカスタマイズすることが可能な類似楽曲検索手法を提案する.楽曲の雰囲気やジャンルは楽曲を構成する楽器およびその音量バランスと強く関係する,という仮説に基づく.楽曲の音響信号を楽譜に基づいて楽器パートへと分離し,その分離信号の音量を操作することで楽曲の音響的特徴を変化させる.楽曲の音響特徴はガウス混合分布で表現され,楽曲間の類似性を分布間の Earth Movers Distance で定義する.実験により,歌声,ギター,ドラムスパートの音量を操作した際にジャンルシフトが起こることを示す.This report presents a novel Query-by-Example (QBE) approach in Music Information Retrieval, which allows a user to customize query examples by directly modifying the volume of different instrument parts. The underlying hypothesis is that the musical genre shifts (changes) in relation to the volume balance of different instruments. Our QBE system first separates the musical audio signal into all instrument parts with the help of its musical score, and then lets a user remix those parts to change acoustic features that represent musical mood of the piece. The distribution of those features is modeled by the Gaussian Mixture Model for each musical piece, and the Earth Movers Distance between mixtures of different pieces is used as the degree of their mood similarity. Experimental results showed that the shift was actually caused by the volume change of vocal, guitar, and drums.
著者
中野 幹生 駒谷 和範
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会研究会資料 言語・音声理解と対話処理研究会 第96回(2022.12) (ISSN:09185682)
巻号頁・発行日
pp.39, 2022-12-01 (Released:2022-12-01)

対話システムは,様々な技術を統合して構築されるため,情報技術教育の題材として有効であると考えられる.しかしながら,既存の対話システム構築フレームワークは,情報技術教育を目的としたものではないため,必ずしも初学者が学習目的で使うのに適しているとは言えない.そこで我々は,拡張性の高いアーキテクチャをもち,可読性の高いコードで書かれた対話システム構築フレームワークDialBBを開発している.DialBBは,ブロックと呼ぶモジュールを組み合わせることで対話システムを構築できるフレームワークである.システム開発者は,DialBB付属のブロックを用いることで簡単にシステムを構築できるが,自作のブロックを用いることで高度なシステムを構築することもできる.DialBBを対話ロボットコンペティション2022用のシステムの構築に利用してもらい,対話システム構築フレームワークとしての有用性を確認した.
著者
安部 武宏 糸山克寿 吉井 和佳 駒谷 和範 尾形 哲也 奥乃 博
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.3, pp.1054-1066, 2009-03-15
被引用文献数
1

本稿では,ある音高を持つ楽器音をもとにして,音色の歪みを抑えながら任意の音高を持つ楽器音を合成する手法について述べる.我々は音色の聴感上の差に関する音響心理学的知見に基づき,楽器音のスペクトログラム上で観察される音色特徴量として,(i) 倍音ピーク間の相対強度,(ii) 非調波成分の分布,(iii) 時間方向の振幅エンベロープの3つを定義する.まず,もとになる楽器音の音色特徴量を分析するため,糸山らの調波·非調波統合モデルを用いて楽器音を調波構造と非調波構造に分離する.音高操作時には,特徴量(i),(ii) の音高依存性を考慮しなければならない.そのため,音高に対する特徴量を3次関数で近似し,所望の音高における特徴量の値を予測する.32種類の楽器に対して音高操作を試みたところ,音高依存性を考慮しない場合と比べて合成音と実際の楽器音との距離が,スペクトル距離尺度では64.70%,MFCC距離尺度では32.31%減少し,手法の有効性が確かめられた.This paper presents a synthesis method that can generate musical instrument sounds with arbitrary pitches from a given musical instrument sound while constraining distorting timbral characteristics. Based on the psychoacoustical knowledge on auditory effects of timbre, we define timbral features on the spectrogram of a musical instrument sound as (i) relative amplitudes of harmonic components, (ii) distribution of inharmonic components, and (iii) temporal envelopes of harmonic components. First, to analyze timbral features of a seed, it is separated into harmonic and inharmonic components by using Itoyama's integrated model. In pitch manipulation, it is necessary to take into account the relation of pitch and features (i) and (ii). Therefore, we predict the values of each feature by using a cubic polynomial that approximates the feature distribution over pitches. Experimental results showed the effectiveness of our method; the spectral and MFCC distances between synthesized sounds and real sounds of 32 instruments were reduced by 64.70% and 32.31%, respectively.
著者
浜辺 良二 駒谷 和範 尾形 哲也 奥乃 博
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2005, no.50(2005-NL-167), pp.89-94, 2005-05-27

音声対話システムにおいて,聞き取りやすさを考慮したシステム応答側の発話内容や言語表現についてはほとんど研究されていない.本研究では,システムの語彙内の音韻的に類似した単語に対して,それらを聞き分けやすくする新たな単語を付加した確認を自動的に生成する.まず,複数の知識源を利用して,付加する単語の候補を複数取得する.さらに確認の適切性を測る尺度を定義することにより,候補から最適な確認表現を自動的に選択する.京都市バス運行情報システムおよびホテル検索システムの語彙に対して,本手法により確認を生成し評価を行った.被験者5名に対する聴取実験により,生成した確認によって音韻的に類似した単語の聞き分けが改善されることを確認し,本手法の有効性を示した.
著者
石原 一志 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.20, no.3, pp.229-236, 2005 (Released:2005-03-23)
参考文献数
13
被引用文献数
2 2

Environmental sounds are very helpful in understanding environmental situations and in telling the approach of danger, and sound-imitation words (sound-related onomatopoeia) are important expressions to inform such sounds in human communication, especially in Japanese language. In this paper, we design a method to recognize sound-imitation words (SIWs) for environmental sounds. Critical issues in recognizing SIW are how to divide an environmental sound into recognition units and how to resolve representation ambiguity of the sounds. To solve these problems, we designed three-stage procedure that transforms environmental sounds into sound-imitation words, and phoneme group expressions that can represent ambiguous sounds. The three-stage procedure is as follows: (1) a whole waveform is divided into some chunks, (2) the chunks are transformed into sound-imitation syllables by phoneme recognition, (3) a sound-imitation word is constructed from sound-imitation syllables according to the requirements of the Japanese language. Ambiguity problem is that an environmental sound is often recognized differently by different listeners even under the same situation. Phoneme group expressions are new phonemes for environmental sounds, and they can express multiple sound-imitation words by one word. We designed two sets of phoneme groups: ``a set of basic phoneme group'' and ``a set of articulation-based phoneme group'' to absorb the ambiguity. Based on subjective experiments, the set of basic phoneme groups proved more appropriate to represent environmental sounds than the articulation-based one or a set of normal Japaneses phonemes.
著者
水野 壮 駒谷 和範 佐藤 理史
雑誌
第77回全国大会講演論文集
巻号頁・発行日
vol.2015, no.1, pp.375-376, 2015-03-17

笑いは対話中のユーザや場の状況を推定するために,有用な情報である.これを検出できない場合,状況に適した対話を行えないと同時に,笑い声を入力発話として処理し,音声認識誤りを引き起こすことがある.我々は,対話中のユーザの笑いを検出するため,以下の2つの手法による結果を両方用いる.1. メル周波数ケプストラム係数やパワーの音響情報2. 笑いが場で共有された際に発生する,複数の話者位置情報ロボットの動作に対し,笑いが発生したかどうかを統合手法で判定する.実際に収録した対話データを用いて実験を行った結果,統合前と比べて高精度に笑いを検出できることを確認した.
著者
北原 鉄朗 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.12, pp.2721-2733, 2006-12-01
参考文献数
25
被引用文献数
2

本論文では,多重奏に対する音源同定において不可避な課題である「音の重なりによる特徴変動」について新たな解決法を提案する.多重奏では複数の楽器が同時に発音するため,各々の周波数成分が重なって干渉し,音響的特徴が変動する.本研究では,混合音から抽出した学習データに対して,各特徴量のクラス内分散・クラス間分散比を求めることで,周波数成分の重なりの影響の大きさを定量的に評価する.そして,線形判別分析を用いることで,これを最小化するように特徴量を重み付けした新たな特徴量軸を生成する.これにより,周波数成分の重なりの影響をできるだけ小さくした特徴空間が得られる.更に,音楽的文脈を利用することで音源同定の更なる高精度化を図る.実楽器音データベースから作成した二重奏〜四重奏の音響信号を用いた実験により,二重奏では50.9%から84.1%へ,三重奏では46.1%から77.6%へ,四重奏では43.1%から72.3%へ認識率の改善を得,本手法の有効性を確認した.
著者
駒谷 和範 上野 晋一 河原 達也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.75, pp.59-64, 2003-07-18
参考文献数
12
被引用文献数
7

各ユーザに応じた協調的な応答を行うユーザモデルについて述べ,これを実装した音声対話システムの評価実験について報告する.従来のユーザモデルの研究では,ユーザの知識に重点を置いたものや典型的なユーザを想定したものがあるが,我々はより包括的なユーザモデルを提案する.具体的には,システムに対する習熟度,ドメインに関する知識レベル,性急度の3つの次元を定義する。これらのモデルは,決定木学習により自動的に得ることができる.実際の対話データを用いたユーザモデルの判別実験では,3つの次元それぞれに対して妥当な判別制度を得た.これらのユーザモデルに基づく対話戦略を,我々の研究室で開発している京都市バス運行情報案内システムに実装した.評価実験により,各ユーザに適応した協調的応答が,熟練したユーザに対する対話時間を増加させることなく,初心者に対して適切なガイダンスとなることが示された.We address appropriate user modeling in order to generate cooperative responses to each user in spoken dialogue systems. Unlike previous studies that focus on user's knowledge or typical kinds of users, the user model we propose is more comprehensive. Specifically, we set up three dimensions of user models: skill level to the system, knowledge level on the target domain and the degree of hastiness. Moreover, the models are automatically derived by decision tree learning using real dialogue data collected by the system. We obtained reasonable classification accuracy for all dimensions. Dialogue strategies based on the user modeling are implemented in Kyoto city bus information system that has been developed at our laboratory. Experimental evaluation shows that the cooperative responses adaptive to individual users serve as good guidance for novice users without increasing the dialogue duration for skilled users.
著者
赤井 元紀 武田 龍 駒谷 和範
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第32回全国大会(2018)
巻号頁・発行日
pp.2N102, 2018 (Released:2018-07-30)

音声対話システムでは適切なタイミングで応答することが重要である.従来の対話システムでは,状況によらずに同じように応答タイミングが決められる.これに対して,新たに対話の状況を導入することで,状況に応じて応答タイミングを推定する.本研究では,複数の処理単位を用いて現在の対話の状況と応答タイミングのそれぞれに特化した推定を行うことで,状況に応じた適切な応答タイミングを推定する.応答タイミングの推定の評価に使用するデータとして,ユーザとシステムとのインタビュー形式の対話における7名のユーザの回答音声を収集した.収集したデータを用いて,応答タイミングの推定における対話の状況の利用の有無による性能の変化を評価した.応答タイミングの推定に識別モデルと回帰モデルを用いた場合についてそれぞれ評価した結果,回帰モデルに関しては対話の状況を利用することで正解率が約9ポイント上昇した.
著者
赤井 元紀 武田 龍 駒谷 和範
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

音声対話システムでは適切なタイミングで応答することが重要である.従来の対話システムでは,状況によらずに同じように応答タイミングが決められる.これに対して,新たに対話の状況を導入することで,状況に応じて応答タイミングを推定する.本研究では,複数の処理単位を用いて現在の対話の状況と応答タイミングのそれぞれに特化した推定を行うことで,状況に応じた適切な応答タイミングを推定する.応答タイミングの推定の評価に使用するデータとして,ユーザとシステムとのインタビュー形式の対話における7名のユーザの回答音声を収集した.収集したデータを用いて,応答タイミングの推定における対話の状況の利用の有無による性能の変化を評価した.応答タイミングの推定に識別モデルと回帰モデルを用いた場合についてそれぞれ評価した結果,回帰モデルに関しては対話の状況を利用することで正解率が約9ポイント上昇した.
著者
大野 航平 武田 龍 中野 幹生 ニコルズ エリック 駒谷 和範
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

我々は,暗黙的確認により対話システムの知識にない単語(未知語)の獲得を行う手法の開発に取り組んできた.システムは未知語のクラスを含めた暗黙的確認要求をユーザに対して行い,ユーザの応答からその内容が正しいとわかった場合に,そのクラスを獲得する.本論文では,ユーザの応答などに基づいて正しい確認要求を抽出する手法と,同じ確認要求に対する複数の抽出結果を用いてより確実に知識を獲得する手法とについて述べる.