著者
菊池 英明 工藤 育男 小林 哲則 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.77, no.8, pp.1502-1511, 1994-08-25
被引用文献数
19

音声を利用したマルチモーダルインタフェースのベースシステムとなる音声対話インタフェースにおいて,ユーザに発話のタイミングに関する自由を保証するための割込みの扱いについて検討した.ユーザに割込みを許すとき,従来のように1文を単位としてシステムの発話を計画するのでは,計画した発話内容と実際に発話した内容あるいはユーザが受け取った内容の間に差異が生じる.そこで,発話の計画の単位を,1文中の伝えるべき情報と定め,対話中に話者間でやりとりされる発話権を管理することにより,どの情報が受聴されたかを常に把握する方式を提案した.実験の結果,提案した方式によって,システムが計画した発話とユーザが受聴した発話の差異をなくしながら,スムーズな割込みへの対処が被験者の半数以上に認められた.また,割込みに対処することにより,ユーザのタスク完了までの所用時間は7%減少し,積極的な話題提起数が21%増えるなど,インタフェースの利便性が向上することが確認された.
著者
出口 幸子 白井 克彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.3, pp.642-649, 2001-03-15
被引用文献数
4 4

筆者らは箏曲の楽譜データベースを実現するために,箏曲の旋律分析を行っており,その基礎として必要な音律と音階を規定することができたので報告する.箏曲の音律と音階を規定する文書は存在しないが,中国雅楽,中国俗楽,日本雅楽を経て箏曲に至っている.本研究では,箏曲譜から作成した楽譜情報ファイルの分析から箏曲の音律と音階を規定できることを示し,かつ中国雅楽の理論を適用できることを示した.本研究の目的は情報処理における対象領域の構造の規定であるので,明確に定義されている中国雅楽の理論を用いて検討した.音律については,楽譜情報から連続する2音の音程を抽出し,半音と全音が出現する音高が限定していることから,半音が生じる2音間の音程を $x$,生じない音程を $y$,および全音の音程を $xy$ として1オクターブ中の各音間の音程を決定した.これより,1オクターブ中の12音の具体的な周波数比を求めた.また,このように規定した音律が,中国雅楽の音律である十二律の理論に適合することを確認した.音階については,中国雅楽の音階である七音音階,および十二律と七音音階を対応付ける均の概念を用いて,箏曲の音階と均を理論的に定義した.一方,楽譜情報ファイルを調弦の変化する点で分割し,各音高の出現頻度より,均の存在を確認して,調弦と均との対応を考察し,また,七音音階であることを確認した.This paper describes a study on the temperament and the scale of koto music,toward a research of melody analysis and score database.The temperament and the scale of koto music are not described on any document,while they are based on Japanese court music,Chinese traditional music and Chinese court music.This paper shows that they can be defined by analyzing score data files to satisfy the theory of Chinese court music.We extract intervals between two notes sequentially from score data files,and show that semitones and whole tones are used limitedly.We define semitone as ``$x$'',define the interval not used for semitone as ``$y$'',and define whole tone as ``$xy$''.Therefore the intervals between twelve tones in one octave are defined.We also calculate the frequency ratios of tones.Next, the temperament of koto music is certified by the theory of Chinese 12-tone temperament.The scale of koto music is defined by the theory of Chinese 7-tone scale,and the dependency of scale on temperament is also determined.We extract notes from score data files, and verify the scale and the dependency of scale on temperament.
著者
白井 克彦
雑誌
情報処理
巻号頁・発行日
vol.56, no.02, 2015-01-15
著者
彦坂健太郎 谷口 徹 誉田 雅彰 白井 克彦州
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.133, pp.19-24, 2006-12-15
被引用文献数
2 1

本研究では,ユーザに煩わしい操作を要求することなく,ユーザの好みに合わせた自動的に選曲を行うシステムの開発を目指し,主観的な好みと楽音の音響的特徴との関連性を基にユーザの気分に適合する楽曲を楽曲再生時のオンライン学習により適応的に選択する手法を提案する.具体的にはユーザがある楽曲を「聴きたくない」としたときに特徴量空間においてそれらの楽曲からの距離が遠い楽曲を選曲するアルゴリズムを適用する.今回実験によって従来のランダム再生と比較しこの手法が有効であることが確認された.In this research, we are aiming for development of a music selection system adapted for user's feeling without disturbing operation. We propose an adaptive automatic music se lection method based on the relationship between the acoustic features of music and the subjective user feeling. Concretely, when a user makes a decision that they don't want to lis ten some music, we apply an algorithm that choose a music which is furthest from the music. In this paper, we could confirm efficacy of this means compare with random selection.
著者
宮島 崇浩 菊池 英明 白井 克彦 大川 茂樹
出版者
日本音声学会
雑誌
音声研究 (ISSN:13428675)
巻号頁・発行日
vol.17, no.3, pp.10-23, 2013-12-30 (Released:2017-08-31)

This paper explains the procedure to enhance the expressiveness in acted speech. We designed our own "format of acting script" referring to the theory of drama and created 280 acting scripts. We presented these acting scripts as acting directions to three actresses and collected 840 speech data. For comparison, using typical emotional words as acting directions, we also collected 160 speech data from each actress. Then, we compared tendencies of various features of each data type and each speaker and found that our acting scripts are effective on the enhancement of expressiveness in acted speech psychologically/acoustically.
著者
出口 幸子 白井 克彦
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.3, pp.642-649, 2001-03-15

筆者らは箏曲の楽譜データベースを実現するために,箏曲の旋律分析を行っており,その基礎として必要な音律と音階を規定することができたので報告する.箏曲の音律と音階を規定する文書は存在しないが,中国雅楽,中国俗楽,日本雅楽を経て箏曲に至っている.本研究では,箏曲譜から作成した楽譜情報ファイルの分析から箏曲の音律と音階を規定できることを示し,かつ中国雅楽の理論を適用できることを示した.本研究の目的は情報処理における対象領域の構造の規定であるので,明確に定義されている中国雅楽の理論を用いて検討した.音律については,楽譜情報から連続する2音の音程を抽出し,半音と全音が出現する音高が限定していることから,半音が生じる2音間の音程を $x$,生じない音程を $y$,および全音の音程を $xy$ として1オクターブ中の各音間の音程を決定した.これより,1オクターブ中の12音の具体的な周波数比を求めた.また,このように規定した音律が,中国雅楽の音律である十二律の理論に適合することを確認した.音階については,中国雅楽の音階である七音音階,および十二律と七音音階を対応付ける均の概念を用いて,箏曲の音階と均を理論的に定義した.一方,楽譜情報ファイルを調弦の変化する点で分割し,各音高の出現頻度より,均の存在を確認して,調弦と均との対応を考察し,また,七音音階であることを確認した.
著者
金子 格 白井 克彦 阪本 秀樹
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.43, no.9, pp.981-987, 2002-09-15
参考文献数
14
被引用文献数
1

本稿ではMPEG-21国際標準化プロジェクトの現状を報告する.同標準は各国のコンテンツサービス技術全般に関係する企業,研究機関が参加し,メディア・地域横断型のマルチメディア・フレームワークの実現を目指している.現在パート7までの標準化が計画され,パート6までの委員会原案が完成している.
著者
出口 幸子 白井 克彦
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.18, no.3, pp.153-160, 2003 (Released:2003-04-08)
参考文献数
16

This paper describes the knowledge representation of the melody and rhythm in koto songs based on the structure of the domain: the scale, melisma (the melody in a syllable), and bar. We have encoded koto scores and extracted 2,3,4-note melodic patterns sequentially from the voice part of koto scores. The 2,3,4-note patterns used in the melisma are limited and the percentages of top patterns are high. The 3,4-note melodic patterns are examined at each scale degree. These patterns are more restricted than the patterns that are possible under the constraint of the scale. These typical patterns on the scale represent the knowledge of koto players. We have analyzed rhythms in two different ways. We have extracted rhythms depending on each melodic pattern, while we have extracted rhythms depending on each bar. The former are complicated and the latter are typical. This result indicates that koto players recognize melodic patterns and rhythmic patterns independently. Our analyses show the melodic patterns and rhythmic patterns that are acquired by koto players. These patterns will be applied to the description of variations of the melisma to build a score database. These patterns will also be applied to a composition and education. The melodic patterns can be extracted from other genres of Japanese traditional music, foreign old folk songs or chants by using this method.
著者
谷口 徹 大川 茂樹 白井 克彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.121, pp.87-92, 2002-12-16
参考文献数
4
被引用文献数
1

音声・音楽識別は音響コンテンツへのインデキシングやその前処理など、様々な応用が期待されており、現在多くの手法が提案されている。本研究では特に音声・音楽識別に用いられる特徴量に注目し、先行研究で有効性を示されている4種の特徴量の評価を行った。評価には性別やBGMの有無、歌声と楽器音の重畳などを考慮し設定した7種のクラスによりラベル付けをしたデータセットを用い、各特徴量の誤認識の傾向を分析した。Speech/Music discrimination has been studied for various applications such as automatic indexing of audio data. In this paper, we focus on four acoustic features examined in related studies and evaluate these features with audio data sets classified into seven audio classes.
著者
岩野 裕利 杉田 洋介 松永 美穂 白井 克彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.16, pp.105-112, 1997-02-07
参考文献数
6
被引用文献数
3

人間の対話において、身振り、表情、頭の振りと言った視覚情報は、より円滑な対話を行なう上で重要な情報である。より自然なヒューマンインターフェースを構築する上でも、音声だけではなく、これらの視覚情報をどのように利用していくかが大きな課題となっている。本研究では、人間同士の対面および非対面の対話を比較することにより、視覚情報の中でも頭の振りに注目し、対話における役割に関して分析を行なった。分析の結果、頭の振りには、情報伝達手段として利用される頭の振りと、そうでない2種類の頭の振りがあることを確認した。また頭の振りが対話における発話のタイミングと関係していることが示唆された。In practical conversations, visual information such as gesture, facial expression and head movement clearly makes the progress of conversation much smoother and more natural. Therefore, in the more natural human interface that can use multiple modalities, visual information becomes as important as voice information. In this research, we analyzed conversations between face-to-face and conversation through telephone line. It seems that there are two types of head movements, depending on whether it is intended to give an information to his partner or not. Also head movements seem to have a correlation between the timing of utterances.
著者
沢村 栄治 棚橋 大介 江原 暉将 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. HCS, ヒューマンコミュニケーション基礎
巻号頁・発行日
vol.98, no.284, pp.23-30, 1998-09-19
被引用文献数
1

通信・放送機構のプロジェクトとして、「字幕制作システム」の研究を進めている。この研究の中で、字幕放送利用者が求める最適な字幕表示方法を追求するために、種々の字幕提示方法による実験用字幕番組を制作するとともに、聴覚障害者も含む評価者の協力を得て、制作した実験用字幕番組の予備評価を行った。パソコンを利用した多様な表示方法による実験字幕番組制作システムと、制作した実験字幕番組例、字幕パラメータ・評価者群別などの主観評価実験結果などについて述べる。
著者
丸山 一郎 阿部 芳春 江原 暉将 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.85, no.2, pp.184-192, 2002-02-01
被引用文献数
9

本論文では,事前収録されたテレビ番組に対して番組VTRと事前電子化原稿から聴覚障害者向けの字幕を自動的に付与する技術の中で,音声と字幕の同期タイミングを検出する字幕提示タイミング検出手法について述べている.背景音が重畳している放送音声に対しては,音素HMMワードスポッターだけに基づいたタイミング検出手法では十分な検出精度が得られない.番組の原稿中の各文に対してワードスポッティングにより複数のタイミング候補を検出し,音響的なゆう度に加え三つのスコア(原稿の時間順序,原稿から推定される発声時間との比,音声らしさ)を用いた動的計画法を行い,番組全体として最適なタイミングを選択する手法を提案した.ドキュメンタリー番組10回分を対象とした評価実験において,許容検出誤差を1秒とした場合に検出率99.0%,3秒とした場合に99.7%の検出精度が得られ,実用的な方式であることが示された.
著者
江原暉将 沢村 英治 福島 孝博 丸山 一郎 和田 裕二 門馬 隆雄 白井 克彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.69, pp.121-126, 2001-07-16
被引用文献数
2

通信・放送機構で平成8年度から12年度まで実施した「視聴覚障害者向け放送ソフト制作技術の研究開発プロジェクト」の研究成果と残された課題について報告する。本プロジェクトの目的は、聴覚障害者のための字幕付きテレビ放送番組を効率的に制作するための技術基盤を確立することである。具体的な研究項目として、自動要約、自動同期、統合化システム技術がある。自動要約については、ニュース記事を対象に文字数にして70%にすることを目標にして研究を進め、「重要文抽出法」と「形態素単位文字数圧縮法」を併用して目標を達成した。自動同期については、ニュースおよびナレーション主体のドキュメンタリー番組を対象に研究し、ナレーションと背景音の比が20dB 以上の番組に対しては自動同期が可能であることを示した。統合化システム技術では、適切な点で字幕の改行・改ページを加える自動字幕画面制作技術を研究し、自動要約、自動同期とあわせて自動字幕制作システム実証モデルを構築した。本実証モデルを用いて評価実験を行い、性能評価を行うと共に実用化のための課題を明らかにした。Telecommunication Advancement Organization of Japan proceeds "Research Project for TV Production for the Seeing and Hearing Impaired" from 1995 to 2001. The purpose of the project is to establish the technologies of producing closed captions for hearing impaired people on TV programs efficiently. We have three research issues in the project: automatic text summarization, automatic synchronization with speech and captions and system engineering. Automatic text summarization summarizes Japanese news text to 70% volume. Important sentence extraction, morphem-based text shortening and bunsetsu-based text shortening are used. Automatic synchronization uses HMM-based word spotter and DP-based synchronizing point search. The method can be applicable to news and narration programs in which signal strength ratio between speech and background sound is more than 20dB. System engineering research results automatic changing method of new page and new line at a point easy to read. We integrate these elementary technologies to the automatic captioning system and evaluate it by caption creators and end users. From this evaluation experiments, we can know the system performance and future research issues.
著者
西本 卓也 志田 修利 小林 哲則 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.12, pp.2176-2183, 1996-12-25
被引用文献数
32

マルチモーダルインタフェースの枠組みの中で音声入力がどのようにインタフェースの改善に貢献し得るかを検討し,そこで得た知見を生かしたマルチモーダル作図システムS-tgifを作成・評価した.システムの作成にあたっては,インタフェースの原則論に従って音声の特長である操作性および手順連想容易性を生かし,欠点である状態理解容易性,頑健性を他で補うよう努めた.評価実験の結果,システムの利用を開始してまもない時期あるいは一時利用を中断した後などにおいては特に音声の利用効果が高く,課題の完了までに要する時間を約80%に減少できた.ユーザがシステムに熟練すると音声の利用の客観的効果は薄れるが,特定のコマンドでは音声の利用率が90%を超え,また主観評価の結果でも高い評価を得るなど,音声入力はユーザから支持された.このように,インタフェースの原則論に従って音声の効果的利用を考慮することにより,有用なインタフェースを構築できることが示された.
著者
宮島 崇浩 菊池 英明 白井 克彦 大川 茂樹
出版者
日本音声学会
雑誌
音声研究 (ISSN:13428675)
巻号頁・発行日
vol.17, no.3, pp.10-23, 2013-12-30

This paper explains the procedure to enhance the expressiveness in acted speech. We designed our own "format of acting script" referring to the theory of drama and created 280 acting scripts. We presented these acting scripts as acting directions to three actresses and collected 840 speech data. For comparison, using typical emotional words as acting directions, we also collected 160 speech data from each actress. Then, we compared tendencies of various features of each data type and each speaker and found that our acting scripts are effective on the enhancement of expressiveness in acted speech psychologically/acoustically.
著者
横山 真男 青山 一美 菊池 英明 帆足 啓一郎 白井 克彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.2, pp.487-496, 1999-02-15
被引用文献数
16

人間型ロボットのコミュニケーション能力を人間のそれに近付けるために 人間同士のコミュニケーションにおいて重要な役割を持つ視線や手振りなど非言語情報の利用を検討した. 本論文では まず人間同士の対話において 各種非言語情報の出現タイミングについての分析を行う. さらに ロボット側の非言語情報の出力タイミングによる対話への影響を分析する. 分析の結果 非言語情報の種類による発話交替における制約としての強さや自然性の違いが明確になった. また 非言語情報の出力タイミングとして 人間同士と同様に発話開始直後あるいは終了時が自然かつ円滑な対話の実現にとって適切であることが確かめられた. 最後に ロボットへの視線情報制御の適用を行い インタフェース評価実験の結果より ロボットの対話インタフェースにおける非言語情報制御の有効性について述べる.In this research, we consider the use of non-verbal information in human-robot dialogue to draw the communication ability of robots closer to that of human beings. This paper describes analysis of output timing of non-verbal informatin in the dialogues between human beings. Moreover, we analyse infuluences of the output timing by controlling it in the dialogue of a CG robot. As the result, we clarify the strength of constraint and naturalness of various types of non-vervbal information. Also, we confirm that appropriate output timing of non-verbal information is during or at the end of utterances, which is the same as in human-human dialogue. At last, we applied non-verbal information to the humanoid robot and made similar experiments. As a rsult, non-verbal information made speaker-changing more smoothly for the humanoid robot than in the case of the CG robot.
著者
白井 克彦 誉田 雅彰
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 A (ISSN:03736091)
巻号頁・発行日
vol.J59-A, no.8, pp.668-674, 1976-08-25

調音運動に関する研究は,音声伝送,音声合成,音声認識の基礎として,音響次元での処理を調音運動の特性に応じた適切なものとする意味から重要であり,その手段として調音機構に関する適当なモデルを設定することが有用である.本論文では,各調音器官の構造性を考慮した調音モデルの構成方法について述べた.このモデルの特徴は,側面X線写真データの統計的な分析によって得られる舌面の変形に関しての主要な変動要因を用いて舌を表現している点であり,従来のモデルと同程度のパラメータでより精密な調音状態の記述が可能となる.次に,このモデルを用いて調音パラメータと音響次元との対応関係を定量的に調べ,その応用として非線形重回帰分析の手法を用いた調音パラメータの推定方法を述べた.ホルマント周波数を用いて,合成音声と実音声について推定した結果は十分妥当なものであり,本方法の有効性を示している.
著者
白井 克彦 誉田 雅彰
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 A (ISSN:03736091)
巻号頁・発行日
vol.J61-A, no.5, pp.409-416, 1978-05-25

調音器官の構造に基づいて,声道形を表現する調音モデルを設定し,音声波からモデルマッチングの手法によって,調音状態を推定する方法について述べる.この方法では,音声スペクトルに関して,設定されたモデルの適合誤差を最小にすることを基本とした非線形最適化問題として,調音パラメータが推定される.その場合,解の唯一性や収束の安定性が問題となるが,調音パラメータの変動範囲および分析フレーム間の連続性の制約を評価関数に取入れること,声道特性の分離基準としてモデルの特性を考慮すること,適切な初期値の設定などによって,二,三回の反復計算により十分安定に解が求まることが,合成分析実験により明らかになった.更に,本方法を実音声に適用し,良好な結果が得られることを確認した.
著者
大川 茂樹 ウィントホイザー クリストフ バンボ フレデリック 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.93, no.427, pp.25-32, 1994-01-21

TDNNに基づくハイブリッド型単語音声認識システムにおいて,音韻の弁別特徴という新しい表現を導入する.この表現を利用することにより,一般的な音韻表記よりもコンパクトで学習の速いネットワークが構成できる.また,異なる性質を持ったネットワークを平等に評価するための尺度として,相互情報量を導入し,モジュラー型TDNNの構成の最適化を試みる.英語アルファベットデータベースを用いて,フレーム毎の弁別特徴認識実験と,DTWを組み合わせた単語認識実験を行った結果、相互情報量により最適化したネットワークを用いた場合にも最も良い性能が得られ,提案した手法の有効性が確認された.