著者
上原 徹三 清水 由美子 荒井 秀一
出版者
武蔵工業大学
雑誌
基盤研究(C)
巻号頁・発行日
2001

コンピュータによる自然言語研究で辞書とコーパス(文例集。文法情報を付加したものは特に有用)が重要である。単語辞書には読み・品詞情報の他に概念情報が望まれる。現在の日本語については、概念情報を与える単語辞書と文法情報を付加したコーパスが電子化データとして存在する。しかし、古典文に関してはそのような単語辞書もコーパスも存在しない。そこで、単語辞書とコーパスの整備とその応用に関する機能の試作と実験を行ない次の成果を得た。1.総索引からの品詞タグ付きコーパス変換作成機能の試作とそれによる古典文品詞タグ付きコーパスの試作紫式部日記などの日記文学および伊勢物語などの物語文学に関する市販の総索引から、品詞タグ付きコーパスに半自動変換を行った後、人手による修正で古典仮名文コーパスを完成した。2.品詞タグ付きコーパスによる確率的形態素解析上の古典仮名文コーパスを学習・評価データとする確率的形態素解析の実験と評価を実施した。評価においては、学習データとテストデータを順次ずらした繰返し実験により信頼度を求める等の配慮を行った。3.対訳辞書の見出し語の概念推定法訳語の概念が既知の対訳辞書を用いて、訳語からの見出し語概念の推定とその評価を実施した。本技術は、古語辞典(古典語見出しに対し現代語訳語を与える)による古典語の概念獲得の基礎技術となり得るものである。ただし、古語辞典から古語の概念を取得するという研究開始当初の目的は実現できなかった。これに関しては概念辞書の整備、概念推定法の改良など、さらに検討すべき課題がある。
著者
竹内 博樹 荒井 秀一 城戸 健一 三井田 惇郎
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.396, pp.19-26, 1997-11-21
被引用文献数
3

本研究は、マスメディア上に流れる大量の音声データから必要な情報を検索する手段として、ニュース音声を対象にHMMを用いたワードスポッティングの利用を検討する。ワードスポッティングは、音韻情報に基づいて行われるため音声中によく似た音素列が存在するとキーワードとして誤検出される。そこで本研究では、キーワードの音素数と湧き出し数の関係について比較実験を行った。また、キーワードの調音点の変化に注目して、キーワードの推定出力尤度と実際に出力された尤度の関係について調べた。