著者
斉藤 いつみ 貞光 九月 浅野 久子 松尾 義博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.2, pp.297-314, 2017-03-15 (Released:2017-06-15)
参考文献数
16
被引用文献数
1

ソーシャルメディア等の崩れた日本語の解析においては,形態素解析辞書に存在しない語が多く出現するため解析誤りが新聞等のテキストに比べ増加する.辞書に存在しない未知語の中でも,既知の辞書語からの派生に関しては,正規形を考慮しながら解析するという表記正規化との同時解析の有効性が確認されている.本研究では,これまで焦点があてられていなかった,文字列の正規化パタン獲得に着目し,アノテーションデータから文字列の正規化パタンを統計的に抽出する.統計的に抽出した文字列正規化パタンと文字種正規化を用いて辞書語の候補を拡張し形態素解析を行った結果,従来法よりも再現率,精度ともに高い解析結果を得ることができた.
著者
中嶋 秀治 永田 昌明 浅野 久子 阿部 匡伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.3, pp.480-488, 2005-03-01
被引用文献数
1

音声合成において合成音を作るためには, 未登録語であってもそのアクセント型(アクセントの位置の情報)が必要となる.本論文では, Support Vector Machine (SVM)を使って単語の読みから未登録語のアクセント型を推定する三つの方法を提案し, 性能を比較する.第1の方法では, 未登録語の読みを構成する各モーラのトーンの高低をSVMを使って推定し, 得られたトーン変化の中で高いトーンから低いトーンへ下降する場所を探して, アクセント型を判定する.第2の方法では, 単語の長さごとに用意されたSVMを使って, 同じアクセント型をもつ単語の集合に未登録語を分類することによってアクセント型を判定する.第3の方法は, 第2の方法の変形版で, 第2の方法とは異なる方法で単語の読みとアクセント型を表現する.また, 単語の長さによらない単一のSVMを使う.未登録の日本人の姓名を対象にしたアクセント型の推定実験を行ったところ, 第2と第3の手法において決定木の精度を上回り, 最高精度で姓では86.1%, 名では96.0%という結果が得られた.また, 実際のWebのニュース記事に現れた未登録語を対象にした実験でも決定木を上回り, 姓では91%, 名では86%という高い精度が得られ, 本手法の有効性が確認された.
著者
本間 幸徳 貞光 九月 西田 京介 浅野 久子 松尾 義博
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2017-SLP-116, no.26, pp.1-6, 2017-05-08

本稿では,ある文書におけるユーザの検索要求に対し,一つ以上の文を回答として提示する部分文書検索手法を提案する.検索要求によっては提示すべき文が文書中に散在する場合があるため,提案手法では,文間の関係性に基づいて推定した文書構造を用いることで,文書に散在する文の集合を部分文書として抽出する.また抽出された部分文書について,分散表現を利用した意昧ベクトルを作成し,検索スコアの算出に用いることで検索精度の向上を図る.評価実験により,文書構造に基づいて部分文書を抽出し,対応する意昧ベクトルを検索に用いることで,ユーザの検索要求に適した検索結果が得られることを示す.
著者
奥 雅博 藤岡 健吾 浅野 久子 高木 伸一郎
雑誌
全国大会講演論文集
巻号頁・発行日
vol.55, pp.74-75, 1997-09-24

我々はプッシュボタン(PB)信号送出可能な電話機を入力端末とし利用できるPB入力型電話番号検索実験システムの開発を進めている[2][4]。このシステムは、家庭やオフィスに普及しているPB信号送出可能な電話機を用いて住所や名前の入力を可能とする日本語入力方式(以下、PB入力方式)を採用している。PB入力方式は、図1に示すようにlつのPBボタンに複数のかな文字を対応させ、1押下で1かな文字を入力する方式である。従って、1押下ごとを見るとかな文字レベルで複数の候補が存在することになる(例えば、"1"の押下は"あ"~"お"の5つの文字のいずれかを入力したことになる)。この曖味さを解消する過程において姓名の漢字までを特定しなけれぱならない場面が生じる。PB入力型電話番号検索実験システムでは、同音異字の姓名候補が得られた場合に、この姓名候補に対する漢字説明文を利用者に音声で流すことによって、利用者の求める漢字を持つ姓名を特定する。このとき、利用者への情報伝達は音声のみで行われるので、漢字説明文には「耳で聞いて容易に理解できる」ことが要求される。そこで、2節で述べる方法で生成した漢字説明文に対して、聞いて理解できるか否かという観点から評価実験を行った。