著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10
参考文献数
10
被引用文献数
6

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
馬 青 吉見 毅彦 渡辺 靖彦
出版者
龍谷大学
雑誌
基盤研究(C)
巻号頁・発行日
2007

英作文において、部分的に適切な英語表現が思い浮かばないとき、本来言い表したい日本語表現(単語またはフレーズ)をそのまま入力するだけで、すなわち、日英混在の入力文から、適切な英語表現を生成してくれる英作文支援システムを開発した。単語レベルでの支援においては最適な文脈による訳語選択手法と大規模で高品質な英語コーパスと超大規模なWebデータの統合利用手法を提案した。フレーズレベルでの支援においては日本語フレーズを構成する各単語の訳語候補の組み合わせによる英語フレーズの生成手法と、大規模で高精度な日英対訳表現抽出手法とそれにより抽出した日英対訳表現を利用した用例ベースに基づく英作文支援手法を開発した。
著者
馬 青 谷河 息吹 村田 真樹
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.4, pp.225-250, 2015-12-14 (Released:2016-03-14)
参考文献数
32
被引用文献数
1

本稿は機械学習を用いて関連語・周辺語または説明文書から適切な検索用語を予測する手法を提案する.機械学習には深層学習の一種である Deep Belief Network (DBN) を用いる.DBN の有効性を確認するために,用例に基づくベースライン手法,多層パーセプトロン (MLP),サポートベクトルマシン (SVM) との比較を行った.学習と評価に用いるデータは手動と自動の 2 通りの方法でインターネットから収集した.加えて,自動生成した疑似データも用いた.各種機械学習の最適なパラメータはグリッドサーチと交差検証を行うことにより決定した.実験の結果,DBN の予測精度はベースライン手法よりはるかに高く MLP と SVM のいずれよりも高かった.また,手動収集データに自動収集のデータと疑似データを加えて学習することにより予測精度は向上した.さらに,よりノイズの多い学習データを加えても DBN の予測精度はさらに向上したのに対し,MLP の精度向上は見られなかった.このことから,DBN のほうが MLP よりもノイズの多い学習データを有効利用できることが分かった.
著者
村田 真樹 神崎 享子 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.7, no.1, pp.51-66, 2000-01-10 (Released:2011-03-01)
参考文献数
15

本稿では単語の羅列を意味でソートするといろいろなときに便利であるということについて記述する. また, この単語を意味でソートするという考え方を示すと同時に, この考え方と辞書, 階層シソーラスとの関係, さらには多観点シソーラスについても論じる. そこでは単語を複数の属性で表現するという考え方も示し, 今後の言語処理のためにその考え方に基づく辞書が必要であることについても述べている. また, 単語を意味でソートすると便利になるであろう主要な三つの例についても述べる.
著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10 (Released:2011-03-01)
参考文献数
10

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
加藤 玲大 馬 青 村田 真樹
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-228, no.10, pp.1-6, 2016-09-22

本稿は,深層学習の手法である Deep Belief Network (DBN),Stacked Denoising Autoencoder (SdA) を用いて,QA サイトに投稿された質問文のカテゴリ分類について述べる.カテゴリ分類における DBN と SdA の有効性を確認するため,多層パーセプトロン (MLP),サポートベクターマシン (SVM) をベースライン手法とし,分類精度の比較を行った.次元数の異なる入力データを 2 種類用意し,入力の次元数の違いにおける分類精度の比較を行った.機械学習手法のパラメータの最適化にはグリッドサーチを行うことにより決定した.実験の結果,SdA が最も精度が高かった.また,入力が高次元の時,DBN,SdA ともに分類精度がベースライン手法より高かった.さらに,入力の次元数を増やすことが深層学習の精度の向上に有効であることが確認できた.
著者
村田 真樹 De Saeger Stijn 橋本 力 風間 淳一 山田 一郎 黒田 航 馬 青 相澤 彰子 鳥澤 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.23, 2009

自然言語処理などの分野の論文アブストラクトから論文の分野、手法、精度、応用先など当該分野で重要となる表現を自動で取り出し、取り出した結果を表などで提示することで、当該分野の動向をより詳細にわかりやすく示すシステムを構築している。論文の分野、手法、精度、応用先などを自動抽出する技術を構築し、この技術により取り出したデータを表やグラフで整理し、当該分野の動向や問題点の分析も行う。
著者
村田 真樹 馬 青 内元 清貴 井佐原 均
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.100, no.698, pp.25-32, 2001-03-16

テンス・アスペクト・モダリティは,翻訳が難しい問題として知られている.従来はテンス・アスペクト・モダ゛リティの表現は人手で作成した規則によって扱われていたが,近年用例ベース(k近傍法)の方法などのコーパスベースに基づくアプローチでも処理されるようになってきた.本研究では,このテンス・アスペクト・モダリティの翻訳の実験を,k近傍法も含めて様々な機械学習手法を用いて行なった.その結果,サポートベクトルマシンに基づく方法が最も高い精度を得た.また,用例ベースを用いた先行研究では解析に用いる情報は文末の一致文字列のみであったが,この情報に加え,一文全体の形態素情報も解析に用いることにしたところ,精度が上昇するという結果を得た.このことにより,テンス・アスペクト・モダリティの翻訳には文末情報だけでなく一文全体の形態素情報も有用であることがわかる.