著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10
参考文献数
10
被引用文献数
6

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
内元 清貴 関根 聡 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.9, pp.3397-3407, 1999-09-15
被引用文献数
21 22

本論文ではME(最大エントロピー法)に基づくモデルを利用した統計的日本語係り受け解析手法について述べる. 一文全体の係り受け確率は 一文中のそれぞれの係り受けの確率の積から求められると仮定し それぞれの係り受けの確率はMEによって学習した係り受け確率モデルから計算する. この確率モデルは 学習コーパスから得られる情報を基に 2つの文節が係り受け関係にあるか否かを予測するのに有効な素性を学習することによって得られる. 我々が素性として利用する情報は 2つの文節あるいはその文節間に観測される情報 たとえば 文節中の表層文字列 品詞 活用形 括弧や句読点の有無 文節間距離およびそれらの組合せなどである. 本論文では 我々が用いた素性のそれぞれを削除したときの実験結果を示し どの素性がどの程度係り受け解析の精度向上に貢献するかについて考察する. また 学習コーパスの量と解析精度の関係についても考察する. 我々の手法による係り受けの正解率は 一文全体や係り受けを文末から文頭へ向かって決定的に解析した場合 京大コーパスを使用した実験で87.1%と高い精度を示している.This paper describes an analysis of the dependency structure in Japanese based on the maximum entropy models. Japanese dependency structure is usually represented by the relationships between phrasal units called bunsetsu. We assume that the overall dependencies in a sentence can be determined based on the product of the probabilities of all dependencies in a sentence. The probabilities of dependencies between bunsetsus are estimated by a statistical dependency model learned within a maximum entropy framework. This model can be created by learning the features that are useful for predicting the dependency between bunsetsus from the training corpus. We are using information about a bunsetsu itself as features, such as character strings, parts of speech, and inflection types. We are also using information between two bunsetsus as features, such as the existence of brackets or punctuation and the distance between bunsetsus. We compare the performance of our method with and without each feature and discuss the contribution of each feature. And we discuss the effect of the size of the training corpus on the performance of our method. The accuracy of our method for obtaining the dependency of bunsetsus is 87.1% using the Kyoto University corpus when we parse a sentence deterministically from its end to the beginning.
著者
馬青 神崎 享子 村田 真樹 内元 清貴 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.10, pp.2379-2391, 2001-10-15
被引用文献数
6

本稿は,日本語名詞の意味を連続的かつ可視的に表現する意味マップを神経回路網モデルSOMによる自己組織化によって自動構築する手法を提案する.共起する連体修飾要素の観点から,まず,意味マップの自己組織化に有効と思われる,連体修飾要素が名詞の具体的な内容を表すような名詞句を新聞から人手で収集し,その名詞句を用いた意味マップの構築を試みる.そして,大規模意味マップの構築にはデータ収集の自動化が不可欠という観点から,新聞から名詞およびそれと共起する形容詞と形容動詞を共起頻度の高いものから自動的に取り出して構成される名詞句を用いた意味マップの構築を試みる.計算機実験で得られた意味マップはまず実際に用いた学習データを用いて検討し,意味マップ上の名詞は全般的に学習データが示唆する意味で配置されていることを確かめる.そして,分類結果に可視性や連続性のない階層型クラスタリング手法との比較を行い,本手法の分類能力を評価する.さらに,可視化能力を有す多変量解析手法が本タスクにうまく適用できないことを主成分の寄与率分析および計算機実験を通じて明らかにし,提案手法の必要性を補強する.A method is described for automatically constructing a semantic map,a visible and continuous representation in which Japanese nouns with similar meanings are placed at the same or neighboring points so that the distance between them represents semantic similarity.This is done by using the self-organizing neural network, SOM.From the point of view of common adnominal constituents,we first manually gather noun phrases whose adnominal constituents concretely describe the contents of head nouns from newspapers and construct a semantic map of the nouns using these noun phrases.Such types of noun phrases are thought to be effective for self-organizing a semantic map.Because it is indispensable to gather data automatically for constructing a large semantic map,we then construct a semantic map of the nouns using the noun phrases that consist of nouns and their co-occuring adjectives and nominal adjectivals.They are gathered automatically from newspapers in the order of the frequency of their co-occurrent words.Examination of semantic maps obtained in computer experiments showed that the nouns were mapped to the points corresponding to the training data.And, to objectively evaluate the SOM's ability in semantic classification,the semantic maps are compared to the results of classification by hierarchical clustering,which cannot give results with visible and continuous representation.Further, it is clarified that the multivariate statistical analysis such as principle component analysis and factor analysis cannot be used to construct semantic maps which reinforces the necessity of the proposed method for this task.
著者
内元 清貴 黒橋 禎夫 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.114, pp.143-150, 1996-11-18
被引用文献数
1

文脈や状況を考慮した日本語文生成システムを構築するために、語彙選択の過程は必要不可欠である。本稿では、計算機上で柔軟な語彙選択を実現するために語彙選択を決定する様々な要因を具体的なパラメータとして取り出し、選択の手がかりとして用いる。本稿で提案する語彙選択の枠組には、次のような利点がある。1.本枠組では、概念と表層の単語が一対多に対応すると考えるため、一つの概念から様々な要因に応じて語彙を選択できる。例えば、「言われる」と「仰る」の違いのように単語そのものが異なる場合の語彙選択も扱える。これは従来の枠組では扱えなかった。2.要因の性質を利用することによって、ある単語の選択が同じ文内の他の単語の選択に影響を及す現象も扱える。Lexical selection is a prerequisite to construct a system for generating Japanese text that takes into account context and circumstances. This paper uses causes and their properties as search keys to achieve flexible lexical selection. The proposed framework for lexical selection has the following advantages: 1. The framework enables a wide choice of words representing a certain concept, unlike in other systems, because it assumes that each concept corresponds to several words, allowing the selection of suitable words given a set of causes. 2. Lexical selection of words is influenced by the selection of other words in the same sentence, taking into account the scopes of the words' contexts and their individual causal properties.
著者
小澤 俊介 内元 清貴 伝 康晴
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.2, pp.379-401, 2014-04-18 (Released:2014-07-17)
参考文献数
17
被引用文献数
2 1

言語研究において,新しい品詞体系を用いる場合には,既存の辞書やコーパス,解析器では対応できないことが多いため,これらを再構築する必要がある.これらのうち,辞書とコーパスは再利用できることが少なく,新たに構築する場合が多い.一方,解析器は既存のものを改良することで対応できることが多いものの,どのような改良が必要かは明らかになっていない.本論文では,品詞体系の異なるコーパスの解析に必要となる解析器の改良点を明らかにするためのケーススタディとして,品詞体系の異なる日本語話し言葉コーパス(以下,CSJ)と現代日本語書き言葉均衡コーパス(以下,BCCWJ)を利用して,長単位情報を自動付与した場合に生じる誤りを軽減する方策について述べる.具体的には,CSJ を基に構築した長単位解析器をBCCWJへ適用するため,CSJ と BCCWJ の形態論情報における相違点に応じて,長単位解析器の学習に用いる素性やラベルを改善した.評価実験により提案手法の有効性を示す.
著者
村田 真樹 神崎 享子 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.7, no.1, pp.51-66, 2000-01-10 (Released:2011-03-01)
参考文献数
15

本稿では単語の羅列を意味でソートするといろいろなときに便利であるということについて記述する. また, この単語を意味でソートするという考え方を示すと同時に, この考え方と辞書, 階層シソーラスとの関係, さらには多観点シソーラスについても論じる. そこでは単語を複数の属性で表現するという考え方も示し, 今後の言語処理のためにその考え方に基づく辞書が必要であることについても述べている. また, 単語を意味でソートすると便利になるであろう主要な三つの例についても述べる.
著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10 (Released:2011-03-01)
参考文献数
10

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
和泉 絵美 内元 清貴 井佐原 均
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.106, no.363, pp.1-6, 2006-11-11
参考文献数
13
被引用文献数
2

非母語話者が話す言語には母語話者が話す言語には見られない誤りがしばしば含まれている.しかし,誤りには,その発話の理解に支障をきたす深刻なものとそうでないものがある.言語の正確さを追求することはもちろん重要だが,コミュニケーション優先の言語学習を行う場合,まずは絶対に誤ってはいけない項目と,必ずしも正確さが要求されない項目は何かを知っておくことは有益であると考える.本研究では,日本語を母語とする英語学習者による英語発話データを元に,それに付与されたエラータグ情報および英語母語話者によって付与された発話の「分かりやすさ」のレベル情報を用いて,それぞれの種類の誤りが聞き手の理解度に及ぼす影響について考察する.
著者
和泉 絵美 内元 清貴
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.108, no.297, pp.27-32, 2008-11-08
参考文献数
10

本研究では、日本人英語発話データ(The NICT Japanese Learner English Corpus)に含まれる誤りを主な手がかりとして、日本人英語における実践的コミュニケーション能力(=通じやすい発話をできる能力)を記述することを目的とする.著者の先行研究においては、特に語彙、語用、談話の誤りが発話の通じやすさを最も大きく減じる原因となることが示唆された。そのうち語彙誤りに関して詳細な分析を行ったこところ、誤り語と訂正語の意味的関連性が高いほど発話は通じやすくなることを示す結果を得た。また、英語運用能力レベルの高い学習者ほど密度の高い語彙空間を持っているため、たとえそれが誤りであっても正解語と高い意味的関連性を持つ誤り語を使用していることが分かった。これらはすべて単語間のparadigmaticな関係を対象としているが、適切な言語運用にはsyntagmatic,analyticな関係についても知る必要がある。本研究では、学習者の語彙運用においてこれら3つのような深い言語知識がどのように作用しているのか分析する。具体的には、どのような語彙知識が不足、または正しく運用(認知)されなかったために誤りが生じたのか、一つ一つの誤りの原因を推測し、その結果と発話の通じやすさのレベルおよび発話者の英語運用能力レベルとの相関を調査する。
著者
浜辺 良二 内元 清貴 河原 達也 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.136, pp.143-148, 2006-12-21

講演のような話し言葉の書き起こしや音声認識結果を、講演録などのアーカイブとして二次利用する場合、文章として適した形態にする必要がある。本研究では、話し言葉の中で発言の引用が行われている箇所に引用符を自動付与する手法を提案する。機械学習により、まず引用構造をとる節を自動認定し、それらに引用符が必要かどうかを判定する。引用構造の認定では、表層表現や音響的特徴に加え、係り受け情報を利用することで認定精度の改善を図る。引用符付与の判定においては、学習の際に新聞記事コーパスから得られる情報をあわせて利用する。『日本語話し言葉コーパス(CSJ)』に対して、引用符付与の基準を定めた上で本手法の実験的評価を行なった。Transcriptions and speech recognition results of public speaking include many expressions peculiar to spoken language. Thus, it is necessary to transform them into document style for practical use of them. We focus on detecting quotations and enclosing them in quotation marks as written text. Quotations are detected with SVM-based text chunking method that considers information on morphemes, acoustic features, and dependency structures. Then, it is determined whether or not they need to be enclosed in quotation marks by machine learning method using the corpora of spoontaneous speech and newspapers. We defined how to classify quotations and evaluated our method on the Corpus of Spontaneous Japanese (CSJ).
著者
小澤 俊介 内元 清貴 松原 茂樹
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J95-D, no.3, pp.506-517, 2012-03-01

Web上には,病気への対処法や料理のレシピなど,様々なノウハウが蓄積されている.そのため,ノウハウを知るためにWebを参照することが多い.しかし,既存のWeb検索でノウハウのみを検索することは容易ではない.この問題に対し,ノウハウをあらかじめ整理し,専用のWebサイトなどで提供することができれば,災害に対する予防策など,様々な事象への対処・対策の発見を容易にすることができる.本論文では,モノとその使われ方に着目することにより,ノウハウを獲得する手法を提案する.本手法では,まず,対象のモノを含むパッセージを獲得し,ノウハウの候補を抽出する.次に,パッセージに含まれる手掛り表現,及び,モノとその使われ方として用途表現を利用することにより,ノウハウ候補がノウハウであるか否かを判定する.実験により,ノウハウ獲得においてモノとその使われ方が重要な役割を果たすことを示す.
著者
村田 真樹 馬 青 内元 清貴 井佐原 均
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.100, no.698, pp.25-32, 2001-03-16

テンス・アスペクト・モダリティは,翻訳が難しい問題として知られている.従来はテンス・アスペクト・モダ゛リティの表現は人手で作成した規則によって扱われていたが,近年用例ベース(k近傍法)の方法などのコーパスベースに基づくアプローチでも処理されるようになってきた.本研究では,このテンス・アスペクト・モダリティの翻訳の実験を,k近傍法も含めて様々な機械学習手法を用いて行なった.その結果,サポートベクトルマシンに基づく方法が最も高い精度を得た.また,用例ベースを用いた先行研究では解析に用いる情報は文末の一致文字列のみであったが,この情報に加え,一文全体の形態素情報も解析に用いることにしたところ,精度が上昇するという結果を得た.このことにより,テンス・アスペクト・モダリティの翻訳には文末情報だけでなく一文全体の形態素情報も有用であることがわかる.
著者
村田 真樹 神崎 享子 内元 清貴 馬青 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.22, pp.89-96, 1999-03-04
被引用文献数
2

本論文では単語の羅列を意味でソートするといろいろなときに便利であるということについて記述する.また,この単語を意味でソートするという考え方を示すと同時に,この考え方と辞書,階層シソーラスとの関係,さらには多観点シソーラスについても論じる.そこでは単語を複数の属性で表現するという考え方も示し,今後の言語処理のためにその考え方に基づく辞書が必要であることについても述べている.また,単語を意味でソートすると便利になるであろう主要な三つの例についても述べる.It is often useful to sort words by their meanings like when using a thesaurus. In this paper, we introduce a method of arranging words semantically and show how to implement this method by using various types of dictionaries and thesauruses. We also examine an ideal dictionary that could be used for future natural language processing. Finally, we describe three main ways to use this method.