著者
荻野 孝野 植田 禎子 小林 正博 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.4, pp.21-54, 2005-08-26 (Released:2011-03-01)
参考文献数
16
被引用文献数
1 1

係り受け関係のついた大量のコーパスを元にして作成されたデータを対象として, 動詞の結合価に関する検討を行った.これは, 係り受け関係まで付与された大量データからなるコーパスが存在してはじめて可能となった分析である.動詞の結合価に関する検討は, 各動詞の基本的な格パターンに着目して結合価を決定することを中心として検討されてきた.しかし, 省略を含め, 結合価が実際の言語データでどういう形で出現しているかについて, 全容を示すようなものは報告されていない.ここでは, 大量のコーパスデータから作成した結合価データを用い, 実際のデータで動詞にかかる格助詞がどういうパターンで出ているのかを調査し, 格助詞パターンの出現状況を把握するとともに, それらの格助詞パターンを用いて同音異表記がどの程度判定できるかを検討した.動詞約12, 400概念 (表記の異なりレベルで約9, 400単語) から作成した動詞の格助詞組み合わせパターンは, 延べパターン数で37, 237パターン, 異なりパターンで188パターンとなった.また, 同音異表記セットについて, これらのパターンを用い, 表記確定を試みたところ, 結合価のうち格助詞組み合わせパターンの異なりによる判定でも格助詞パターンの出現頻度などを判定基準に付加することによって約73%の判定が可能であることがわかった.
著者
遠藤 邦彦 阿部 晶子 津野田 聡子 柳 治雄 井佐原 均
出版者
一般社団法人 日本高次脳機能障害学会
雑誌
高次脳機能研究 (旧 失語症研究) (ISSN:13484818)
巻号頁・発行日
vol.25, no.2, pp.165-178, 2005 (Released:2006-07-14)
参考文献数
25

音節を認知するときに, 子音と過渡部 (子音から母音への移行部, フォルマントの遷移部) が果たす役割を検討した。認知の手がかりが子音と過渡部, 子音のみ, 過渡部のみにある音を自然言語音から作成し, 失語症31例と健常者18名に語音認知検査を実施した。認知の手がかりとして, 子音は, 過渡部より強力であった。子音を削除した刺激では, 過渡部のフォルマントが手がかりとして有効であった。言語音の中には認知の手がかりが子音にある音と, 過渡部にもある音とがあった。構音点の解読には子音と過渡部の両方の情報が, 構音方法, および鼻音・非鼻音の解読には子音の情報が, 有声・無声の解読には子音または過渡部のどちらか一方の情報が必要であった。言語音の認知にもっとも大きな障害を生じたのは, 左縁上回下部の病巣であった。音声からの特徴抽出が, はじめに子音を, 次に過渡部をもとに二段階でなされると, 精密で高速な語音認知が可能と考えられた。
著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10
参考文献数
10
被引用文献数
6

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
葛井 健文 上野 未貴 井佐原 均
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第31回全国大会(2017)
巻号頁・発行日
pp.4F13in2, 2017 (Released:2018-07-30)

人間の物語創作を支援し,また創作過程を定量化することを目標に創作支援システムを提案する.提案システムは,物語を作成するための質問集合と,登場人物の設定を作成するための質問集合から成り,これらの質問にユーザが答えていく形で創作を支援する.また,質問への回答から,人物の登場期間,場面の盛り上がりを確認できるグラフを表示し,ユーザが作成した物語の流れを一目で管理できる想定感情線グラフとして提案する.
著者
内元 清貴 関根 聡 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.9, pp.3397-3407, 1999-09-15
被引用文献数
21 22

本論文ではME(最大エントロピー法)に基づくモデルを利用した統計的日本語係り受け解析手法について述べる. 一文全体の係り受け確率は 一文中のそれぞれの係り受けの確率の積から求められると仮定し それぞれの係り受けの確率はMEによって学習した係り受け確率モデルから計算する. この確率モデルは 学習コーパスから得られる情報を基に 2つの文節が係り受け関係にあるか否かを予測するのに有効な素性を学習することによって得られる. 我々が素性として利用する情報は 2つの文節あるいはその文節間に観測される情報 たとえば 文節中の表層文字列 品詞 活用形 括弧や句読点の有無 文節間距離およびそれらの組合せなどである. 本論文では 我々が用いた素性のそれぞれを削除したときの実験結果を示し どの素性がどの程度係り受け解析の精度向上に貢献するかについて考察する. また 学習コーパスの量と解析精度の関係についても考察する. 我々の手法による係り受けの正解率は 一文全体や係り受けを文末から文頭へ向かって決定的に解析した場合 京大コーパスを使用した実験で87.1%と高い精度を示している.This paper describes an analysis of the dependency structure in Japanese based on the maximum entropy models. Japanese dependency structure is usually represented by the relationships between phrasal units called bunsetsu. We assume that the overall dependencies in a sentence can be determined based on the product of the probabilities of all dependencies in a sentence. The probabilities of dependencies between bunsetsus are estimated by a statistical dependency model learned within a maximum entropy framework. This model can be created by learning the features that are useful for predicting the dependency between bunsetsus from the training corpus. We are using information about a bunsetsu itself as features, such as character strings, parts of speech, and inflection types. We are also using information between two bunsetsus as features, such as the existence of brackets or punctuation and the distance between bunsetsus. We compare the performance of our method with and without each feature and discuss the contribution of each feature. And we discuss the effect of the size of the training corpus on the performance of our method. The accuracy of our method for obtaining the dependency of bunsetsus is 87.1% using the Kyoto University corpus when we parse a sentence deterministically from its end to the beginning.
著者
杉浦 正利 木下 徹 山下 淳子 井佐原 均 大名 力
出版者
名古屋大学
雑誌
萌芽研究
巻号頁・発行日
2004

本研究では、書きことばと話しことばに関する英語学習者の産出データを大量に収集し、各文に英語母語話者による「書き換え文」を付けた上で、自然言語処理技術を応用し「誤り」や「不自然な表現」をコンピューターを使い自動的に抽出・解析・分類し、その特徴を英語教育の専門家が分析することで、英語学習者の中間言語体系全般にわたるエラーの全体像を明らかにすることを目的としている。本年度は、これまでの分析のまとめと、研究成果および開発したプログラムとデータを公開するための環境整備を行った。(1)英語学習者の誤りに関する体系的な分析:話しことぱと書きことばに関する分析を統合した。(1-1)誤用タグの種類と付与方法に関する知見をまとめた。(1-2)話しことばに関する誤用の傾向をまとめた。(1-3)書きことばに関する誤用の傾向をまとめた。(1-4)話しことばと書きことばの誤用の相違点をまとめた。(1-5)英語学習者の言語習得プロセスを誤用データの分析から把握できるような指標の開発を試みた。(2)開発したプログラムの公開:本研究で開発した誤り表現の自動抽出プログラムをWWW上に公開できるようにした。本プロジェクトで得られた知見のみならず、開発したプログラムも広くフリーで使用できるようにする。(3)データベースの公開:本研究で作成した誤りデータベースをWWW上で検索可能にし公開できるようにした。本プロジェクトで得られたデータをまとめ、今後、本格的に誤用研究を行う際に、さまざまな観点から誤用分析を試せるような検索システムを開発した。本研究により、自然言語処理技術の応用による誤用分析の可能性を追求できたとともに、その限界や問題点も把握でき、今後、本格的な誤用分析研究を行うための基礎となる有益な知見を得ることができた。
著者
上野 未貴 末長 寿規 井佐原 均
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

人は漫画をどのように理解しているのか.筆者らはこれまで,漫画の感情や順序に着目したクラスを定義し,計算機手法による識別を試みてきた.しかし,漫画理解には,画像,言語特徴,背景知識など多くの情報が複雑に関連しており,計算機的手法のみで意図を理解するには未だ大きな壁がある.本研究では,人がストーリーを理解する過程を詳細に調査し,漫画を計算機上で扱うためのストーリーの感情クラス,時間軸を改めて定義する.
著者
野畑 周 佐田 いち子 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.50, pp.125-130, 2005-05-27
被引用文献数
1

ある特定の出来事について知ろうとして新聞記事などを読むとき、その出来事を示す表現は何らかの形でその記事の中に現われている。しかし、その表現の文字列は一意でないことが多い。文章中の人名や組織名などの表現は、現われる文章に依らず固定していることが多く、それらの表現を自動的に取り出す固有表現抽出システムの精度は近年の研究によって高まっている。それを利用して自由度のより高い出来事を示す表現を汎用的な手法で自動的に抽出することは、情報抽出のための固有表現抽出としては拡張の方向性の一つであり、また自動要約や機械翻訳などの分野においても、文書間の話題のつながりを捉えたり、二言語間で対応する表現の範囲を広げたりする点で有用である。本論文では、特定の出来事を指す表現のうち、「事件・事故名」を対象として、その抽出方法の提案と評価を行う。When we read newspaper articles to obtain knowledge about a specific event, some expressions that denote the event appear in each article, but these expressions are more flexible and elusive than named entities like person names, organization names. Since the performance of a named entity recognizer has recently become better, it is one of the next steps to use recognized named entities for recognizing event expressions. The recognition of event expressions is also useful in detection of the same topic between multiple documents for automatic summarization, and between different languages for machine translation. In this paper, we present a method and evaluation results of extraction of specific incident names as a part of event expressions.
著者
村田 真樹 内山 将夫 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.11, pp.181-188, 2000-01-27
参考文献数
19
被引用文献数
38

質問応答システムの研究は,TREC8やAAAIにおいても重要な問題として位置づけられている.本研究では,自然言語で書かれた知識データと質問文を,類似度に基づいて照合することにより,全自動で解を取り出すシステムを作成した.このシステムの有効性を確かめるために,TREC8のホームページや英検の問題から取ったサンプルデータで実験したところ,良好な結果を得た.Research on question-answering systems is now considered to be extremely important in TREC8 and AAAI. In this paper, we constructed a question answering system which matches a question with knowledge-based data written in natural language and automatically selects the answer. We tested this system using sample data taken from TREC8's homepages and Eiken textbooks, and obtained good results.
著者
馬青 神崎 享子 村田 真樹 内元 清貴 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.10, pp.2379-2391, 2001-10-15
被引用文献数
6

本稿は,日本語名詞の意味を連続的かつ可視的に表現する意味マップを神経回路網モデルSOMによる自己組織化によって自動構築する手法を提案する.共起する連体修飾要素の観点から,まず,意味マップの自己組織化に有効と思われる,連体修飾要素が名詞の具体的な内容を表すような名詞句を新聞から人手で収集し,その名詞句を用いた意味マップの構築を試みる.そして,大規模意味マップの構築にはデータ収集の自動化が不可欠という観点から,新聞から名詞およびそれと共起する形容詞と形容動詞を共起頻度の高いものから自動的に取り出して構成される名詞句を用いた意味マップの構築を試みる.計算機実験で得られた意味マップはまず実際に用いた学習データを用いて検討し,意味マップ上の名詞は全般的に学習データが示唆する意味で配置されていることを確かめる.そして,分類結果に可視性や連続性のない階層型クラスタリング手法との比較を行い,本手法の分類能力を評価する.さらに,可視化能力を有す多変量解析手法が本タスクにうまく適用できないことを主成分の寄与率分析および計算機実験を通じて明らかにし,提案手法の必要性を補強する.A method is described for automatically constructing a semantic map,a visible and continuous representation in which Japanese nouns with similar meanings are placed at the same or neighboring points so that the distance between them represents semantic similarity.This is done by using the self-organizing neural network, SOM.From the point of view of common adnominal constituents,we first manually gather noun phrases whose adnominal constituents concretely describe the contents of head nouns from newspapers and construct a semantic map of the nouns using these noun phrases.Such types of noun phrases are thought to be effective for self-organizing a semantic map.Because it is indispensable to gather data automatically for constructing a large semantic map,we then construct a semantic map of the nouns using the noun phrases that consist of nouns and their co-occuring adjectives and nominal adjectivals.They are gathered automatically from newspapers in the order of the frequency of their co-occurrent words.Examination of semantic maps obtained in computer experiments showed that the nouns were mapped to the points corresponding to the training data.And, to objectively evaluate the SOM's ability in semantic classification,the semantic maps are compared to the results of classification by hierarchical clustering,which cannot give results with visible and continuous representation.Further, it is clarified that the multivariate statistical analysis such as principle component analysis and factor analysis cannot be used to construct semantic maps which reinforces the necessity of the proposed method for this task.
著者
山本 英子 内山 将夫 井佐原 均
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.104, pp.101-106, 2002-11-12

本研究では,文字認識の分野で用いられている補完類似度をテキストコーパスから事物間の関係を推定する問題に適用する際に,事物が持つ各文書における頻度を考慮した場合を考える.補完類似度は,ベクトルで表された文字の画像パターンの類似度を測ることによって劣化印刷文字を認識するために経験的に開発された尺度である.この扱うベクトルをコーパス中の事物の出現パターンに置き換えると,補完類似度は事物間関係の推定に適用できる.そこで,これまでに二値ベクトルを対象として事物間関係の推定を行った.しかし,二値ベクトルでは,Document Frequency しか考慮しておらず,Term Frequency(文書内頻度)を考慮していない.そこで,Term Frequencyを考慮した多値ベクトルを対象とした補完類似度を用いて事物間関係の推定を行った.その結果,Term Frequencyを考慮した補完類似度のほうが推定能力が高かったことを報告する.In this paper, we applied CSM (Complementary Similarity Measure) considering term frequency to estimate relationship between entities. Here, term frequency is times that certain entity appears in a document. CSM was developed experientially for robust character recognition. This measures inclusion degree of vectors expressing character image pattern. We have even estimated relationship between entities by replacing the image pattern to occurrence pattern of entity in corpus. However, we have considered only document frequency and have not considered term frequency. From experimental results, we reported that CSM considering term frequency obtained higher performance than original CSM.
著者
内山 将夫 井佐原 均
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.43, no.SIG09(TOD15), pp.1-14, 2002-09-15

近似文字列照合による全文検索では,入力パターンと一定以下の編集距離にある部分テキストすべてをテキストから検索する.近似文字列照合による全文検索は,テキストを接尾辞トライにより索引付けし,それを利用して検索することにより実現できる.しかし,接尾辞トライの占める空間領域は大きいため,接尾辞配列を索引として利用することもある.接尾辞配列を索引として利用する場合には,従来研究では,接尾辞トライ上での探索を接尾辞配列上での2分探索により模擬している.それに対して,本稿では,2分探索ではなく,補助的な配列を用いることにより,高速に,接尾辞トライ上での探索を模擬することができる手法を提案した.さらに,2分探索による方法を利用した場合と提案手法を利用した場合とにおける検索速度を実験的に測定し,提案手法の方が検索速度が速いことを示した.
著者
井佐原 均
出版者
一般社団法人 電子情報通信学会
雑誌
電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review (ISSN:18820875)
巻号頁・発行日
vol.14, no.4, pp.297-307, 2021-04-01 (Released:2021-04-01)
参考文献数
8

本稿では,筆者のこれまでの自然言語処理や言語資源の研究開発の経験をもとに,技術開発と社会実装の連携について述べる.まず現在実施中の自然言語処理技術の社会実装プロジェクトについて,実用に向けた取り組みを交えて述べる.次に社会実装に向けて自然言語処理技術の課題や目指す方向を論じる.人工知能システムにおけるデータの重要性を述べた後,これまでの言語データ開発の経験を紹介する.データを社会で共有する試みと国際標準化にも触れる.最後により広い観点から人間の言語理解や人工知能について述べる.
著者
村田 真樹 山本 専 黒橋 禎夫 井佐原 均 長尾 真
出版者
一般社団法人 人工知能学会
雑誌
人工知能 (ISSN:21882266)
巻号頁・発行日
vol.15, no.3, pp.503-510, 2000-05-01 (Released:2020-09-29)

In conventional studies, metonymy interpretation has been carried out by using a hand-built database that includes relationships between words concerned with metonymy, such as a special knowledge base of metonymy and a semantic network. However, these relationships between words are diverse, and it is difficult to manually make a detailed database. Therefore, in this paper we interpret metonymy by using examples in the form of noun phrases such as "Noun X no Noun Y (Noun Y of Noun X)" and "Noun X Noun Y, " instead of a hand-built database. This method has two advantages. One is that a hand-built database of metonymy is not necessary because we use examples. The second is that we can interpret newly-coined metonymies by using a new corpus. In experiments using this method on 23 metonymy sentences taken from textbooks, we correctly judged 17 sentences to be metonymy sentences and correctly interpreted 7 of them.
著者
村田 真樹 神崎 享子 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.7, no.1, pp.51-66, 2000-01-10 (Released:2011-03-01)
参考文献数
15

本稿では単語の羅列を意味でソートするといろいろなときに便利であるということについて記述する. また, この単語を意味でソートするという考え方を示すと同時に, この考え方と辞書, 階層シソーラスとの関係, さらには多観点シソーラスについても論じる. そこでは単語を複数の属性で表現するという考え方も示し, 今後の言語処理のためにその考え方に基づく辞書が必要であることについても述べている. また, 単語を意味でソートすると便利になるであろう主要な三つの例についても述べる.
著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10 (Released:2011-03-01)
参考文献数
10

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
和泉 絵美 内元 清貴 井佐原 均
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.106, no.363, pp.1-6, 2006-11-11
参考文献数
13
被引用文献数
2

非母語話者が話す言語には母語話者が話す言語には見られない誤りがしばしば含まれている.しかし,誤りには,その発話の理解に支障をきたす深刻なものとそうでないものがある.言語の正確さを追求することはもちろん重要だが,コミュニケーション優先の言語学習を行う場合,まずは絶対に誤ってはいけない項目と,必ずしも正確さが要求されない項目は何かを知っておくことは有益であると考える.本研究では,日本語を母語とする英語学習者による英語発話データを元に,それに付与されたエラータグ情報および英語母語話者によって付与された発話の「分かりやすさ」のレベル情報を用いて,それぞれの種類の誤りが聞き手の理解度に及ぼす影響について考察する.