著者
長尾 眞 森 信介
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.61, pp.1-8, 1993-07-09
被引用文献数
38

シャノンによる情報理論の確立により,自然言語をマルコフ過程としてとらえ,言語のもつ性質を明らかにしようという立場が提案された.この立場は,あるn文字の組合せがどのような頻度で生じるか(グラム)を調べることにその中心があったが,計算機の性能やテキストデータの不足などにより、大蜆模なテキストに対して、あるいは大きなnに対して言語統計を取ることが行われなかった.我々は,今日の計算機を用いるとこれが実現できると考え,大規模なテキストの任意のnについてのnグラムを簡単にとる方法を考案し,200万文字から3000万文字の中規模の日本語テキストデータに対し,nグラム統計をワークステーションを使って比較的短時間でとることに成功した.その結果,種々のnに対するnグラム統計を比較して調べることによって言葉として有意義なものが取り出せるということが明らかになった.同時にさらに大きいテキストを用いることの必要性と、可能性が明らかになった.In the process of establishing the information theory, C. E. Shannon proposed the Markov process as a good model to characterize a natural language. The core of this idea is to examine the frequency of a string composed of n characters (n-grams), but this statistical analysis of large text data and for a large n has never been carried out because of the low capability of computer and the shortage of text data. Taking advantage of the recent powerful computers to execute it, we developped a new algorithm of n-grams of large text data for arbitrary n and calculated successfully, within relatively short time, n-grams of some middle size Japanese text data containing between two and thirty million characters. From this experiment it became clear that the automatic extraction or determination of words is possible by mutually comparing the n-gram statistics for different values of n.
著者
森 信介 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69, pp.7-12, 1995-07-20
被引用文献数
14

自然言語処理において、辞書は単語の文法的機能や意味の情報源として必要不可欠であり、辞書に登録されていない単語を減少させるため、辞書の語彙を増強する努力がなされている。新語や専門用語は絶えず増え続けているため、辞書作成の作業は多大な労力を要するのみならず、各解析段階での未知語との遭遇は避けらず、大きな問題の一つとなっている。この問題を解決するため、本論文では、nグラム統計を用いて、コーパスからの単語の抽出とその単語が属する品詞の推定を同時に行なう方法を提案する。この方法は、同一品詞に属する単語の前後に位置する文字列の分布は類似するという仮定に基づく。実験の結果、本手法が未知語の品詞推定や辞書構築に有効であることが確認された。Dictionaries are indispensable for NLP as a source of information of grammatical functions or meanings of words. Much endeavor is being made to reinforce their vocabulary. Given continuous increase of new words or technical terms, building a dictionary takes vast effort and unknown words are inevitable at any step of analysis and this causes a grand problem. To solve this problem, we propose a method to extract words from a corpus and estimate part-of-speeches (POSs) which they belong to simultaneously using n-gram statistics, based on the supposition that distributions of strings preceding or following words belonging to the same POS are similar. Experiments have shown that this method is effective to infer the POS of unknown words and build a dictionary.
著者
森 信介 長尾 眞
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.27(1995-NL-112), pp.37-44, 1996-03-14

入力文を単語に分割し品詞を付加する形態素解析は、日本語処理における基本的な処理である。英語の品詞タグ付けと異なりコーパスに基づく形態素解析の試みはあまり行なわれていない。本論文では、コーパスに基づく形態素解析の新しい手法を提案する。我々の提案は次のように要約される。)各形態素の語彙化、)附属語列の登録、)マルコフモデルの重ね合わせ。これらのアイデアは形態素解析に特有ではなく、他のコーパスに基づく手法に応用できる。以上のアイデアに基づく形態素解析器を作成し、EDRコーパスに対して実験を行なった結果、非常に高い精度を得た。
著者
角田 達彦 清水 仁 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.4, pp.129-136, 1997-01-20
被引用文献数
2

本稿では,六法全書法律文の大局的構造の解析と要件の意味推定を表層的手がかりによって行なう手法を提案する.文の構成要素を主題,要件,効果に分け,それらが対比構造をなしているかを調べ,その結果によって各主題や要件の係り先を特定する.そして各要件の機能表現によって要件のさす内容を特定する.同時に主題の連体修飾部や,効果部に入りこんだ要件の抽出を行なう.その結果,六法全書の条文181文の学習コーパスに対して170文(3%)が,そして275文のテストコーパスに対して224文(1%)が正しく解析できた.また,とりたて助詞「は」と読点の有無が対比構造の生成・認識の鍵となり,それによって係り先が決定されることを明らかにした.We propose a method of automatic detection of global structure and semantical logics in legal sentences. Firstly, the method extracts elements in them and classifies them into three types: subject, condition, and effect. Second, it checks whether they have comparison structures, and, depending on the result, specifies their dependency. Finally, it grasps their contents using surface clues and extracts conditions from the subject and effect parts. Our method achieved 93% correctness for 181 training sentences, and 81% correctness for 275 unseen sentences. We also clarified the importance of particle 'ha' and commas for generating and understanding comparison structure, which decides phrase dependency.
著者
内元 清貴 黒橋 禎夫 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.114, pp.143-150, 1996-11-18
被引用文献数
1

文脈や状況を考慮した日本語文生成システムを構築するために、語彙選択の過程は必要不可欠である。本稿では、計算機上で柔軟な語彙選択を実現するために語彙選択を決定する様々な要因を具体的なパラメータとして取り出し、選択の手がかりとして用いる。本稿で提案する語彙選択の枠組には、次のような利点がある。1.本枠組では、概念と表層の単語が一対多に対応すると考えるため、一つの概念から様々な要因に応じて語彙を選択できる。例えば、「言われる」と「仰る」の違いのように単語そのものが異なる場合の語彙選択も扱える。これは従来の枠組では扱えなかった。2.要因の性質を利用することによって、ある単語の選択が同じ文内の他の単語の選択に影響を及す現象も扱える。Lexical selection is a prerequisite to construct a system for generating Japanese text that takes into account context and circumstances. This paper uses causes and their properties as search keys to achieve flexible lexical selection. The proposed framework for lexical selection has the following advantages: 1. The framework enables a wide choice of words representing a certain concept, unlike in other systems, because it assumes that each concept corresponds to several words, allowing the selection of suitable words given a set of causes. 2. Lexical selection of words is influenced by the selection of other words in the same sentence, taking into account the scopes of the words' contexts and their individual causal properties.
著者
松岡 正男 村田 真樹 黒橋 禎夫 長尾 眞
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69(1995-NL-108), pp.37-42, 1995-07-20

テキストや談話を理解する上で,照応表現は非常に大きな役割を果たしている.本研究では,これまであまり研究されていなかったが,高品質の自然言語理解システムを実現するためにはその処理が必要不可欠である後方照応表現を取り扱った.具体的には,日本語の表層表現を手がかりとして後方照応表現の照応詞と先行詞の抽出を行った.抽出のためのルールは,まず緩やかなパターンで後方照応表現の候補文を取り出し,それらを詳細に調べることによって作成した.テストサンプルに対する実験の結果,後方照応表現の認定は適合率47.7%,再現率94.2%,先行詞の正解率は71.2%であった.
著者
長尾 眞 原田 勝 石川 徹也 谷口 敏夫 澤田 芳郎 吉田 哲三 柿元 俊博
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.38, no.3, pp.191-206, 1995
被引用文献数
5

本論文は電子図書館システムAriadneに関する5編の論文の最初のものである。まず電子図書館が従来の図書館とどのように違うものであるかを述べ,電子図書館の一つの理想の姿がどのようなものであるかを具体的に説明した。さらに,それを具体的に実現するために持つべき機能の概要,システム構成,ユーザ·インタフェース,システム構築支援機能,ネットワーク構成などについて詳しく述べた。他の4編の論文で詳細が述べられている機能などについては,簡単に触れるだけにとどめた。
著者
郡司 隆男 橋田 浩一 徳永 健伸 丸山 宏 長尾 眞
出版者
一般社団法人 人工知能学会
雑誌
人工知能 (ISSN:21882266)
巻号頁・発行日
vol.9, no.5, pp.673-683, 1994-09-01 (Released:2020-09-29)

前号 (Vol.9, No.4, pp.530-536) のAIマップは,我が国の自然言語処理分野のリーダシップを長年取ってこられた長尾 眞氏によるものでした.広い視野から現在の自然言語処理技術における問題点を論じる一方,これまでのアプローチに対しても厳しい批判を投じた provocative なものでした.ここではさまざまな観点から議論を沸騰させるために,自然言語研究においてそれぞれの立場の異なる4氏(大阪大学 郡司 隆男氏,電子技術総合研究所 橋田 浩一氏,東京工業大学 徳永 健伸氏,日本アイ・ビー・エム(株) 丸山 宏氏)にコメントをいただきました.また,コメントに対する長尾 眞氏の返答も同時に掲載することにいたしました. (編集委員会AIマップワーキンググループ)
著者
黄道三 黒橋 禎夫 長尾 眞
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.77(1994-NL-103), pp.121-128, 1994-09-15

実際文では,非文ともいえるほどの文も使われる場合があり,文を限定されたルールによって解析するには限界がある.韓国語は語順が自由で,不規則が多い言語であるため,決まったルールでは解析できない場合が多い.最近,用例パターンとの類似性に基づいて日本語文を解析するシステム「KNP」が開発され,構文解析において96%という高い成功率を表している.これは,長い日本語文には並列構造になっている文節が多いので,これらを先にまとめることによって,長い文を簡単な構造に解析することができるという考え方に基づいている.日本語と韓国語とは構文構造と語彙形成形熊とにおいて似ているので,KNPは韓国語にもうまく働くと考え,KNPのハングル化()を試みた.330文に対して実験を行なったところ,韓国語の長い文にも十分に有効であることがわかった.また,日本語180文とそれを訳した韓国語文を各々KNPとhKNPで構文解析し,日本語から韓国語への対照分析を行なった結果,すべての文において文節の順序が一致しており,74文(%)の構文構造が完全に一致していることがわかった.
著者
新谷 研 角田 達彦 大石 巧 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.4, pp.855-862, 1997-04-15
被引用文献数
9

新聞の関連記事を検索する手法を提案し,実験により評価した結果について報告する.本研究で提案する手法は,名詞を中心にキーワードになりそうな単語を表層的に判断して重みをつけ,その重みを点数化し,記事間の関連度を記事間で共起した単語の点数の総和により評価するというものである.重みをつける尺度は,(a)記事中において出現回数の多い単語の重みを高くし,出現回数の少ない単語の重みを低くすること,(b)各記事の初めの方に出現する単語の重みを高くし,終わりの方に出現する単語の重みを低くすること,(c)過去1年分の新聞記事においてあまり出現しない単語の重みを高くし,よく出現する単語の重みを低くすること,の3点である.実験を行った結果,元記事以後2週間の範囲に存在する関連記事を適合率96%,再現率66%で抽出できた.We propose a new method of retrieving relevant newspaper articles.Our method is based on word weighting,and it is based on three important points:(a) A word has a high weight if it often occurs in the article.(b) A word has a high weight if it is in former sentences of the article.(c) A word has a high weight if it rarely occurs in newspaper articles for last one year.This method retrieves relevant articles within two weeks since the original article was printed.As a result,its precision is 96%,and its recall is 66%.
著者
森 信介 長尾 眞
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.39, no.7, pp.2093-2100, 1998-07-15

自然言語処理において,辞書は単語の文法的機能や意味の情報源として必要不可欠であり,辞書に登録されていない単語を減少させるため,辞書の語彙を増強する努力がなされている.新語や専門用語は絶えず増え続けているため,辞書作成の作業は多大な労力を要するのみならず,各解析段階での未知語との遭遇は避けらず,大きな問題の1つとなっている.この問題を解決するため,本論文では,nグラム統計を用いて,コーパスからの単語の抽出とその単語が属する品詞の推定を同時に行う方法を提案する.この方法は,同一品詞に属する単語の前後に位置する文字列の分布は類似するという仮定に基づく.実験の結果,本手法が未知語の品詞推定や辞書構築に有効であることが確認された.
著者
中村 俊久 黒橋 禎夫 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.47, pp.89-96, 1994-05-27
被引用文献数
2

自然言語処理において、形態素解析はべた書き文からあらゆる可能な単語を抽出しなければならないので、日本語単語の高速辞書検索は必要不可欠なことである。そこで本検索法では、まず登録する単語を部分文字列にわけ、それぞれわけられた文字列に単語の長さ情報をもたせて登録していくことを考えた。これにより辞書検索を部分文字列で行なうことができ、素早く単語の長さ情報を得て目的とする単語までスキップすることができるので、むだな辞書引き動作をなくすことができた。したがって、部分文字列を利用する簡単なシステムとなり、データ構造にはパトリシアを用いてまたデータの検索・挿入・削除にはハッシュ法を用いた高速な検索方法を提案する。なお、本検索法を用いた日本語形態素解析システム(MAN?)で、従来のシステム(MAN?m)との解析処理時間を比べると、かなり高速化できたことを確認した。It is important to realize high-speed retrieval method, because all possible words must be extracted from solid Japanese written sentences in Japanese morphological analysis. We intend to separate words to partial character string, then record them in the dictionary with character length information. It is possible to extract words quickly by using character length information, and remove useless retrieval action. For estimating this method, we build a simple retrieval system which makes use of partial character string information. In this system, we used Patricia as the data structure, and hashing for retrieval, registration, and deletion of words. JUMAN-NK, which uses our hi-speed retrieval system, can do Japanese morphological analysis 2.7 times as fast as the current system JUMAN-mcc.
著者
森 信介 山地 治 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.120, pp.87-94, 1997-12-11
被引用文献数
8

本論文では、文字 n?gramモデルや形態素 n?gramモデルの予測単位を文字列や形態素列に拡張した連文字 n?gramモデルや連語 n?gramモデルを定義し、予測力という観点でモデルを改善する方法を提案する。モデルの探索における目的関数は、形態素クラスタリングで有効性が示されている平均クロスエントロピーである。これは、削除補間のように、評価用のコーパスとモデルの推定用のコーパスとを別に用意するというアイデアに基づいている。日本語コーパスを用いた実験の結果、クロスエントロピーを計算すると、連文字 n?gramモデルは4.3791であり文字 n?gramモデルの5.4105より低く、連語 n?gramモデルは4.4555であり形態素 n?gramモデルの4.6053より低く、モデルの改善が観測された。In this paper, we define a string-based n-gram model and a phrase-based n-gram mode as expansions of character n-gram model and word-based n-gram model, and we propose a method to improve an n-gram model in terms of prediction. The objective function in model search is the average cross entropy, which is proven to be effective for word clustering. This criterion is, like deleted interpolation, based on the idea of separation of the corpus for evaluation and the corpus for model estimation. As an experimental result on a Japanese corpus, we obtained the entorpeis as follows: the string-based n-gram model had 4.3791, which is less than the character n-gram model's 5.4105, and the phrase-based n-gram mode had 4.4555, which is less than the word-based n-gram model's 4.6053.
著者
宇津呂 武仁 松本 裕治 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.34, no.5, pp.913-924, 1993-05-15
被引用文献数
24

自然言語処理のための大規模な意味辞書を構築するためには、人間のための辞書や大規模コーパスに含まれる自然言語の文を解析して、そこから意昧辞書を構築する技術を確立することが重要となる。計算機で知識獲得を行う場合、全自動で知識が獲得されることが望ましいが、現在利用可能な情報が貧弱であるため、有用な知識を獲得するためには何らかの人間の介入が必要である。しかし、最終的に得られる結果が人間の主観的な判断の影響を受けないように、人間の介入は最小限に抑えたい。我々は、英語と日本語のように統語構造および語彙が異なる二言語間の翻訳例を構文解析して、その結果を二言語間で比較するというアプローチによって語彙的知識の獲樗を行っている。そこでは、両言語の解析結果を比較することによって統語的および意味的曖昧性の両方が解消するため、単言語だけのアプローチに比ぺると人間の介入を大幅に抑えて語彙的知識を獲得できる。本論文では、二言語対訳コーパスから日本語の動詞の表層格フレームを獲得する手法について述べる。我々の手法では、システムと人間との相互作用は、動詞の複数の意昧を類別する部分だけに許される。そこでは、システムが動詞の複数の意昧を類別する手がかりをヒューリスティックスによって発見し、その妥当性を人間が判定するという形で相互作用が行われる。その際には、対訳例の英語の情報が有カな手がかりとなる。