著者
長尾 眞 森 信介
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1993, no.61, pp.1-8, 1993-07-09
被引用文献数
38

シャノンによる情報理論の確立により,自然言語をマルコフ過程としてとらえ,言語のもつ性質を明らかにしようという立場が提案された.この立場は,あるn文字の組合せがどのような頻度で生じるか(グラム)を調べることにその中心があったが,計算機の性能やテキストデータの不足などにより、大蜆模なテキストに対して、あるいは大きなnに対して言語統計を取ることが行われなかった.我々は,今日の計算機を用いるとこれが実現できると考え,大規模なテキストの任意のnについてのnグラムを簡単にとる方法を考案し,200万文字から3000万文字の中規模の日本語テキストデータに対し,nグラム統計をワークステーションを使って比較的短時間でとることに成功した.その結果,種々のnに対するnグラム統計を比較して調べることによって言葉として有意義なものが取り出せるということが明らかになった.同時にさらに大きいテキストを用いることの必要性と、可能性が明らかになった.In the process of establishing the information theory, C. E. Shannon proposed the Markov process as a good model to characterize a natural language. The core of this idea is to examine the frequency of a string composed of n characters (n-grams), but this statistical analysis of large text data and for a large n has never been carried out because of the low capability of computer and the shortage of text data. Taking advantage of the recent powerful computers to execute it, we developped a new algorithm of n-grams of large text data for arbitrary n and calculated successfully, within relatively short time, n-grams of some middle size Japanese text data containing between two and thirty million characters. From this experiment it became clear that the automatic extraction or determination of words is possible by mutually comparing the n-gram statistics for different values of n.
著者
佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.108, pp.33-40, 2004-11-04
被引用文献数
1

境界認定は、語(単位)を認定するのではなく、境界とその種別を認定する。本稿では、境界認定という考え方が生まれてきた背景と、境界認定の背後にある思想について述べる。This paper describes background and philosophy of boundary identification, which identifies boundaries and their types between linguistic units in a given sentence. The proposal of boundary identification aims to restucture Japanese sentence analysis method.
著者
藤木 稔明 南野 朋之 鈴木 泰裕 奥村 学
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.23, pp.85-92, 2004-03-05
参考文献数
8
被引用文献数
19

近年、Web上には様々な意見情報が存在している。そのため、Web上でいつ、どのような情報が注目されていたかを把握することは企業活動にとって重要な情報になりつつあると考えられている。本研究では特にblogと電子掲示板を対象とし、その中で注目されている話題を示すトピックワードを発見するための手法を提案する。提案手法は、Kleinbergの提案するburst検出手法に基づいた手法であり、 blogや電子掲示板に対する書き込みを時間情報を含む文書列であるdocument streamとして扱い、その中でdocumentの出現間隔が短くなっている箇所(burst)に注目すべきイベントがあるとして検出する。その際、Kleinbergの提案する手法ではイベント発生と無関係にdocument数が変動するようなdocument streamをうまく扱うことができないため、手法の拡張を行った。また提案手法を用いてトピックワードの抽出実験を行い、手法の有効性を評価した。The reputation is now disseminated quickly on the WWW, because everyone can send a message to the world easily by using blog or BBS. Therefore, it is highly required to find out what information attracts people's attention and what opinion they have. We propose a method for extracting `burst of a word' which is related to a popular topic in a document stream. A document stream is defined as a sequence of documents which arrive in temporal order, and we regard blog and BBS as document streams to apply the method originally proposed by Kleinberg. However, since Kleinberg's algorithm cannot be applied to the document streams whose distribution of documents is not uniform, we extend the method to be able to apply to blog and BBS. We also describe experiments for blog and BBS with our proposed method and discuss the results.
著者
長尾真
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1983, no.66(1983-NL-042), pp.1-3, 1984-03-16
著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.4, pp.77-84, 2002-01-21
被引用文献数
9

本論文では 情報検索の分野で提案されたPLSI(Probabilistic Latent Semantic Indexing)の方法を拡張したSemantic Aggregate Model を提案し 単語の持つ意味の概略を最尤推定の立場から$k$-次元の確率分布によって表現する. この表現によって 従来ベクトル空間モデルによって経験的に扱われてきた`意味'を数学的に見通しよく扱うことができる. 関連して 単語間の意味的な距離 意味的重みについての新しい指標を提案する.This paper proposes a Semantic Aggregate Model on word meanings by extending an Information Retrieval model PLSI (Probabilistic Latent Semantic Indexing.) Through the maximum likelihood estimation, this model renders approximate meanings of a word with a discrete probability distribution on latent classes. By this representation, the semantic distance and semantic weights of words can be reformulated mathematically.
著者
佐藤理史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.108, pp.25-32, 2004-11-04
参考文献数
3
被引用文献数
1

形態素解析に代わる新しい日本語文解析の第1ステップとして、「境界設定」という枠組を提案する。境界設定では、語(単位)を認定するのではなく、境界とその種別を認定する。本稿では、その考え方と表現法について述べる。This paper proposes boundary identification, a new framework of the first step of Japanese sentence analysis. Boundary identification identifies boundaries and their types between linguistic units in a given sentence. This paper describes the concept and an implementation of the framework.
著者
熊本 忠彦 田中 克己
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.1, pp.15-20, 2005-01-11
被引用文献数
4

言葉はイメージであり,明示的な意味のほかにも,様々なニュアンスを伝える.本稿では,言葉が伝えるイメージの中に,喜怒哀楽に関する情報がどの程度含まれているのかということを単語レベルで調べ,その結果に基づいて,単語と喜怒哀楽との対応関係を示す「感情辞書」を構築する.また,この感情辞書を用いて,Webニュース記事に込められている喜怒哀楽の程度を読み手側の立場で推定する手法を提案し,Yahooニュース記事(100件)を用いた被験者実験(50名)により,その有効性を検証する.なお,提案手法において,喜怒哀楽及びその程度は,2つの感情尺度「悲しい---うれしい」,「怒る---喜ぶ」に対する評価値(0~1の実数値)という形で記述され,その値は,入力記事に現れる単語(普通名詞,サ変名詞,動詞,形容詞,カタカナ)の種類から求められる.Words are a collection of concepts and transmit not only their explicit meanings but also various nuances. In information transmitted by words, various feelings may be involved. In this article, we propose a method of extracting information on two kinds of feelings from newspaper accounts on the Web and determining strength of the feelings extracted. The feelings that we target in this article are ones denoted by two scales of "sad---glad" and "angry---pleased," and their strength is represented by a real number between 0 and 1. We also propose a method of automatically constructing an emotional dictionary that represents a relationship between words and feelings to be caused by the words. We compare the results that 50 people estimated 100 articles collected from the Yahoo News site with the results that our feeling extraction method estimated the 100 articles using the emotional dictionary which our dictionary construction method automatically constructed from databases of newspaper accounts, and evaluate performance of the proposed methods.
著者
大倉 務 清水 伸幸 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.1-6, 2007-09-25
被引用文献数
3

本論文では,ブログの著者属性推定問題を扱う.ブログを用いた流行分析が広がりつつあるが,その際に年齢・性別・居住域などの著者属性が分かればその有用性はさらに高まる.これまでに,いくつかのブログの著者属性推定手法が提案されてきたが,汎用的なものではなかった.本論文では著者属性推定問題を,個々の属性固有の性質を利用しない単純な多クラス文書分類問題ととらえ,χ2値による素性選択と Complement Naive Bayes を用いる方法を提案する.その上で提案手法を現実のブログデータに適用する実験を行い,汎用的であるにも関わらず高速かつ高精度に著者属性を推定できることを示す.We propose a general and scalable method to estimate bloggers' unstated profiles. Recently, trend analysis based on weblogs is gaining popularity, and blogger profiles provide us more detailed interpretation of data. None of previous studies proposed a method generally applicable to different attributes. In this paper, we reduce blogger profile estimation to text classification, using Complement Naive Bayes with feature selection based on χ2 value. We applied our proposed general method to real weblog data, and experimental results show the its effectiveness and scalability.
著者
木下 明徳 後藤 功雄 熊野 正 加藤 直人 田中 英輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.113, pp.81-86, 2007-11-20
参考文献数
8

NHK の国際放送では 18 ケ国語が使われており,それらの放送用原稿は,日本語の原稿やその英訳原稿が翻訳され作成されている.このような翻訳作業を支援するために,我々は過去の翻訳用例を検索する「多言語用例提示システム」の開発を行っている.精度の良い検索を実現するためには,検索キーワードとなりうる単語,すなわち,内容語の認定が重要である.しかしながら,内容語 (あるいは機能語) を認定するには辞書が必要となるが,様々な言語に対して辞書を用意することは困難である.そこで,本稿では,言語が持つ統計的特徴を利用し辞書を使わない手法について述べる.また,8つの言語 (日本語,英語,フランス語,スペイン語,ロシア語,イタリア語,インドネシア語,マレー語) に対して行った,機能語認定の実験結果について報告する.NHK provides news services in 18 languages, translating Japanese news articles into English and those ones into other languages. To aid such translation work, we have been developing a translation example browser that retrieves examples similar to inputs from multi-lingual news corpora. The browser has to identify function words(or content words) in inputs by using machine-readable dictionaries to retrieve appropriate examples. However those dictionaries are difficult to be prepared for the browser in various languages. This paper proposes automatic identification methods of function words using statistic features common to many languages. We conduct a series of experiments in 8 languages, such as Japanese, English, French, Spanish, Russian, Italian, Indonesian language and Murray language.
著者
岩本 秀明 野村 浩郷
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1991, no.37(1991-NL-083), pp.7-14, 1991-05-16

法律文の言語モデルを示し、それにより法律文が持つ言語情報と論理情報の両方を共に記述する表現枠組を述べる。さらに、それらを法律文の計算機処理に応用する。法律文には構文的、意味的に制限されて用いられる語や句が多く存在する。これらを考慮すれば法律文に関する制限言語を定義することが可能となる。法律は対象や事象の間の関連を明確に定義するものであるから、法律文の意味表現のベースとして論理表現を採用する。これらより、法律文の表現枠組は、言語情報と論理情報の両方を表現できるものでなければならない。ここで述べる素性論理構造表現はそれらの要求を満たすものである。この表現枠組は、法律の知識ベースを構築し、判例の推論を機械化することへの応用をも意図したものである。
著者
兼子 次生 小谷 征勝 鈴木 努 加古 修一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.108, pp.109-114, 2003-11-06

速記には2つのやり方がある.1つは手書きによる符号速記で,もう1つは特殊なタイプライティングシステムである.今日,手書き速記は生産性改善で大きな壁に直面している.我々は,1つの解決方法は反訳自動システムであると考えている.そこで,新しい電子機械速記法,CAVER Computer Aided Verbatim Realtime Transcribing Systemを開発した.その核技術である速記符号の自動反訳法の設計の考え方について報告したい.There are Two types of Shorthand. One is Line Writing System by hand, the other is Specialty Typewriting system. Today, Manual Shorthand has been faced big wall in improving productivity. We think one solving way should be the Automatic Transcribing System. We have developed a new Electronic Machine Shorthand System named CAVER. Here we should like to report the core part, our concept of designing Transcribing Stenographic Signs.
著者
岡野原 大輔 辻井 潤一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.59-64, 2008-09-17

本稿では,全ての部分文字列が素性として利用される文書分類モデル,及びその効率的な学習,推定手法を提案する.文書分類に有効な部分文字列は,単語と異なる場合や,署名やテンプレートなど,非常に長くなる場合が少なくない.しかし,部分文字列の種類数は文書長の二乗に比例するため,それらを素性として直接用いて学習することは,計算量的に困難だった.本稿では,テキスト長に比例する個数のみ存在する極大部分文字列に関する統計量を扱うことで,有効な部分文字列を漏れなく求めることができることを示す.また,拡張接尾辞配列を用いることで,これらを効率的に列挙可能であり,全文書長に比例した時間で学習可能であることを示す.さらに L1 正則化を適用することで,コンパクトな学習結果が得られ,高速な推定が可能であることを示す.このモデルは,形態素解析結果や TF/IDF などの統計量と組み合わせられることを示し,従来の単語ベースの Bag of Words 表現と比較し,精度が向上することを示す.This paper presents a novel document classification method using all substrings as features. Although an effective substring for a document classification task is often different from tokenized words, the number of all candidate substrings is the quadratic of the length of a document, and a learning using all these substrings as features requires a prohibitive computational cost. We show that all effective substrings can be computed exhaustively by checking only maximal substrings, which can be enumerated in linear time by using enhanced suffix arrays. Moreover, we use L1 regularization to obtain a compact learning result, which makes an inference efficient. We show that many prior weights (tf, idf, other tokenized result) can be included in this method naturally. In experiments, we show that our model can extract effective substrings, and more accurate than that of word-base BOW representation.
著者
竹元 義美 福島 俊一
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.77(1994-NL-103), pp.105-112, 1994-09-15

日本語文章の口語的表現に対応した形態素解析手法を提案し、その評価結果を報告する。広い分野のテキスト処理を想定した場合に口語的表現の形態素解析は重要であるものの、その精度は十分とは言えなかった。本稿では、口語的表現を正しく形態素解析するために2つの手法を示す。1つは、口語特有の言い回しを辞書登録すること、もう1つは、通常は平仮名表記する語を意図的に片仮名表記するなど、表記を変えた強調表現を通常の表記に直して辞書検索することである(口語置換検索処理)。これらの手法を実現した結果、口語的表現を多く含むテキストの文節区切り精度が1.8%向上し、テキストのタイプによらず安定した高い精度を得ることができた。辞書登録では、話し言葉特有の語の登録によって、文節区切りに失敗していた話し言葉の88%を正しく解析できた。口語置換検索処理では、形態素解析に失敗していた意図的な片仮名表記の75%、強調表現で特殊文字を含む単語の79%を救済できた。
著者
竹元 義美 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.77, pp.105-112, 1994-09-15
被引用文献数
2

日本語文章の口語的表現に対応した形態素解析手法を提案し、その評価結果を報告する。広い分野のテキスト処理を想定した場合に口語的表現の形態素解析は重要であるものの、その精度は十分とは言えなかった。本稿では、口語的表現を正しく形態素解析するために2つの手法を示す。1つは、口語特有の言い回しを辞書登録すること、もう1つは、通常は平仮名表記する語を意図的に片仮名表記するなど、表記を変えた強調表現を通常の表記に直して辞書検索することである(口語置換検索処理)。これらの手法を実現した結果、口語的表現を多く含むテキストの文節区切り精度が1.8%向上し、テキストのタイプによらず安定した高い精度を得ることができた。辞書登録では、話し言葉特有の語の登録によって、文節区切りに失敗していた話し言葉の88%を正しく解析できた。口語置換検索処理では、形態素解析に失敗していた意図的な片仮名表記の75%、強調表現で特殊文字を含む単語の79%を救済できた。This paper presents a new morphological analysis method for colloquial Japanese text, and describes its evaluation results. To enlarge application for natural language processing, it is necessary to deal with not only written language as before, but also colloquial language. This paper shows two techniques as the new method. One is to enter words peculiar to spoken language in dictionaries. The other is to replace words written in Katakana or special characters with usual writing and search through dictionaries for them. The two techniques can improve Bunsetsu-segmentation accuracy by 1.8% over a conventional method for text including colloquial expressions, and also accomplish stable accuracy for various types of text. The first technique can remove 88% of Bunsetsu-segmentation failures caused by spoken words. The second technique can remove 75% of failures caused by words written in Katakana expressly for emphasis, and 79% of failures caused by words written in special characters expressly for emphasis.
著者
森 信介 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69, pp.7-12, 1995-07-20
被引用文献数
14

自然言語処理において、辞書は単語の文法的機能や意味の情報源として必要不可欠であり、辞書に登録されていない単語を減少させるため、辞書の語彙を増強する努力がなされている。新語や専門用語は絶えず増え続けているため、辞書作成の作業は多大な労力を要するのみならず、各解析段階での未知語との遭遇は避けらず、大きな問題の一つとなっている。この問題を解決するため、本論文では、nグラム統計を用いて、コーパスからの単語の抽出とその単語が属する品詞の推定を同時に行なう方法を提案する。この方法は、同一品詞に属する単語の前後に位置する文字列の分布は類似するという仮定に基づく。実験の結果、本手法が未知語の品詞推定や辞書構築に有効であることが確認された。Dictionaries are indispensable for NLP as a source of information of grammatical functions or meanings of words. Much endeavor is being made to reinforce their vocabulary. Given continuous increase of new words or technical terms, building a dictionary takes vast effort and unknown words are inevitable at any step of analysis and this causes a grand problem. To solve this problem, we propose a method to extract words from a corpus and estimate part-of-speeches (POSs) which they belong to simultaneously using n-gram statistics, based on the supposition that distributions of strings preceding or following words belonging to the same POS are similar. Experiments have shown that this method is effective to infer the POS of unknown words and build a dictionary.
著者
小山 照夫 影浦峡 竹内 孔一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.124, pp.55-60, 2006-11-22
参考文献数
7
被引用文献数
8

テキストコーパスからの用語抽出は、自然言語処理技術の重要な応用である。従来テキストコーパスから用語候補を抽出する方法として、主として候補出現に関わる統計的指標を用いて用語性を判定する方法が採用されて来たが、統計的手法では出現頻度の低い候補についての判定が困難であった。今回の発表では、複合語に注目し、用語性を損なう形態素出現パターンを排除する形での用語候補抽出を行うことにより、高い精度で複合語用語抽出が可能となることを示す。Term extraction is one of the most important application of natural language processing technologies. Statistic criteria are widely adopted to evaluate the termhood of the extracted candidates. However, it is difficult to evaluate the termhood of less frequent candidates. In this study we propose a method for Japanese composite term extraction in which unproper morpheme patterns are eliminated. Using the new method, high precision of term extraction can be attained for Japanese composite terms.
著者
東 藍 浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.53, pp.67-74, 2006-05-19
被引用文献数
5

本稿では,日本語形態素解析において問題となる未知語処理に対して条件付確率場(ConditionalRandomFields CRF)を適用する手法を提案する.提案手法では,形態素解析と同時に入力文中の部分文字列に対して未知語候補を追加することにより,形態素解析と未知語処理を同時に行う.また,従来最大エントロピーマルコフモデル(MaximumEntropyMarkovModelMEMM)などを適用した手法で指摘されてい0たlabelbiasあるいはlengthbiasの影響は,単に既知語の解析において問題になるだけではなく,未知語処理においても重要な問題となることを示し,CRFを適用することによりこれらの問題が解決されることを示す.そして大規模な正解タグ付コーパスを用いて実験し,本稿の提案手法の有効性を検証したThis paper proposes a new method forJapanese morphological analysis with unknown word (i,e out-of vocabularyword)processing The Japanese morphological analysis is based on conditional random fields(CRF)on a word trells.In the word trellis,the analyzer expands not only knownwords(i・ein-vocabularyword)but also substrings in a sentence as word candidates Kudo(Kudo 2004)discussed an issue that maximum entropy Markov model(MEMM)has label as well as length bias problems in known word processing and CRFs have potential to cope with them.We discuss the same issue in unknown word processing.Evaluation experiments on large-scale corpora show the effectiveness and impact on the proposed method.
著者
竹内 孔一 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.22, pp.17-24, 1999-03-04
被引用文献数
3

近年,インターネットの普及により,OCRを用いたテキストの電子化がますます重要な課題となってきた.日本語OCR誤り訂正の先行研究において統計的言語モデルを利用して訂正対象と同じ分野の学習コーパスを用意することで高精度の訂正能力を示す研究がある.しかし,電子化された大量テキストコーパスを期待できない場合が多い.そこで電子化されたコーパスがない分野に対して,OCR処理された誤りを含むテキストから学習を行なうモデルを構築する.この時,辞書に無い未知語獲得もOCR処理されたテキストから行なう.実際にOCR処理されたテキストに対する訂正実験の結果,学習コーパスと訂正対象の分野が一致していた先行研究に比べ約1/4程度の訂正精度を示したことを報告する.In recent years, OCR error correction is becoming more and more important technique for the purpose of converting printed texts into electronic ones on computers. As a previous work, there are some studies of OCR post processor which show high performance of error correction when they use a large on-line corpus which is the same domain as their target of correction. However, we cannot prepare large on-line corpus at every domain. In this paper, we present an OCR error correction method which uses OCR's output texts in a domain in which no large scale training text exists. We also show some methods to get unknown words using OCR's output texts. When our method is applied to error correction of OCR's output texts, the experimental results shows that the performance is quarter as much as our previous result in which target text and a on-line corpus are of the same domain.
著者
森 信介 土屋 雅稔 山地 治 長尾 真
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.48, pp.93-99, 1998-05-28

本論文では、確率的モデルによる仮名漢字変換を提案する。これは、従来の規則とその重みに基づく仮名漢字変換と異なり、入力に対応する最も確率の高い仮名漢字混じり文を出力とする。この方法の有効性を確かめるため、片仮名列と仮名漢字混じり文を有するコーバスを用いた変換実験を行ない、変換精度を測定した。変換精度は、第一変換候補と正解の最長共通部分列の文字数に基づく再現率と適合率である。この結果、我々の提案する手法による再現率は95.07%であり、適合率は93.94%であった。これは、市販の仮名漢字変換器の一つであるWnn6の同じテストコーパスに対する再現率(91.12%)と適合率(91.17%)を有意に上回っており、確率的モデルによる仮名漢字変換の有効性を示す結果となった。In this paper, we present a kanji-kanji converter by a stochastic model. Given an input this method returns the most probable kana-kanji character sequence. For its evaluation, we converted kana sequences of a corpus containing kana-kanji sequences. The criterion we used is the ratio of the length of longest common subsequece. The recall and precision of our method are 95.07% and 93.94% respectively. This result is much better than that of Wnn6 (recall: 91.12%; precision: 91.17%).
著者
友清 睦子 鈴木 雅実
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1991, no.67(1991-NL-084), pp.151-158, 1991-07-18

The primary goal of this paper is a statistical investigation of the comparative form of Japanese Spoken Language using appropriable data from the ATR spoken language corpus. The analysis includes the choice of comparative phrase markers as well as more general comparative form phenomena. In addition the paper also examines the semantics of the Japanese comparative form and compares them with those of the English and French comparative forms. Also considered are the problems of describing the comparative form in a dictionary oriented J-E MT telephone conversation task. Finally some examples of description following the markers of the Japanese comparative form are shown.