文献一覧: 情報処理学会研究報告自然言語処理(NL) (雑誌)

1 0 0 0 拡張LINGOLのn進木への拡張

著者: 畝見達夫田中穂積市川惇信
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1980, no.1, pp.1-10, 1980-04-18

コンピュータによる自然言語処理は様々な面で、その重要性を増しつつあるが、本研究では、そのための道具の一つとして、1978年に電総研で開発された「拡張LINGOL」をベースに、より柔軟な文法規則表現が可能なパーザを基礎とする自然言語処理のためのプログラミングシステムを作成した。LINGOLは文脈自由文法を基礎にしてはいるものの、実際に計算機上で動かすという都合上、各文法規則における右側非終端記号の記述個数を高々2つに制限しており、そのため、非終端記号および文法規則の数が増し、文法大系の記述が繁雑になるという欠点を有していた。本研究では、その記述個数制限をなくし、それに加えて、非終端記号の不定数回繰り返しの指定も許すこととし、より柔軟な文法表現を可能にした。本システムによる構文解析木がn進木となることから、これを「n進木LINGOL」と呼ぶことにする。尚、こういった機能拡張に伴い、システム自体のプログラムをほぼ全面的に作成し直す結果となった。

2019-03-20 13:01:10
1 + 0 Twitter

https://ci.nii.ac.jp/naid/170000045406

1 0 0 0 OA 全ての部分文字列を考慮した文書分類

著者: 岡野原大輔辻井潤一
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.2008, no.90(2008-NL-187), pp.59-64, 2008-09-17

本稿では,全ての部分文字列が素性として利用される文書分類モデル,及びその効率的な学習,推定手法を提案する.文書分類に有効な部分文字列は,単語と異なる場合や,署名やテンプレートなど,非常に長くなる場合が少なくない.しかし,部分文字列の種類数は文書長の二乗に比例するため,それらを素性として直接用いて学習することは,計算量的に困難だった.本稿では,テキスト長に比例する個数のみ存在する極大部分文字列に関する統計量を扱うことで,有効な部分文字列を漏れなく求めることができることを示す.また,拡張接尾辞配列を用いることで,これらを効率的に列挙可能であり,全文書長に比例した時間で学習可能であることを示す.さらに L1 正則化を適用することで,コンパクトな学習結果が得られ,高速な推定が可能であることを示す.このモデルは,形態素解析結果や TF/IDF などの統計量と組み合わせられることを示し,従来の単語ベースの Bag of Words 表現と比較し,精度が向上することを示す.

2019-02-19 22:16:32
1 + 2 Twitter

http://id.nii.ac.jp/1001/00047681/

1 0 0 0 OA 法律条文の標準構造 -自然言語による法知識処理をめざして-

著者: 田中規久雄川添一郎成田一
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1993, no.79(1993-NL-097), pp.79-86, 1993-09-16

法律条文(法文)の構造的特徴に着目し、法知識ベースをはじめとする、機械処理に適するモデルの構築をめざす。本研究では、「要件・効果論」が法律条文の基本的認知構造であるとし、法律条文を、「要件・効果」をあらわす典型的な表面表現(「標準構造」と呼ぶ)に変換することによって形式化する。さらにその意味構造については、「法文概念構造(gal Provision Concept Tree Structure [LP?CTS])」を想定して解析することにより、法律条文の形式的な知識の記述や操作を可能にする。

2019-02-02 15:45:04
1 + 0 Twitter

http://id.nii.ac.jp/1001/00049346/

1 0 0 0 4択クイズを連想問題として解く

著者: 外池昌嗣佐藤理史宇津呂武仁
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2004, no.47, pp.53-60, 2004-05-14
参考文献数: 10

解の選択は質問応答システムのコンポーネントの1つで、何らかの方法で得られた解候補の中から信頼できるものを選ぶものである。本研究では語と語の連想の強さに注目して解の選択を行う。本稿では、問題文から抽出されたキーワードと解候補の間の語彙的な関係の強さに基づく解の選択法を提案する。提案する解の選択法は2つのステップに分けられる。1つ目のステップでは、語の特徴と語彙的関係の強さを用いて、問題文から適切なキーワードを抽出する。一方、2つ目のステップでは、サーチエンジンのヒット数に基づいて、キーワードと解候補の間の関係の強さを測定する。実験の結果、提案手法で4択クイズ「クイズ$ミリオネア」の79%を解くことができた。Answer validation is a component of question answering system, which selects reliable answer from answer candidates extracted by certain methods. In this paper, we propose an approach of answer validation based on the strengths of lexical association between the keywords extracted from a question sentence and each answer candidate. The proposed answer validation process is decomposed into two steps: the first is to extract appropriate keywords from a question sentence using word features and the strength of lexical association, while the second is to estimate the strength of the association between the keywords and an answer candidate based on the hits of search engines. In the result of experimental evaluation, we show that a good proportion (79%) of a multiple-choice quiz "Who wants to be a millionaire" can be solved by the proposed method.

2019-01-12 09:45:19
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002911712

1 0 0 0 サンプリング技術を利用した文章類似性評価

著者: 山田一郎中田洋平松井淳松本隆三浦菊佳住吉英樹八木伸行
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2007, no.76, pp.127-132, 2007-07-25
参考文献数: 13

テレビ番組のナレーションでは、「場所紹介」や「人物紹介」など特定の事柄を表現するために同じような言い回しが多用される。このような言い回しを含む文章区間が抽出できれば、対応する番組映像区間の場所紹介や人物紹介といったメタデータを付与することができる。本稿では、番組のクローズドキャプションから特定の事柄を表現する文章に類似した文章を抽出するために、文章間の類似性を評価する手法を提案する。提案手法では文章を構文解析した結果、得られる木構造中の部分木を特徴とし、この特徴をサンプリングして学習する GibbsBoost アルゴリズムを用いて文章間の類似性を評価する。紀行番組のクローズドキャプションを対象として、場所を映像とともに説明する定型表現文章区間にある文章との類似性を評価する実験を行い、提案手法の有効性を確認した。In the closed captions, there are a lot of typical expressions to express specific things, for example, first introduction of a guest in a talk show or explanation of a place in travel program. Such information helps us to put metadata to the corresponding scenes. This paper proposes a method to evaluate the similarity between multiple sentences in order to extract a section in which sentences are similar to the typical expressions expressing specific things. The first step generates tree structures from input section of sentences and extracts subtrees from these tree structures. We use Gibbsboost algorithm which samples these subtrees for features and learns the features to evaluate the similarity. In the experiment of judging whether a section of sentences is similar to the section which explains a place with video targeting closed captions of TV programs concerned with travel, we show the effectiveness of our method.

2019-01-09 19:45:21
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110006381172

1 0 0 0 AdaBoostを利用した字幕テキストからの定型表現文章区間抽出

著者: 山田一郎三浦菊佳住吉英樹八木伸行奥村学徳永健伸
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2006, no.82, pp.25-30, 2006-07-27
参考文献数: 9
被引用文献数: 2

テレビ番組のナレーションでは、「場所紹介」や「人物紹介」など特定の事柄を表現するために同じような言い回しが多用される。このような言い回しを含む文章区間が抽出できれば、対応する番組映像区間の場所紹介や人物紹介といったメタデータを付与することができる。そこで本稿では、番組のクローズドキャプションを対象として定型表現を含む文章区間を抽出する手法を提案する。提案手法では、複数文のテキストデータから木構造を生成して、木構造間の類似性を木構造に含まれる部分木の類似度により評価する。この結果を弱学習器としたAdaBoostアルゴリズムにより学習を行い定型表現か否かの判定を行う。紀行番組のクローズドキャプションを対象として、場所を映像とともに説明する定型表現文章区間を抽出する実験を行い、提案手法の有効性を確認した。In the closed captions, there are a lot of typical expressions to express specific things, for example, first introduction of a guest in a talk show or explanation of a place in travel program. Such information helps us to put matadata to the corresponding scenes. This paper proposes a method to extract a section including typical expressions. The first step generates tree structures from inputted section of sentences and evalutes the similarities between those tree structures. We use these similarities as weak larners of adaboost algorism to judge whether the section of sentences includes typical expressions or not. In the experiment of detecting sections including typical expressions which explain a place with video targeting closed capitions of TV programs conserned with travel, we show the effectiveness of our method.

2019-01-09 17:00:26
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110004824242

1 0 0 0 Amazonレビュー文の有用性判別実験

著者: 山澤美由起吉村宏樹増市博
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2006, no.53, pp.15-20, 2006-05-19
参考文献数: 8
被引用文献数: 2

商品や映画についてその感想などを記述した主観的な評価文書はインターネットなどを通して容易に入手可能となっている.評価文書はその商品の購入あるいはその映画の鑑賞を検討する人(ユーザー)にとって有用な情報を含む.しかしその数は膨大であり書き手の性質や趣向がわからないことも多い.そこで本研究では書き手の性質や趣向がわからなくてもユーザーが内容を信用して利用できる文(有用文)を自動抽出することを目的とした.ユーザーの視点を中心に据えたSVMによる有用文分類実験を実施した結果形態素情報のみを用いた場合でも我々の提案するスクリーニング手法を用いることによって最大で82%のAccuracyで有用性判別が可能であることがわかった.This paper presents a new approach to review sentence classification that aims for distinguishing whether the sentence in a review is useful or not from the users' point of view. Amazon customer reviews for instance,are easily collected but the amount is huge and the author's character is not clear to the users. We define users as persons that try to use the infbrmation in the reviews to determine whether to purchase the product or not.We propose a screening technique in order to improve the accuracy of useful sentence extraction.In experunents on Amazon review datasets,our SVM classifiers using screened morpheme information obtained 82% inaccuracy.

2018-08-02 07:30:33
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110004824227

1 0 0 0 OA SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 -言語編-

著者: 松本裕治武田浩一永田昌明宇津呂武仁田代敏久山下達雄林良彦渡辺日出雄竹澤寿幸
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1998, no.48(1998-NL-125), pp.1-8, 1998-05-28

近年,電子化テキストの急激な増加,および,インターネットによる一般利用者の電子媒体への日常的なアクセスに伴って,言語処理研究と言語に関する実用技術の間のギャップが徐々に狭まってきており,実用的な自然言語処理研究という言葉が真に現実的な意味を持ち出してきた.本報告では,そのような実用的言語処理技術の事例のいくつかを「ここまでできるぞ言語処理技術」というタイトルで紹介する.

2018-05-29 09:14:26
1 + 0 Twitter

http://id.nii.ac.jp/1001/00048867/

1 0 0 0 キーワード法による諺の検出のモデル

著者: 土井晃一金原史和田中英彦
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1992, no.93, pp.49-56, 1992-11-19

計算機上で自然言語理解を行なう際には文字通りの意味の解析だけでは不十分である。ここではそういうものの一つとして諺をあげる。自然言語理解の応用としてまず考えられるのは機械翻訳である。全世界で刊行される雑誌、新聞等は発行部数が多い。毎日のように新しく刊行されている。なるべくなら母国語で読みたいものだが、人手ではとても間に合わない。しかも現在の機械翻訳ではほとんど扱えない、諺や比喩が頻繁に使われている。現在の機械翻訳では慣用表現は扱うようになってきた[1]が諺のように大きな単位はまだ扱われていない。文章の中心的意味がここで表現されていることが多い。多くは直訳できるがそうでないものも多い。ここの翻訳を間違えると文章全体の意味が通じなくなってしまう。現在の機械翻訳の仕組みから考えて、意味処理をしてから諺などの検出はしにくい。諺のところで構文解析、意味解析が失敗してしまうことが多い。早期に諺などを検出することにより、構文解析、意味解析、文脈・状況理解の助けになる。諺を検出する際に必要なことは、どこで、どういう形で使われているかである。単に辞書をひくだけでよいこともある。この場合は形態素解析とおなじことになる。諺という品詞を一つ増やせば良い。例えば「馬の耳に念仏」という例だと、この通りにこの場合は「名詞」として辞書に登録すれば良い。しかし諺が少しでも変化するとこの方法は使えなくなる。特に会話文等にこの傾向は顕著である。例えば「何とかとハサミは使いよう」という例が挙げられる。本論文ではこのように変化した諺を可能な限り検出する方法を提案する。Only the analysis of literal meaning comaprehension is not enough for natural language comprehension on computer. In this paper, proverb is treated in the example of non-literal meaning. Machine translation is considered that application of the research of natural language comprehension. There are many journals and newspapers which are published in the world every day. In these, proverb and metaphor are used frequently. They often have a central maening of the sentences. The-state-of-art machine translation cannot treat such proverb and metaphor. Syntax analysis, maening analysis and context analysis can be easily done when the proverbs are detected in the earlier stage of natural language comprehension. We research the variation of proverbs. We propose the keyword method to detect various proverbs.

2018-05-01 15:45:23
1 + 0 Twitter

https://ci.nii.ac.jp/naid/170000044800

1 0 0 0 法令改正に関する日本語の処理

著者: 佐藤雅之岡本哲也
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1978, no.17, pp.1-10, 1978-09-08

法令検索(法律情報検索)には、法令用語検索、該当条文検索、関係条文検索、改〓経過検索、判例検索などがある。現在欧米で発表されているいくつかの実用システムは、基本的には文献検索の技法を準用している段階にある。本研究は、改〓経過の検索に関連して、既存の法律(被改正令)が、その一部の改正を目的とする法令(一部改正令)に、基ずき改正される場合について、改正の内容を規定する文(改正の柱書)が慣習的に定まった書式と用語で書かれているため高度の構文分析・意味分析を必要としない点に着目し、実用化を目標に、法令の改正と改正経過(改正の種類、年月日、法律番号)の蓄積を行なうシステムを作成することを目的としている。システムは、被改正令の構造決定、一部改正令の解釈、新しい法令の生成と改〓経過の蓄積、新法令と改〓経過の出力の4つのプログラムからなる。今回は、標本として『大気汚染防止法』(昭和四十三年法律九十七号、約12800字)と『大気汚染防止法の一部を改正する法律』(昭和四十五年法律第百三十四号、約13400字)を選んで実験し(東大計算機センターHITAC 8800 8700使用)、所期の結果を得た。以下、法令の定義、システムの概要、実験結果について報告する。

2018-04-20 00:30:26
1 + 0 Twitter

https://ci.nii.ac.jp/naid/170000045428

1 0 0 0 組み合わせ的確率モデルに基づく特徴単語選択方法 -超幾何分布の応用-

著者: 久光徹丹羽芳樹
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2000, no.107, pp.85-90, 2000-11-21
参考文献数: 4
被引用文献数: 5

与えられた文書集合を特徴付ける単語を選出することは,様々に応用できる有用技術である。「文書集合を特徴付ける」を,「文書集合中に特異的に多く現れる」と解釈し,これを捉えるために,文書集合D中の単語wに対し,以下の確率値に基づく重み付けを提案する。すなわち,全文書D_0中の単語数をN,wのD_0中での頻度をK,Dの単語数をn,wのD中での頻度をkとしたとき,「N個の玉の中にK個の赤い玉があるとき,任意に取り出したn個の玉の中に赤い玉がk個以上含まれる確率」が小さいほど,wに大きな重みを与えるのである。この指標の有効性を,5指標に関する比較実験により示し,併せて上記の確率の効率的計算方法を述べる.This paper proposes a method of selecting "characteristic words" from a document set. The selection is done by using the weight that is assigned to each word in the document set. The weight is calculated by using the hypergeometric distribution. A comparative evaluation of five methods of word weighting (including tf-idf and SMART) revealed that the proposed method is superior to existing methods. An effiecient method of calculating the hypergeometric probability is also shown.

2018-04-17 00:45:23
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002935251

1 0 0 0 メールの文章における段落間の接続の強さの推定

著者: 西村涼大田康人渡辺靖彦村田真樹岡田至弘
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2008, no.67, pp.85-90, 2008-07-10
参考文献数: 12

メールの文章は他の文書なら改段落しない場合でも、「見やすさ」、「読みやすさ」を重視して改段落をする場合がある。こうした過剰で不要な段落わけは、メールの機械処理にとって問題である。そこで、メールの文章における段落間の接続の強さを機械学習によって推定する方法を提案し、過剰な段落わけを検出できることを示す。In order to improve the readability, we often segment mail text into smaller paragraphs than necessary. However, this oversegmentation is a problem of e-mail text processing. In this paper, we proposed an estimation method of connectivity between paragraphs in mails using machiene learning technieques, and showed that paragraphs which should be one paragraph can be found by detecting strong connectivity.

2018-03-09 03:30:27
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110006862529

1 0 0 0 機械翻訳システムの社会的役割

著者: 田中康仁
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1991, no.7, pp.103-109, 1991-01-17

機械翻訳システムはAI研究者の知的関心事ではなく、社会的重要な道具として活動を開始しはじめだした。それは3つの側面があり、一つは技術導入にはたす役割であり、二つ目は製品の輸出に必要な各種ドキュメントの翻訳であり、他の一つは科学技術の輸出である。機械翻訳システムは今後、研究開発に多額の資金を要するようになるであろう。この時に誤った判断がなされないようにとの思いから機械翻訳システムの社会的役割を考えてみた。The machine translation is not just an AI researchers' matter of concern now. It is becoming an important means of communication in society. There are three applications where the machine translation is expected to play a certain role. They are technology transfer, translation of documents needed for export of products and export of science and technology. The machine translation system will require a large amount of money for further research and development. I wrote this report to consider what kind of role it should play in society in order to prevent improper judgment in investment making.

2018-03-07 15:00:50
1 + 0 Twitter

https://ci.nii.ac.jp/naid/170000044951

1 0 0 0 英語テキストからの情報抽出 MUC第6回大会の参加報告

著者: 若尾孝博
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1996, no.65, pp.77-83, 1996-07-18
参考文献数: 7
被引用文献数: 11

電子化されたテキストからの重要な情報を抽出する技術は近年米国を中心に盛んに研究されて来ている。この報告では米国のARPAが支援するMUC(essage Understanding Conferenc)で行われて来た情報抽出研究の過去9年間の移り変わりと最新のMUC(第6回大会、95年11月)の研究成果について詳しく紹介する。これまでの大会では、予め定められたテンプレートを埋めることが情報抽出作業の中心であったが、第6回大会では作業が4種類に分割され、各作業別にシステムの評価が行われた。Information extraction (IE) has been actively researched in recent years in the United States. In this report, an ARPA-supported US project, the Message Understanding Conference (MUC) is introduced including its 9-year history, and the results of the latest MUC convention (the 6th convention, November 1995) are reported in detail.

2018-02-26 22:45:28
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002934944

1 0 0 0 OA ラダリング型検索サービスのための対話エンジンの設計・開発

著者: 北村美穂子下畑さより介弘達哉池野篤司坂本仁折原幾夫村田稔樹
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.2008, no.67(2008-NL-186), pp.97-102, 2008-07-10

近年インターネットの普及と価値観の多様性の拡大により,様々なサービスやコンテンツが提供される時代になっているが,多種多様化しているサービスやコンテンツは様々な言葉や形式で表現されているため,従来のキーワード型の検索サービスだけでは自分のニーズに合ったものを見つけることができない.我々は,対話システムにおいて,「対話の中で徐々に掘り下げた質問を繰り返すことにより,ユーザの真のニーズや価値観を引き出す」ラダリング手法を用いることによりシステムがユーザに質問を投げかけ,ユーザが単独では表現できなかったキーワードや表現を引き出し,多種多様でかつ大量のサービスやコンテンツの中からそれとマッチするものを探し出す「ラダリング型検索サービスシステム」を構築した.本稿は,対話エンジン部を中心に本システムの全体概要を説明する.

2017-11-16 22:09:50
1 + 0 Twitter

http://id.nii.ac.jp/1001/00047705/

1 0 0 0 OA Conditional Random Fieldsを用いた日本語形態素解析

著者: 工藤拓山本薫松本裕治
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.2004, no.47(2004-NL-161), pp.89-96, 2004-05-14

本稿では Conditonal Random Fields (CRF) に基づく日本語形態素解析を提案する. CRFを適用したこれまでの研究の多くは単語の境界位置が既知の状況を想定していた. しかし日本語には明示的な単語境界が無く単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である. 本稿ではまず単語境界が存在する問題に対するCRFの適用方法について述べる. さらに CRFが既存手法(HMM MEMM) の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す. CRFは階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし label biasやlength biasを低減する効果を持つ. 前者はHMM の欠点であり後者はMEMMの欠点である. また 2つの正則化手法(L1-CRF/L2-CRF) を適用しそれぞれの性質について論じる.

2017-10-16 15:53:17
1 + 0 Twitter

http://id.nii.ac.jp/1001/00048176/

1 0 0 0 命題-モダリティ構造に対応する階層構造の解析

著者: 小橋洋平坂野達郎
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2007, no.35, pp.71-76, 2007-03-29

本稿では、日本語学の分野において古くから指摘されてきた日本語文の階層構造について議論する。モダリティ論によると、日本語文は客観的な事柄を表す命題と心的態度を表すモダリティからなり、モダリティが命題を内包する構造を取る。この階層構造を解析することで、命題とそれに対する心的態度の情報を取り出すことが可能になると考えられる。我々は、階層構造の解析を、従来の係り受けを部分的に解析するものとして捉え、朝日・毎日・産経・読売新聞の社説記事を対象に、SVM に基づく既存の統計的な係り受け解析を行った。そして、階層構造と重要な関わりのあるモダリティと従属節の情報を素性に加えてその有効性について検証した。In this paper, we discuss the method to analyze Japanese hierarchical structure suggested by some researchers of Japanese Linguistics. According to the theory of modality, Japanese sentence consists of "proposition" that expresses objective thing and "modality" that expresses speaker's attitude, and modalities put proposition around. If we analyze the hierarchical structure, we can get the proposition and speaker's attitude toward it. In our study, we selected a general method for analyzing Japanese dependency structure based on Support Vector Machines for the analysis.

2017-08-22 16:15:10
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110006248070

1 0 0 0 OA 日本語構文解析システム「KNP」のハングル化とそれを用いた日本語から韓国語への対照分析

著者: 黄道三黒橋禎夫長尾眞
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1994, no.77(1994-NL-103), pp.121-128, 1994-09-15

実際文では,非文ともいえるほどの文も使われる場合があり,文を限定されたルールによって解析するには限界がある.韓国語は語順が自由で,不規則が多い言語であるため,決まったルールでは解析できない場合が多い.最近,用例パターンとの類似性に基づいて日本語文を解析するシステム「KNP」が開発され,構文解析において96%という高い成功率を表している.これは,長い日本語文には並列構造になっている文節が多いので,これらを先にまとめることによって,長い文を簡単な構造に解析することができるという考え方に基づいている.日本語と韓国語とは構文構造と語彙形成形熊とにおいて似ているので,KNPは韓国語にもうまく働くと考え,KNPのハングル化()を試みた.330文に対して実験を行なったところ,韓国語の長い文にも十分に有効であることがわかった.また,日本語180文とそれを訳した韓国語文を各々KNPとhKNPで構文解析し,日本語から韓国語への対照分析を行なった結果,すべての文において文節の順序が一致しており,74文(%)の構文構造が完全に一致していることがわかった.

2017-08-04 14:11:00
1 はてなブックマーク

http://id.nii.ac.jp/1001/00049259/

1 0 0 0 組織情報を用いた人名の暖昧性解消方式

著者: 相薗敏子
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2006, no.82, pp.1-6, 2006-07-27
参考文献数: 8

人名文字列とそれに対応する実体としての「人」には同姓同名による暖昧性がある。本研究ではまず,テキストに出現する人名の暖昧性ついて営業日報データ7 600件を対象に調査を行った。その結果,営業日報データには延べ5 778件の人名が出現しており,そのうち55%に同姓同名による暖昧性が存在し,文字列だけで「人」を同定すると最大52人の「人」を同一人物としてしまう可能性があることが分かった。これに対して,本研究では人名と同じ文に出現する組織名を利用した暖昧性解消アルゴリズムを提案する。先の営業日報データを用いた実験では,暖昧性のある人名に対して89%の精度で正しく「人」に同定できるという結果を得た。In this paper, I discribe the identification issue of parson name which appeared in text. I explore 5,778person names which are extractde from 7,600 sales reports, 55% of them are ambiguous due to multiple candidates in identifiable person list. Also this result shows 52 people with people with the same surname at the maximum may be treated as one person. In order to resolve this problem, I propose an algorithm using organization name which co-occur with person name in the same sentence. In an experiment using the sales reports, 89% of the ambiguous person names are identified correctly.

2017-07-21 07:45:09
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110004824238

1 0 0 0 インターネット情報監視システムの試作

著者: 永井明人増塩智宏高山泰博鈴木克志
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2003, no.23, pp.125-130, 2003-03-06
参考文献数: 9
被引用文献数: 1

インターネットでは一般からの情報発信が盛んになり、企業や製品に関する消費者の生の声(風評)が広く公開されるようになった。そこで、これらの大量の風評からクレームを抽出して、迅速なクレーム対応を実現する要求が企業において急速に高まっている。こうした要求を背景として、Web上に広がる企業や製品のクレーム情報を抽出して監視するインターネット情報監視システムを試作した。特徴は、(1) 文内の単語共起照合に基づく精密なクレーム抽出、(2) 収集したクレーム情報をマクロに時系列分析して、クレームの急増を検知するトレンド分析、(3) Web全文検索エンジンと掲示板クローラを組合わせた、大量・最新文書の収集、である。本稿では、この試作システムの概要を述べる。This paper describes an internet watching system which enables to extract consumer claims automatically from an internet. Reputation of enterprises or products latent so far is coming to appear and spread fast in an internet because everyone can send and read many messages easily in the internet. Then, it is highly required to find claims for the enterprises in order to cope with the claims quickly in terms of risk management. So we have developed and prototyped the system which is characterized by technologies of automatic claim extraction, trend analysis of claims and collection of numerous and latest documents.

2017-06-20 04:00:09
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002911601