文献一覧: 情報処理学会研究報告自然言語処理(NL) (雑誌)

1 0 0 0 OA 共起関係に注目したDM分解と確率的推定による単語のクラスタリング

著者: 松川智義中村順一長尾真
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1989, no.40(1989-NL-072), pp.1-8, 1989-05-19

自然言語処理のシステムを構築する際に用いられる単語の分類を客観的なデータ解析から得る方法がいろいろと提案されている.その中には,単語の共起に関する実例データ(共起データ)を用いて単語を分類するというアプローチがある.ところが,それらの多くが前提としている単語間の「距離」(意味的な遠さ)だけで,多様な単語の意味を表現することには限界がある.また,実際の共起データには様々な「雑音」が混ざっている.本研究では,共起データに基づいた,「距離」という考え方を用いない,「雑音」に強い,単語のクラスタリング・アルゴリズムを作成した.

2017-06-05 11:05:50
1 + 0 Twitter

http://id.nii.ac.jp/1001/00049668/

1 0 0 0 OA 代動詞DOの考察

著者: 鷲山真澄
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1993, no.79(1993-NL-097), pp.9-12, 1993-09-16

自然言語処理で困難多義性、省略、代名詞と同様に考察されるべき代動詞DOの機能及び、言語的制約について検討する。[A]では、代動詞DOと、省略形、副詞節、対比、音調そして、縮約形の問題点について述べる。[B]では、代動詞DOと、DO SOについて、代動詞DO SO とDO ITの制限、又は、[C]においては、動詞と場所を表す副詞句の連語関係や、共起関係により、代動詞DOが用いられることができる場合と、非文になる場合があることが理解できる。又、代動詞DOと、IDIOM DOの曖昧性に関する問題についても取り上げる。

2017-04-08 18:02:48
1 + 0 Twitter

http://id.nii.ac.jp/1001/00049336/

1 0 0 0 OA 近代日本小説家8人による文章のn - gram分布を用いた著者判別

著者: 松浦司金田康正
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.2000, no.53(2000-NL-137), pp.1-8, 2000-06-01

本稿では、文章中のn-gram分布状況を著者の特徴量として、文章の著者を推定する手法を提案する。文章中におけるn-gram出現確率分布関数間の非類似度に基づいて著者推定を行うが、非類似度は提案関数dissimの他、Tankardの手法、ダイヴァージェンス、およびクロスエントロピーを用いてそれぞれ計算し、4関数の著者判別精度を比較した。1-gramから10-gram分布を特徴量とし、日本近代作家8人の92作品を対象とする著者推定実験結果について報告する。本手法は文章に関する付加的な情報を全く必要とせず形態素解析などを要求しない。また特定の言語および文章の性質を利用しないため、多くの言語・テキストにそのまま適用可能であることが期待できる。

2016-10-17 00:51:15
1 + 1 Twitter

http://id.nii.ac.jp/1001/00048634/

1 0 0 0 聴覚障害者向け字幕番組の制作技術

著者: 江原暉将沢村英治福島孝博丸山一郎和田裕二門馬隆雄白井克彦
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2001, no.69, pp.121-126, 2001-07-16
被引用文献数: 2

通信・放送機構で平成8年度から12年度まで実施した「視聴覚障害者向け放送ソフト制作技術の研究開発プロジェクト」の研究成果と残された課題について報告する。本プロジェクトの目的は、聴覚障害者のための字幕付きテレビ放送番組を効率的に制作するための技術基盤を確立することである。具体的な研究項目として、自動要約、自動同期、統合化システム技術がある。自動要約については、ニュース記事を対象に文字数にして70%にすることを目標にして研究を進め、「重要文抽出法」と「形態素単位文字数圧縮法」を併用して目標を達成した。自動同期については、ニュースおよびナレーション主体のドキュメンタリー番組を対象に研究し、ナレーションと背景音の比が20dB 以上の番組に対しては自動同期が可能であることを示した。統合化システム技術では、適切な点で字幕の改行・改ページを加える自動字幕画面制作技術を研究し、自動要約、自動同期とあわせて自動字幕制作システム実証モデルを構築した。本実証モデルを用いて評価実験を行い、性能評価を行うと共に実用化のための課題を明らかにした。Telecommunication Advancement Organization of Japan proceeds "Research Project for TV Production for the Seeing and Hearing Impaired" from 1995 to 2001. The purpose of the project is to establish the technologies of producing closed captions for hearing impaired people on TV programs efficiently. We have three research issues in the project: automatic text summarization, automatic synchronization with speech and captions and system engineering. Automatic text summarization summarizes Japanese news text to 70% volume. Important sentence extraction, morphem-based text shortening and bunsetsu-based text shortening are used. Automatic synchronization uses HMM-based word spotter and DP-based synchronizing point search. The method can be applicable to news and narration programs in which signal strength ratio between speech and background sound is more than 20dB. System engineering research results automatic changing method of new page and new line at a point easy to read. We integrate these elementary technologies to the automatic captioning system and evaluate it by caption creators and end users. From this evaluation experiments, we can know the system performance and future research issues.

2016-09-17 16:00:09
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002935319

1 0 0 0 野球チーム名における固有名詞の反復出現について

著者: 高瀬暁央梅村恭司
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2006, no.53, pp.75-80, 2006-05-19
参考文献数: 5

キーワードの分布として良く知られているものに、Katz K mixmreモデルがある。このKatz K mixtureモデルは、キーワードが文書中で繰り返し出現する条件付き確率は減少係数によって決められる、と仮定している。しかし、このKatzKmixtureモデルに合致しないキーワードが存在する。その一つが日本のプロ野球で使われているチーム名である。野球チーム名には地名や企業名などが含まれているが、野球チーム名として使われていない地名や企業名を調べた結果、野球チーム名だけが特異な特徴を持つことがわかった。本研究では、新聞記事中に出現する野球チーム名がKatz K mixtureモデルと合致せず、また特異な特徴を持っているという発見を報告する.キーワード Katzモデル統計的言語処理単語頻度固有名詞 The Katz K Mixture model is well known model for keywords and proper nouns.This model assumes that there are constant decay factors for the conditional probability of repeats.We have found that there are some keywords that do not obey this assumption.They are the names of professional baseball teams,We have checked that other names,such as companies or places which obey Katzmodel,and we have found that the names of baseball teams alone have this special feature.This paper reports the detail eddistribution of these baseball names,comparing with other names,and showing the difference among them.Keyword The Katz K Mixture model,statistical natural language processing,term frequency,proper noun

2016-08-23 17:01:10
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110004824236

1 0 0 0 OA 無限混合ディリクレ文書モデル

著者: 持橋大地菊井玄一郎
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.2006, no.36(2006-NL-172), pp.47-53, 2006-03-27

文書があるトピックの持つ確率分布から生成されたと仮定しその確率分布パラメータと文書のトピックへの帰属確率を求めるモデルにナイーブベイズ法を Polya 分布を用いてベイズ的に精密にとらえ直した混合ディリクレモデル(DM)があるがこの方法はトピック数を事前に与える必要があるという欠点があった.これに対し本論文では可算無限個の混合比にディリクレ過程事前分布を与えることによりデータの複雑さに合わせて混合数を自動推定するディリクレ過程混合モデルによる方法を検討する. モデル選択により混合数を決定する方法と異なりこの方法は混合数の事後分布をパラメータと同時に推定し期待値を取ることで予測を行うことができる. 実験の結果必要な混合数の上限を推測することができ特に小規模データに対しては性能がさらに上昇することがわかった.

2016-06-13 14:03:00
1 はてなブックマーク

http://id.nii.ac.jp/1001/00047941/

1 0 0 0 OA エスペラントを仲介言語とする機械翻訳II

著者: 牧野悟川出和秀竹内健二土井岳人西尾伸也山盛淳子勝守寛
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1987, no.25(1986-NL-060), pp.1-8, 1987-03-27

数年来エスペラントを仲介言語とする多種言語間の機械翻訳の可能性を検討してきたが,その一環として,LISPで書かれた,日本文からエスペラント文への翻訳プログラムについて報告する.これはN進木拡張LINGOLによって日本語を解析し,その結果から対応するエスペラント文を生成する機械翻訳システムである.エスペラントの文法構造は完全に規則的であり,語彙論的にあいまいさが少ないことなど,その特長を生かして比較的簡単で効率のよいエスペラント文の生成システムができることを説明する.コンピュータから出力したままの,後処理のしてない訳文例をいくつか示し,単純なシステムの割には良質の訳文が得られることを述べる.

2016-03-31 10:52:43
1 + 1 Twitter

http://id.nii.ac.jp/1001/00049765/

1 0 0 0 OA 条件付確率場による曰本語未知語処理

著者: 東藍浅原正幸松本裕治
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.2006, no.53(2006-NL-173), pp.67-74, 2006-05-19

本稿では,日本語形態素解析において問題となる未知語処理に対して条件付確率場(ConditionalRandomFields CRF)を適用する手法を提案する.提案手法では,形態素解析と同時に入力文中の部分文字列に対して未知語候補を追加することにより,形態素解析と未知語処理を同時に行う.また,従来最大エントロピーマルコフモデル(MaximumEntropyMarkovModelMEMM)などを適用した手法で指摘されてい0たlabelbiasあるいはlengthbiasの影響は,単に既知語の解析において問題になるだけではなく,未知語処理においても重要な問題となることを示し,CRFを適用することによりこれらの問題が解決されることを示す.そして大規模な正解タグ付コーパスを用いて実験し,本稿の提案手法の有効性を検証した

2015-12-26 20:42:19
1 はてなブックマーク

http://id.nii.ac.jp/1001/00047932/

1 0 0 0 並列時間差準破壊型単一化アルゴリズム実現の手法

著者: 藤岡孝子苫米地英人古瀬蔵飯田仁
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1990, no.93, pp.1-8, 1990-11-22

単一化に基づく自然言語処理において、単一化手続きは最も処理時間の割合が大きく、これを高速化することが重要な課題となっている。これに対し、並列処理をすることによる高速化の手法を考える。まず、効率の良い並列化が可能なTomabechiの時間差準破壊型単一化アルゴリズムについて考察し、これを並列に処理する手法を提案する。また、日本語文解析における単一化手続きにおいてこの並列アルゴリズムを用いて実験を行ない、並列化の効果と課題について述べる。A typical unification-based natural language processing system spends most of its processing times for graph unification. We have found existing graph unification algorithms to be hard to parallelize. It is essentially because synchronizations for each recurseve call into shared-arcs are required in the most existing algorithms and also due to the difIiculty of efficient management of lock/unlock scheduling of simultaneous accesses to global shared data structures. We adopted the quasi-destructive graph unification algorithm as appropriate for effective parallization and propose the parallel quasi-destructive graph unification algorithm that avoids these two problems.

2015-10-16 20:03:14
1 + 0 Twitter

https://ci.nii.ac.jp/naid/170000044958

1 0 0 0 超並列制約伝播による自然言語処理の手法

著者: 苫米地英人
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1990, no.64, pp.9-16, 1990-07-19

記号的および非記号的な制約の超並列活性化ネットワーク上での伝播による自然言語処理の手法について述べる。この手法は既存の活性化マーカ伝播による方法と異なり、複雑な言語的制約を必要とする言語現象を扱うことを可能とする。また、軽量並列プロセスを利用することにより並列計算機上に超並列制約伝播処理を実現する手法を示す。この手法により、密結合共有メモリ型並列計算機上にて完全分散型の神経回路網と記号的制約伝播ネットを共存させることが可能となる。更に既存の解析法と異なり、文法知識の増大による複雑さの増大の問題が軽量並列プロセス数の増加で対処可能となる。We propose a model of natural language processing based on a paradigm of massively parallel (symbolic/subsymbolic) constraint propagation. It differs from the traditional spreading-activation marker-passing schemes in its capacity to handle linguistic phenomena that require application of complex grammatical constraints. We also discuss a scheme of realizing massively parallel constraint propagation activity on a parallel machine hardware through the use of light weight processes while retaining the capacity to integrate fully-distributed contextual and acoustic recognitions. Unlike existing parsing schemes, in our model, the increase in the size of grammar can be directly countered through an increase in number of parallel light weight processes.

2015-10-16 20:01:32
1 + 0 Twitter

https://ci.nii.ac.jp/naid/170000044967

1 0 0 0 高性能計算環境を用いたWebからの大規模格フレーム構築

著者: 河原大輔黒橋禎夫
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2006, no.1, pp.67-73, 2006-01-13
被引用文献数: 28 25

本稿では、高性能計算環境を利用して、Webから大規模テキストコーパスを抽出し、格フレームを構築する方法について述べる。格フレームは人間のもっている常識的な知識のうちもっとも基本的なものであり、これを自動構築するには大規模かつ偏りのないテキストが必要となる。そこで、Webから日本語文を抽出することによって大規模コーパスを作成し、それを用いて格フレームを構築するということを行う。約4億Webぺ-ジから約5億文からなるテキストコーパスを作成し、さらにこのコーパスから約9万用言からなる格フレームを構築した。これらのプロセスは、巨大なデータを扱うため1つの計算機で行えば数年を要し現実的ではないことから、約350CPUからなる高性能計算環境を利用することによって実現した。This paper describes a method of constructing a wide-coverage case frames from the Web. To obtain such knowledge, an enormous amount of balanced corpus is required. We consider the Web as a balanced corpus, and first build a huge text corpus from the Web. We then construct case frames from the corpus. It is infeasible to do these processes by one CPU, and so we employ a high-performance computing environment. The acquired corpus and case frames are extremely larger than previously built corpora and case frames. The resultant case frames contain most examples of usual use, and are ready to be applied to lots of NLP applications.

2015-07-27 23:15:11
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110004075914

1 0 0 0 日本語動詞のLCS推定に関して --他動詞を中心に--

著者: 畠山真一坂本浩加藤恒昭伊藤たかね
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2005, no.1, pp.1-8, 2005-01-11

語彙概念構造 (Lexical Conceptual Strucuture LCS) とは,言語学のフィールドにおいて,少数の意義素により動詞の持つ基本的な意味を捉えるために考案された意味表現のフォーマットである.LCS は言語学のみならず,自然言語処理の分野でもその応用が提案されている.しかし,どのようにして個々の動詞の持つLCS を推定するかという問題については,確固たる手法が確立されているわけではない.実際,現在までに提案されている LCS 推定に用いられるテストには,いくつかの問題が存在する.本稿では,対象変化動詞と接触・打撃動詞という他動詞の2つのカテゴリを区別する手法を提案する.In linguistics, Lexical Conceptual Structure (LCS), whichis constucted from some semantic primitives, is used to represent the meaning of a verb. In addition, LCS is used in Natural Language Processing as a representation format for the verb meaning. However, the problem of how to determine the LCS of a verb is still disputed. In fact, existing tests for determining the LCS of a verb have some shortcomings. In this paper, we pin down the problems with the existing tests for distinguishing a causative verb and a non-affecting verb, and propose a better test for it.

2015-04-11 22:16:46
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002949424

1 0 0 0 OA 日本語固有表現抽出における冗長的な形態素解析の利用

著者: 浅原正幸松本裕治
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.2003, no.4(2002-NL-153), pp.49-56, 2003-01-20

一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組み合わせによる.形態素解析出力結果をそのままチャンカーの入力にすると,形態素解析結果より小さい単位の固有表現を抽出することは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn次解までの品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャンカーにより決定的に固有表現となる語の語境界を推定する.この手法により,1次解のみを用いる場合より豊かな素性をチャンカーに与えることができ,固有表現抽出の精度を向上させることができた.CRL 固有表現データを用いて評価実験(交差検定 5-fold)を行った結果,F 値約 88% という高精度の結果が得られた.

2015-03-14 01:21:04
1 + 0 Twitter

http://id.nii.ac.jp/1001/00048328/

1 0 0 0 用例に基づく派生語の確率的解析

著者: 市丸夏樹中村貞吾宮本義昭日高達
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1993, no.79, pp.21-28, 1993-09-16
被引用文献数: 3

シソーラスを意味的な分類として利用し、コーパスから収集した用例と、確率文法を用いて派生語を解析する方法と、大量データに対する仮名漢字変換実験によるその方法の評価について述べる。派生語の語幹名詞と接尾語の連接性を大量の用例データから学習し、学習した用例に含まれていない派生語についても取り扱うことを可能とした。用例そのものを学習に使用した場合には、生成能力が不十分であることが判明したため、用例の語幹をシソーラス上の上位語で置き換えた、一般化サンプルを使用した仮名漢字変換実験を行った。その結果、用例の一般化によって十分な生成能力を得ることができ、正解率を向上させることができることを示した。We are engaged in a research on using a thesaurus to analyze Japanese derivative words, and presented Example-Based Approach with Stochastic Grammar, which gives preference to words of high frequency. Using only raw examples for learning, however, turned out to be failure to produce enough derivative words out of given examples. Our solution to this problem was to use generalized examples for learning; i.e. to propagete the suffixes to synonyms of the body of the examples. In an experiment on kana-kanji convertion, we confirmed that there was a great improvement in number of correct answers.

2015-02-17 00:45:06
1 + 1 Twitter

https://ci.nii.ac.jp/naid/110002934661

1 0 0 0 検索エンジン基盤TSUBAKIを用いた大規模ウエブ情報クラスタリングシステムの構築

著者: 馬塲康夫新里圭司黒橋禎夫
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.2008, no.4, pp.67-74, 2008-01-22
被引用文献数: 3

本稿では,検索エンジン基盤TSUBAKIを使って検索されたウェブページを,ページ中の複合名詞に注目して自動的にクラスタリングするシステムについて述べる.検索エンジン基盤TSUBAKI とは日本語ウェブページ1億件を対象にした研究用途に主眼をおいた検索エンジンである.本クラスタリングシステムは,このTSUBAKIと連係することで,数千から数万件のウェブページを分類することが可能であり,さらに,豊富な言語情報を利用した高精度な複合名詞抽出を行うことが可能である.簡単な評価実験の結果,本システムを用いることでTSUBAKIの検索結果中で下位に埋もれているウェブページに対し効率よくアクセスできること,さらには,抽出した複合名詞が有用な情報へアクセスする際に有効であることがわかった.This paper describes a system that organizes a large number of web pages retrieved from the search engine TSUBAKI into clusters according to compound nouns extracted from the pages. TSUBAKI is a search engine infrastructure that can retrieve pages from 100 million web pages. Our clustering system deeply cooperates with TSUBAKI. This enables the system to generate clusters from several thousand web pages, and to give elaborate labels to the clusters. Experimental results showed that our system users can efficiently access low-ranked web pages in a search result obtained from TSUBAKI, and that generated labels navigate the users to information that they want.

2015-01-09 20:04:00
1 はてなブックマーク

https://ci.nii.ac.jp/naid/110006623476

1 0 0 0 OA 発話を行う家具による日常的エンタテインメント

著者: 長谷将生塩入健太星野准一
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.2007, no.94(2007-NL-181), pp.41-46, 2007-09-25

日常生活空間の身近な家具に触覚をモチーフとしたパーツを取り付け,仮想的なキャラクタを作り,音声発話と触覚の動作によって利用者の日常生活に楽しさや驚き,癒しを提供するシステムを提案する.利用者は日常生活空間の中で自然かつ簡単に体験でき,利用者の行動や WEB から取得した天候などの情報を記録・蓄積し,記録データを生成してそれに基づく音声発話ファイルの選択を行う.また利用者への注意喚起やエンタテインメント性の向上のために,発話時にはサーボモータによって触覚パーツを動作させる.

2014-11-10 10:17:08
1 + 0 Twitter

http://id.nii.ac.jp/1001/00047781/

1 0 0 0 待遇表現の計算モデル -語尾の付加による待遇値変化について-

著者: 白土保井佐原均
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日: vol.1996, no.114, pp.115-120, 1996-11-18

待遇表現の計算モデルが提案されている.このモデルでは,それぞれの待遇表現及び語尾に対し,各表現が持つ話し手と聞き手の待遇関係に応じた丁寧さを表す待遇値が一定の確率分布をとり,その確率分布は一次元の正規分布である,と仮定されている.そしてこの仮定に基づき,待遇表現に語尾を付加した際の待遇値の変化量が,付加の際得られる情報量に基づいて定義されている.いくつかの待遇表現,及びそれぞれの待遇表現に語尾を付加した表現の待遇値を心理実験によって求めたところ,語尾の付加による待遇値の変化は提案されたモデルによって予測された傾向に従い,モデルの妥当性が支持された.A computational model for polite expression is presented. In the proposed model, politeness magnitudes corresponding to expressions and ending words are assumed to be distributed in normal distribution. Modification of politeness magnitude on an ending word adding to a polite expression is defined by the amount of information. The result of the psychological experiment support the validity of the model.

2014-10-12 18:53:45
1 + 1 Twitter

https://ci.nii.ac.jp/naid/110002934991

1 0 0 0 文脈一貫性を利用した極性付評価表現の語彙獲得

著者: 那須川哲哉金山博
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2004, no.73, pp.109-116, 2004-07-16
参考文献数: 15
被引用文献数: 12 5

組織・製品などに関して好不評を示す表現,及びそれが好評を示すか不評を示すかの極性を,文書データから教師なし学習で獲得する手法を示す.ある対象に関して評価を述べる内容を記述する際には,好評もしくは不評の意見を列挙することが多く,好不評の極性を反転させる際には「けれども」「しかし」といった接続表現で明示することが多い.本手法では,この『評価表現の文脈一貫性』を利用し,「満足する」「不満だ」などの種表現の周辺文脈から評価表現の候補とその極性を抽出し,各候補の文書データ全体における分布から評価表現としての妥当性を判定する.得られた評価表現を種表現に追加する操作を再帰的に実行することで,好不評の極性付きの語彙を,少数の種表現から自動構築することが可能になる.デジタルカメラと映画に関する掲示板のデータで実験したところ,各々の分野に特徴的な評価表現を高い精度で抽出することができた.This paper presents an unsupervised learning method to acquire sentiment expressions that indicate either favorable or unfavorable opinion toward a specific subject. Our approach is based on a characteristic of sentiments that multiple sentiment expressions often appear near each other in texts with the same polarity of favorability, unless the change is explicitly indicated by a clue term such as an adversative conjunction. By taking advantage of this characteristic, our unsupervised method extracts sentiment expressions and their polarities from a corpus starting from a very small set of seed expressions and analyzing their neighboring expressions in the corpus. In our experiment on discussion board messages about digital cameras and movies, we could acquire a good set of sentiment expressions relevant to each domain.

2014-09-22 11:09:00
1 はてなブックマーク

https://ci.nii.ac.jp/naid/110002911735

1 0 0 0 符号化問題として解く日本語係り受け解析

著者: 田村晃裕高村大也奥村学
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2006, no.124, pp.17-24, 2006-11-22
被引用文献数: 1

係り受け解析を符号化・復号化問題として解く手法を提案する.従来は,2文節間の係りやすさ,つまり係り受け木でいう親子関係になるかを基に係り受けを解析している.この従来の考えに従うと,親子関係の情報を表した符号を用いた符号化・復号化問題を解くことになる.係り受け解析を符号化・復号化問題と捉えると,符号化・復号化問題における,誤りがある程度生じても訂正できるように,符号に冗長な情報を加え,使用する符号間の距離を大きくする手法を係り受け解析に援用できる.そこで,本研究では,親子関係の情報の他に,祖先子孫関係になるかという情報を冗長な情報として符号に加えることで精度の向上をはかった.実際に本手法で係り受け解析をし,高い精度が得られたことを報告する.We propose a novel method for Japanese dependency analysis. In deterministic approaches to this task, dependency trees are constructed by actions of attaching a bunsetsu chunk to one of the nodes in the trees. Therefore the task is reduced to deciding the node for the new bunsetsu chunk to be attached.We propose to encode each decision with a sequence of binary values, that is, a code. This representation of decisions enables the model to incorporate ancestor-descendant relations between nodes in addition to parent-child relations. We also propose to concatenate the code of parent-child relation and the code of ancestor-descendant relation, so that the added redundancy in codes helps errors be corrected. Experimental results show that the proposed method achieves higher accuracy in the task of Japanese dependency analysis.

2014-09-06 05:16:12
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110005717790

1 0 0 0 機能表現を考慮した統計的日本語係り受け解析

著者: 注連隆夫士屋雅稔松吉俊字津呂武仁佐藤理史
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日: vol.2007, no.7, pp.63-70, 2007-01-26

本稿では,SupportVectorMadline(SVM)を用いたチャンカーYamOhaを利用して,日本語機能表現検出器を学習し,その性能評価を行った機能表現を構成している形態素の数の情報,機能表現中における形態素の位置情報を素性として参照することにより,F値で約94という高精度の検出器を実現できることを示した.また,京都テキストコーパスに対して,機能表現の情報を人手で付与した後,SVMに基づく統計的係り受け解析器OaboOhaの学習を行い,その性能を評価した.機能表現を考慮して係り受け関係の学習をすることによって,機能表現を含む文節の係り受け解析の性能が改善することを示す.This paper proposes to learn a detector of Japanese functional expressions using the chunker YamCha based on Support Vector Machines (SVMs), and presents the result of evaluating the performance of the detector. Through experimental evaluation, we achieve the F-measure as 94. We then manually annotate parsed sentences of Kyoto Text Corpus with functional expressions, which are used for training dependency an alyzer CaboCha based on SVM. The dependency analyzer CaboCha of this paper is modified so that it can cope with annotation of functional expressions in the training corpus. We experimentally show that the modified version of the dependency analyzer improves the performance of the dependency analysis of functional expressions.

2014-09-06 05:15:08
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110006202766