著者
浅原 正幸 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2003, no.4(2002-NL-153), pp.49-56, 2003-01-20

一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組み合わせによる.形態素解析出力結果をそのままチャンカーの入力にすると,形態素解析結果より小さい単位の固有表現を抽出することは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn次解までの品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャンカーにより決定的に固有表現となる語の語境界を推定する.この手法により,1次解のみを用いる場合より豊かな素性をチャンカーに与えることができ,固有表現抽出の精度を向上させることができた.CRL 固有表現データを用いて評価実験(交差検定 5-fold)を行った結果,F 値約 88% という高精度の結果が得られた.
著者
松本 裕治 浅原 正幸 岩立 将和 森田 敏生
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.18, pp.1-6, 2010-11-11
被引用文献数
1

科研費領域研究研究 「日本語コーパス」 の一環として開発してきたコーパス管理ツール 「茶器」 の機能と現状について報告する.茶器は,形態素解析 (品詞情報),係り受け解析のアノテーション (注釈) が付与されたコーパスを格納し,様々な検索,検索結果や統計情報の表示,注釈誤りの修正などの機能をもつツールであり,注釈付きコーパスの格納,検索,作成,修正のための環境を提供する.主な機能は,文字列,形態素列,文節係り受け構造などを指定したコーパスの検索と,検索結果の KWIC 表示と係り受け木の表示,種々の統計情報の表示,注釈付けエラーの修正などである.現在は,茶筌/ MeCab による形態素解析,南瓜による係り受け解析結果をデータベースに取り込む機能を提供するが,特に言語には依存せず,任意の言語の品詞/依存構造注釈付きコーパスを扱うことができる.This paper introduces a annotated corpus management system ChaKi that has been developed under the auspices of the Japanese Corpus Project (Grantin-Aid for Scientific Research in Priority Areas). The system handles morphologican and dependency structure annotated corpora and facilitates various functions such as storing, retrieving, creating and error-correcting annotated corpora. String, word and dependency structure based corpus retrievals are possible, and the results are shown as KWIC format or as dependency trees. While the current system transfers corpora with the ChaSen/MeCab or CaboCha output format into databases, it is language independent and can be applied flexibly to any POS/dependency structure annotated corpora.
著者
相良 かおる 小野 正子 鈴木 隆弘 小木曽 智信 高崎 光浩 浅原 正幸 外山 健二
出版者
西南女学院大学
雑誌
基盤研究(B)
巻号頁・発行日
2009

標準化された用語がないまま、電子カルテシステムは普及し、電子医療記録文書が蓄積される中、我々は医療記録文書で使われる用語77, 775語を収録した辞書ComeJisyoを作成・公開し、また、語種と字種の分布を明らかにした。ComeJisyoは、電子医療記録文の単語分割の解析精度を90%以上に向上させ、複数の解析結果の比較(メタ分析)を可能とする。また、ComeJisyoに付加されるヨミガナは、音声への変換や仮名漢字変換等に活用できる
著者
保田 祥 小西 光 浅原 正幸 今田 水穂 前川 喜久雄
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.5, pp.657-681, 2013-12-13 (Released:2014-03-13)
参考文献数
22

時間情報抽出は大きく分けて時間情報表現抽出,時間情報正規化,時間的順序関係解析の三つのタスクに分類される.一つ目の時間情報表現抽出は,固有表現・数値表現抽出の部分問題として解かれてきた.二つ目の時間情報正規化は書き換え系により解かれることが多い.三つ目のタスクである時間的順序関係解析は,事象の時間軸上への対応付けと言い換えることができる.日本語においては時間的順序関係解析のための言語資源が整備されているとは言い難く,アノテーション基準についても研究者で共有されているものはない.本論文では国際標準である ISO-TimeML を日本語に適応させた時間的順序関係アノテーション基準を示す.我々は『現代日本語書き言葉均衡コーパス』(BCCWJ) の新聞記事の部分集合に対して,動詞・形容詞事象表現に TimeML の 〈EVENT〉 相当タグを付与し,その事象の性質に基づき分類を行った.また,この事象表現と先行研究 (小西, 浅原, 前川 2013) により付与されている時間情報表現との間の関係として,TimeML の 〈TLINK〉 相当タグを付与した.事実に基づき統制可能な時間情報正規化と異なり,事象構造の時間的順序関係の認識は言語受容者間で異なる傾向がある.このようなレベルのアノテーションにおいては唯一無二の正解データを作ることは無意味である.むしろ,言語受容者がいかに多様な判断を行うかを評価する被験者実験的なアノテーションが求められている.そこで,本研究では三人の作業者によるアノテーションにおける時間的順序関係認識の齟齬の傾向を分析した.アノテーション結果から,時間軸上の相対的な順序関係については一致率が高い一方,時区間の境界については一致率が低いことがわかった.
著者
福岡 健太 浅原 正幸 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.22, no.1, pp.69-77, 2007 (Released:2007-01-05)
参考文献数
15

Linear-chain conditional random fields are a state-of-the-art machine learner for sequential labeling tasks. Altun investigated various loss functions for linear-chain conditional random fields. Tsuboi introduced smoothing method between point-wise loss function and sequential loss function. Sarawagi proposed semi-markov conditional random fields in which variable length of observed tokens are regarded as one node in lattice function. We propose a smoothing method among several loss functions for semi-markov conditional random fields. We draw a comparison among the loss functions and smoothing rate settings in base phrase chunking and named entity recognition tasks.
著者
浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.3, pp.685-695, 2002-03-15
参考文献数
19
被引用文献数
10

自然言語処理の分野で最も基本的な処理として形態素解析がある.近年大量のタグ付きコーパスが整備され,コーパスに基づいた統計的形態素解析器が開発されてきた.しかし単純な統計的手法ではコーパスに出現しない例外的な言語現象に対処することができない.この問題に対処するため,本論文ではより柔軟な拡張統計モデルを提案する.例外的な現象に対応するために単語レベルの統計値を利用する.この拡張により,細かく分類された大量のタグを扱う際,必要なコーパスの量は増加する.一般に適切なコーパスの量で学習するために複数のタグを同値類へとグループ化することによりタグの数を減らすことが行われる.我々はこれを拡張し,マルコフモデルの条件付き確率計算について,先行する品詞タグ集合と,後続する品詞タグ集合とで,別々の品詞タグの同値類を導入するようにした.コーパスの量が不足する場合にtri-gramモデルを構築すると,学習データへの過学習が起きる.これを回避するために選択的tri-gramモデルを導入した.一方,これらの拡張のため,語彙化するタグやtri-gram文脈の選択を人手で設定することは困難である.そこで,この素性選択に誤り駆動の手法を導入し半自動化した.日本語・中国語形態素解析,英語品詞タグ付けについて評価実験を行い,これらの拡張の有効性を検証した.Recently, large-scale part-of-speech tagged corpora have becomeavailable, making it possible to develop statistical morphologicalanalyzers trained on these corpora.Nevertheless, statistical approaches in isolation cannot coverexceptional language phenomena which do not appear in the corpora.In this paper, we propose three extensions to statistical modelsin order to cope with such exceptional language phenomena.First of all, we incorporate lexicalized part-of-speech tags into the modelby using the word itself as a part-of-speech tag.Second, because the tag set becomes fragmented by the use of lexicalized tags, we reduce the size of the tag set by introducing a new type of grouping technique where the tag set ispartitioned creating two different equivalent classes for the events in theconditional probabilities of a Markov Model.Third, to avoid over-fitting, we selectively introduce tri-gram contexts into a bi-gram model.In order to implement these extensions, we introduce error-driven methods to semi-automatically determine the words to be used as lexicalized tags and the tri-gram contextsto be introduced.We investigate how our extension is effective through experiments onJapanese, Chinese and English.
著者
浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.49-56, 2003-01-20
被引用文献数
1

一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組み合わせによる.形態素解析出力結果をそのままチャンカーの入力にすると,形態素解析結果より小さい単位の固有表現を抽出することは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn次解までの品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャンカーにより決定的に固有表現となる語の語境界を推定する.この手法により,1次解のみを用いる場合より豊かな素性をチャンカーに与えることができ,固有表現抽出の精度を向上させることができた.CRL 固有表現データを用いて評価実験(交差検定 5-fold)を行った結果,F 値約 88% という高精度の結果が得られた.Named Entity (NE) extraction is a task in which proper nouns and numerical information are extracted from texts. A method of cascading morphological analysis and chunking is usually used for NE extraction in Japanese. However, such a method cannot extract smaller NE units than morphological analyzer outputs. To cope with the unit problem, we propose a character-based chunking method. Firstly, input sentences are redundantly analyzed by a statistical analyzer. Secondly, the input sentences are segmented into characters. The characters are annotated redundantly with the character types and POS tags of the top n best answers that are given by the statistical morphological analyzer. Finally, we do chunking deterministically based on support vector machines. The method can introduce richer features for chunkers than the method based on single morphological analysis result. We apply our method to IREX NE task using CRL Named Entities data. The cross validation result of the F-value being 88% shows the effectiveness of the method.