著者
岡野原 大輔 辻井 潤一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.90, pp.59-64, 2008-09-17

本稿では,全ての部分文字列が素性として利用される文書分類モデル,及びその効率的な学習,推定手法を提案する.文書分類に有効な部分文字列は,単語と異なる場合や,署名やテンプレートなど,非常に長くなる場合が少なくない.しかし,部分文字列の種類数は文書長の二乗に比例するため,それらを素性として直接用いて学習することは,計算量的に困難だった.本稿では,テキスト長に比例する個数のみ存在する極大部分文字列に関する統計量を扱うことで,有効な部分文字列を漏れなく求めることができることを示す.また,拡張接尾辞配列を用いることで,これらを効率的に列挙可能であり,全文書長に比例した時間で学習可能であることを示す.さらに L1 正則化を適用することで,コンパクトな学習結果が得られ,高速な推定が可能であることを示す.このモデルは,形態素解析結果や TF/IDF などの統計量と組み合わせられることを示し,従来の単語ベースの Bag of Words 表現と比較し,精度が向上することを示す.This paper presents a novel document classification method using all substrings as features. Although an effective substring for a document classification task is often different from tokenized words, the number of all candidate substrings is the quadratic of the length of a document, and a learning using all these substrings as features requires a prohibitive computational cost. We show that all effective substrings can be computed exhaustively by checking only maximal substrings, which can be enumerated in linear time by using enhanced suffix arrays. Moreover, we use L1 regularization to obtain a compact learning result, which makes an inference efficient. We show that many prior weights (tf, idf, other tokenized result) can be included in this method naturally. In experiments, we show that our model can extract effective substrings, and more accurate than that of word-base BOW representation.
著者
山本 昌宏 辻井 潤一 長谷川 修司 小澤 一仁 岡林 潤 米田 好文
出版者
東京大学大学院理学系研究科・理学部
雑誌
東京大学理学系研究科・理学部ニュース
巻号頁・発行日
vol.42, no.2, pp.15-17, 2010-07

「非整数階の微分方程式」/「テキスト・マイニング」/「表面超構造」/「マグマ」/「放射光」/「フロリゲン遺伝子FT」
著者
岡野原 大輔 辻井 潤一
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2008, no.90(2008-NL-187), pp.59-64, 2008-09-17

本稿では,全ての部分文字列が素性として利用される文書分類モデル,及びその効率的な学習,推定手法を提案する.文書分類に有効な部分文字列は,単語と異なる場合や,署名やテンプレートなど,非常に長くなる場合が少なくない.しかし,部分文字列の種類数は文書長の二乗に比例するため,それらを素性として直接用いて学習することは,計算量的に困難だった.本稿では,テキスト長に比例する個数のみ存在する極大部分文字列に関する統計量を扱うことで,有効な部分文字列を漏れなく求めることができることを示す.また,拡張接尾辞配列を用いることで,これらを効率的に列挙可能であり,全文書長に比例した時間で学習可能であることを示す.さらに L1 正則化を適用することで,コンパクトな学習結果が得られ,高速な推定が可能であることを示す.このモデルは,形態素解析結果や TF/IDF などの統計量と組み合わせられることを示し,従来の単語ベースの Bag of Words 表現と比較し,精度が向上することを示す.
著者
辻井 潤一
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, 2015-12-15
著者
岡崎 直観 辻井 潤一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.89-117, 2011 (Released:2011-09-28)
参考文献数
34
被引用文献数
2

本論文では,コサイン係数,ダイス係数,ジャッカード係数,オーバーラップ係数に対し,簡潔かつ高速な類似文字列検索アルゴリズムを提案する.本論文では,文字列を任意の特徴(tri-gram など)の集合で表現し,類似文字列検索における必要十分条件及び必要条件を導出する.そして,類似文字列検索が転置リストにおける τ オーバーラップ問題として正確に解けることを示す.次に,τ オーバーラップ問題の効率的な解法として,CPMerge アルゴリズムを提案する.CPMerge は,検索クエリ文字列中のシグニチャと呼ばれる特徴と,解候補が枝刈りできる条件に着目し,τ オーバーラップ問題の解候補を絞り込む.さらに,CPMerge アルゴリズムの実装上の工夫について言及する.英語の人名,日本語の単語,生命医学分野の固有表現の 3 つの大規模文字列データセットを用い,類似文字列検索の性能を評価する.実験では,類似文字列検索の最近の手法である Locality Sensitive Hashing や DivideSkip 等と提案手法を比較し,提案手法が全てのデータセットにおいて,最も高速かつ正確に文字列を検索できることを実証する.また,提案手法による類似文字列検索が高速になる要因について,分析を行う.なお,提案手法をライブラリとして実装したものは,SimString としてオープンソースライセンスで公開している.
著者
松林 優一郎 岡崎 直観 辻井 潤一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.4, pp.4_59-4_89, 2010 (Released:2011-06-09)
参考文献数
26

FrameNet,PropBank といった意味タグ付きコーパスの出現とともに,機械学習の枠組みを利用した自動意味役割付与システムが数多く研究されてきた.しかし,これらのコーパスは個々のフレームに固有の意味役割を定義するため,コーパス中に低頻度,或いは未出現の意味役割が数多く存在し,効率的な学習を妨げている.本論文は,意味役割付与における意味役割の汎化問題を取り上げ,既存の汎化指標と新たに提案する指標を役割の分類精度を通して比較し,それぞれの特徴を探求する.また,複数の汎化指標を同時に利用する分類モデルが自動意味役割付与の精度を向上させることを示す.実験では,FrameNet において全体の精度で 19.16% のエラー削減,F1 マクロ平均で 7.42% の向上を,PropBank において全体の精度で 24.07% のエラー削減,未知動詞に対するテストで 26.39% のエラー削減を達成した.
著者
辻井 潤一 米澤 明憲 田浦 健次朗 宮尾 祐介 松崎 拓也 狩野 芳伸 大田 朋子 SAETRE Rune 柴田 剛志 三輪 誠 PYYSALO SAMPO Mikael 金 進東 SAGAE Kenji SAGAE T. Alicia 王 向莉 綱川 隆司 原 忠義
出版者
東京大学
雑誌
特別推進研究
巻号頁・発行日
2006

本研究は、文解析研究で成功してきた手法、すなわち、巨大な文書集合を使った機械学習技術と記号処理アルゴリズムとを融合する手法を、意味・文脈・知識処理に適用することで、言語処理技術にブレークスルーをもたらすことを目標として研究を遂行した。この結果、(1)言語理論に基づく深い文解析の高速で高耐性なシステムの開発、(2)意味・知識処理のための大規模付記コーパス(GENIAコーパス)の構築と公開、(3)深い文解析の結果を用いた固有名、事象認識などの意味・知識処理手法の開発、(4)大規模なテキスト集合の意味・知識処理を行うためのクラウド処理用ソフトウェアシステムの開発、において世界水準の成果を上げた。(2)で構築されたGENIAコーパスは、生命科学分野でのテキストマイニング研究のための標準データ(Gold Standard)として、国際コンペティション(BioNLP09、BioNLP11)の訓練・テスト用のデータとして、採用された。また、(1)の研究成果と機械学習とを組み合わせた(3)の成果は、これらのコンペティションで高い成績を収めている。また、(1)と(4)の成果により、Medlineの論文抄録データベース(2千万件、2億超の文)からの事象認識と固有名認識を数日で完了できることを実証した。その成果は、意味処理に基づく知的な文献検索システム(MEDIE)として公開されている。
著者
岡崎 直観 劉 瀟 綱川 隆司 辻井 潤一
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.23, 2009

ウィキペディアでは,同一の実体を複数の言語で説明することがあり,それらのエントリ間は言語横断リンクで結ばれる.そこで,本研究では言語横断リンクで結ばれたエントリ同士を並行コーパスと見なし,対訳用語対をマイニングする.提案手法は,単一言語に対して用語抽出を行い,その用語に対する訳語を,統計的機械翻訳に基づく翻訳確率,並行コーパス中における共起回数,言語を横断した用語周辺文脈の類似度で選出する.
著者
長尾 真 辻井 潤一
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.15, no.9, pp.654-661, 1974-09-15

We constructed a Programming Language for Tree-Operation, named PLATON. This accepts strings, trees and lists and transforms them in arbitrary way. Based on the augmented transition network of W.Woods, this has several additional capabilities such as pattern-matching, flexible back-tracking mechanism and so on. Because the system maintains the clarity of natural language grammars, we can easily develop various kinds of grammars, test and improve them. The system also has various flexible constructions in order to make use of semantics and pragmatics during its syntactic analysis. The detailed specification and organization of PLATON are given in this paper, and an example of using this is also given, which analyzes simple Japanese sentences.

1 0 0 0 OA Colingの報告

著者
辻井 潤一
出版者
一般社団法人日本ソフトウェア科学会
雑誌
コンピュータソフトウェア (ISSN:02896540)
巻号頁・発行日
vol.4, no.2, pp.162-165, 1987-04-15
被引用文献数
1