著者
山田 寛康 工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.1, pp.44-53, 2002-01-15
参考文献数
16
被引用文献数
39

本稿では,機械学習アルゴリズムSupport Vector Machine(SVM)を用いて日本語固有表現抽出を学習する手法を提案し,抽出実験によりその有効性を検証する.固有表現抽出規則の学習には,単語自身,品詞,文字種などを素性として使用するため,その素性空間は非常に高次元となる.SVMは汎化誤差が素性空間の次元数に依存しないため,固有表現抽出規則の学習においても過学習を起こすことなく汎化性能の高い学習が実現できる.また多項式Kernel関数を適用することで複数の素性の組合せを考慮した学習が計算量を変えることなく実現できる.CRL固有表現データを用いてIREX固有表現抽出タスクに対して実験を行った結果,語彙,品詞,文字種,およびそれら任意の2つの組合せを考慮した場合,交差検定によりF値で約83という高精度の結果が得られた.In this paper, we propose a method for Japanese named entity (NE)extraction using Support Vector Machines (SVM). The generalizationperformance of SVM does not depend on the size of dimensions of thefeature space, even in a high dimensional feature space, such as namedentity extraction task using lexical entries, part-of-speech tags andcharacter types of words as the primitive features. Furthermore, SVMcan induce an optimal classifier which considers the combination offeatures by virtue of polynomial kernel functions. We apply the methodto IREX NE task using CRL Named Entities data. The cross validationresult of the F-value being 83 shows the effectiveness of the method.
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.6, pp.1834-1842, 2002-06-15
被引用文献数
147 76

本稿では,チャンキングの段階適用による日本語係り受け解析手法を提案し,その評価を行う.従来の係り受け解析は,任意の2文節間の係りやすさを数値化した行列を作成し,そこから動的計画法を用いて文全体を最適にする係り受け関係を求めるというモデルに基づくものが多かった.しかし,解析時に候補となるすべての係り関係の尤度を計算する必要があるため効率が良いとはいえない.本提案手法は,直後の文節に係るか係らないかという観点のみで決定的に解析を行うため,従来方法に比べ,モデル自体が単純で,実装も容易であり,高効率である.さらに,従来法では,個々の係り関係の独立性を前提としているが,本提案手法はその独立性を一部排除することが可能である.本提案手法を用い,京大コーパスを用いて実験を行った結果,従来法と比較して効率面で大幅に改善されるとともに,より高い精度を示した.In this paper, we propose a cascaded chunking method for Japanesedependency structure analysis. Conventional approachesmainly consist of two steps: First, the dependency matrix isconstructed, in which each element represents theprobability of a dependency. Second, an optimal combinationof dependencies are determined from the matrix. However,such a method is not always efficient since it needs tocalculate all the probabilities of candidates. Our proposedmodel is more simple and efficient, since it parses a sentence deterministically only deciding whether the current segment modifies segment on its immediate right hand side.In addition, proposed model does not assume the independence constraintin dependency relation. Experiments using the Kyoto UniversityCorpus show that the method outperforms previous systems as well as improves the parsing and training efficiency.
著者
工藤 拓 山本 薫 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.161, pp.89-96, 2004-05-13
参考文献数
21
被引用文献数
26

本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる.
著者
中川 哲治 工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.9, pp.77-82, 2001-01-25
被引用文献数
2

品詞タグ付けにおいて,辞書に存在する語と比較して未知語に対する解析精度は低く,品詞タグ付けの全体の性能を左右する要因となる。本稿では,英語における未知語の品詞をSupport Vector Machineを用いて推定する手法を提案する。単語の部分文字列やコンテキストを素性として,高い精度で品詞を推定することができた。さらに同じ枠組みで,SVMを用いて品詞のタグ付けを行ったところ,100 000トークンの訓練データによる学習の結果,95.9%という従来手法以上の精度が得られた。In part-of-speech tagging, the accuracy for unknown words is lower than for known words. In consideration of high accuracy rate of up-to-date statistical POS taggers, unknown words account for non-negligible cause of errors. This paper describes POS estimation for unknown words using Support Vector Machines. We achieved high accuracy of POS tag estimation using substrings and surrounding contexts as feature. Furthermore, we apply this method to a practical POS tagger, and achieved the accuracy of 95.9%, higher than conventional approaches.
著者
植田 育代 富田 誠 田中 香津生 工藤 拓也 有賀 雅奈
出版者
一般社団法人 日本デザイン学会
雑誌
日本デザイン学会研究発表大会概要集 日本デザイン学会 第65回春季研究発表大会
巻号頁・発行日
pp.500-501, 2018 (Released:2018-06-21)

近年、研究者は市民など様々な人たちに対して、研究活動を伝達し、対話をしながら研究を進めることが求められている。しかし、高度で複雑な研究内容を研究者自身やデザイナーがわかりやすく視覚化することは容易ではない。 本研究は、研究者とデザイナーが協働で研究内容を視覚化する手法を目的に、研究組織における研究活動の視覚化をおこなった。 デザインの制作においては、研究者にとっても描くことが容易な等角投影図を基本図法として、研究者とデザイナー間でイラスト交換を繰り返し表現の正確性やデザインの質を段階的に高めていく手法を用いた。本稿ではそれらの制作過程の記述し、研究者からの評価を通して本手法の可能性を考察したい。
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.9, pp.2146-2156, 2004-09-15
被引用文献数
25

近年,テキスト分類は,単純なトピック分類から,文のモダリティ,意見性,主観性といった書き手の意図に基づく分類へと,そのタスクの多様化が進んでいる.それにともない,単語の集合(bag-of-words)を素性とする古典的手法では十分な精度を得にくくなっている.精度向上には,テキストの構造(構文/レイアウト)を考慮する必要があるが,恣意的に選択された部分構造のみを用いた手法が多い.本稿では,構造を考慮したテキスト分類(半構造化テキスト分類)に向け,部分木を素性とするdecision stumpsと,それを弱学習器とするBoostingアルゴリズムを提案する.また,Tree Kernelを用いたSVMとの関連性,および本手法の利点について言及する.実データを用いた実験により,提案手法の有効性を検証する.The research focus in text classification has expanded from a simple topic identification to a more challenging task, such as opinion/modality identification. For the latter, the traditional bag-of-word representations are not sufficient, and a richer, structural representation will be required. Accordingly, learning algorithms must be able to handle such sub-structures observed in text. In this paper, we propose a Boosting algorithm that captures sub-structures embedded in text. The proposal consists of i) decision stumps that use subtrees as features and ii) Boosting algorithm in which the subtree-based decision stumps are applied as weak learners. We also discuss a relation between our algorithm and SVM with Tree Kernel. Two experiments on the opinion/modality classification tasks confirm that subtree features are important. Our Boosting algorithm is computationally efficient for classification tasks involving discrete structural features.
著者
工藤 拓 山本 薫 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2004, no.47(2004-NL-161), pp.89-96, 2004-05-14

本稿では Conditonal Random Fields (CRF) に基づく日本語形態素解析を提案する. CRFを適用したこれまでの研究の多くは 単語の境界位置が既知の状況を想定していた. しかし 日本語には明示的な単語境界が無く 単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である. 本稿ではまず 単語境界が存在する問題に対するCRFの適用方法について述べる. さらに CRFが既存手法(HMM MEMM) の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す. CRFは 階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし label biasやlength biasを低減する効果を持つ. 前者はHMM の欠点であり 後者はMEMMの欠点である. また 2つの正則化手法(L1-CRF/L2-CRF) を適用し それぞれの性質について論じる.
著者
Neubig Graham 工藤 拓 赤部 晃一
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, pp.36-37, 2015-12-15

日本語から英語へと自動的に翻訳する機械翻訳では,最先端の翻訳器は何ができるのか? 何ができないのか? 本章は,この疑問に答えるべく,翻訳の誤り分析を行った結果を報告する.6つの最先端の翻訳システムを用意し,さまざまな分野のテキストを翻訳して,翻訳結果の誤りを分析した.その結果,「単語の削除」「単語の並べ替え」「語彙の訳選択」は今でも大きな課題であることが分かった.特に,曖昧な語彙の訳選択に大きな課題があることが明らかとなり,今後機械翻訳はこの問題を克服していく必要があることが明らかとなった.
著者
山田 寛康 工藤 拓 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.1, pp.44-53, 2002-01-15

本稿では,機械学習アルゴリズムSupport Vector Machine(SVM)を用いて日本語固有表現抽出を学習する手法を提案し,抽出実験によりその有効性を検証する.固有表現抽出規則の学習には,単語自身,品詞,文字種などを素性として使用するため,その素性空間は非常に高次元となる.SVMは汎化誤差が素性空間の次元数に依存しないため,固有表現抽出規則の学習においても過学習を起こすことなく汎化性能の高い学習が実現できる.また多項式Kernel関数を適用することで複数の素性の組合せを考慮した学習が計算量を変えることなく実現できる.CRL固有表現データを用いてIREX固有表現抽出タスクに対して実験を行った結果,語彙,品詞,文字種,およびそれら任意の2つの組合せを考慮した場合,交差検定によりF値で約83という高精度の結果が得られた.
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.20, pp.97-104, 2001-03-05
被引用文献数
8

本稿では,チャンキングの段階適用による日本語係り受け解析手法を惺案し,その評価を行う.従来法は,任意の二文節間の係りやすさを数値化した行列を作成し,そこから動的計画法を用いて文全体を最適にする係り受け関係を求めるというモデルに基づいていた.しかし,解析時に候補となるすべての係り関係の尤度を計算する必要があるため効率が良いとは言えない.本提案手法は,直後の文節に係るか係らないかという観点のみで決定的に解析を行うため,従来方法に比べ,モデル自身が単純で,実装も容易であり,高効率である.さらに,従来法では,個々の係り関係の独立性を前提としているが,本提案手法はその独立性を一部排除することが可能である.本提案手法を用い,京大コーパスを用いて実験を行った結果,従来法と比較して効率面で大幅に改善されるとともに,従来法以上の高い精度(89.29%)を示した.In this paper, we apply cascaded chunking to Japanese dependency structure analysis. A conventional approach consists of two steps: First, dependency matrix is constructed, in which each element represents the probability of a dependency. Second, an optimal combination of dependencies are determined from the matrix. However, this method is not always efficient since we have to calculate all the probabilities of candidates. Our proposed cascaded chunking model is quite simple and efficient, since it estimates whether current segment modifies immediately right-hand side segment to parse a sentence. In addition, proposed model does not assume the independence constraints in dependency relation. Experimental results on Kyoto University corpus show that our system achieves accuracy of 89.29%, higher than that of our previous system, as well as improves the efficiency of parsing.
著者
小町 守 工藤 拓 新保 仁 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.2, pp.233-242, 2010 (Released:2010-01-26)
参考文献数
27
被引用文献数
5 6

Bootstrapping has a tendency, called semantic drift, to select instances unrelated to the seed instances as the iteration proceeds. We demonstrate the semantic drift of Espresso-style bootstrapping has the same root as the topic drift of Kleinberg's HITS, using a simplified graph-based reformulation of bootstrapping. We confirm that two graph-based algorithms, the von Neumann kernels and the regularized Laplacian, can reduce the effect of semantic drift in the task of word sense disambiguation (WSD) on Senseval-3 English Lexical Sample Task. Proposed algorithms achieve superior performance to Espresso and previous graph-based WSD methods, even though the proposed algorithms have less parameters and are easy to calibrate.
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.107, pp.9-16, 2000-11-21
被引用文献数
18

本稿では,Support Vector Machine (SVM)に基づく一般的なchunk同定手法を提案し,その評価を行なう.SVMは従来からある学習モデルと比較して,入力次元数に依存しない極めて高い汎化能力を持ち,Kernel関数を導入することで効率良く素性の組み合わせを考慮しながら分類問題を学習することが可能である.SVMを英語の単名詞句とその他の句の同定問題に適用し,実際のタグ付けデータを用いて解析を行なったところ,従来手法に比べて非常に高い精度を示した.さらに,chunkの表現手法が異なる複数のモデルの重み付き多数決を行なうことでさらなる精度向上を示すことができた.In this paper, we apply Support Vector Machines (SVMs) to identify English base phrases (chunks). It is well-known that SVMs achieve high generalization performance even with input data of very high dimensional feature space. Furthermore, by introducing the Kernel principle, SVMs can carry out the training in a high-dimensional space with smaller computational cost independent of their dimensionality. In order to achieve higher accuracy, we also apply majority voting of 8 SVM-based systems which are trained using distinct chunk representations. Experimental results show that our approach achieves better accuracy than other conventional frameworks.
著者
工藤 拓
出版者
公益社団法人日本オペレーションズ・リサーチ学会
雑誌
オペレーションズ・リサーチ : 経営の科学 = [O]perations research as a management science [r]esearch (ISSN:00303674)
巻号頁・発行日
vol.52, no.11, pp.719-724, 2007-11-01
参考文献数
6

単語や文節,係り受け関係といった特定の言語パターンの頻度を数え個々の表現の分布を調査することは,自然言語処理でもっとも基本的な処理であることは疑いの余地はなく,その応用範囲は多岐にわたる.処理の内容はいたって単純であるが,大規模データを扱えるようアルゴリズムのスケーラビリティーを確保することは容易ではない.本稿では,頻出言語パターンマイニングアルゴリズムを概観するとともに,マイニングアルゴリズムを応用した機械学習手法について紹介する.