著者
笠原 誠司 小町 守 永田 昌明 松本 裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.4, pp.1-6, 2011-09-09

本稿では日本語学習 SNS において,ローマ字で書かれた学習者の文を仮名に変換することで,添削者が訂正を容易に行えるよう支援する方法について述べる.我々のシステムは外国語の単語を検出し,日本語の単語のみを変換する.また単語のスペルに誤りが含まれていても変換することができる.学習者の作文に対し実験を行い既存の日本語入力システムよりも 10% 高い単語変換精度を達成した.誤り解析を行うことにより,母音同士を混同しやすい,母語の発音の影響を受けた書き方をしてしまう,といった学習者の誤りの傾向を明らかにした.We present an approach to help Japanese editors on language learning SNS correct learners' sentences written in roman characters by converting them into kana. Our system detects foreign words and converts only Japanese words even if it contains spelling errors. Experimental results show that our system achieves about 10 points higher conversion accuracy than one of traditional input methods. Error analysis reveals tendency of errors made by learners. For example, learners tend to be confused by vowels and make errors caused by nature of their native language.
著者
鈴木 郁美 原 一夫 新保 仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.2, pp.65-70, 2009-01-15

コーパスから抽出した文脈情報により作成する専門用語グラフに対し,グラフを辿ることで節点間の類似度を計算する手法を適用し,類義語獲得に応用した.雑誌 「蛋白質・核酸・酵素」 をコーパスとして用いた実験で,コーパスでの出現頻度が少ない専門用語をクエリとして与えた場合,ラプラシアン拡散カーネル行列を用いた手法が比較的高い精度を示した.この結果は,専門性の高いレアな用語を既存のシソーラスに登録する場面において,ラプラシアン行列ベースの手法の有効性を示唆するものである.We apply graph-based methods to problems of biomedical synonym acquisition. Given a graph of biomedical terms constructed from a corpus, the methods calculate term similarities by traversing the graph to capture shared features between nodes. An experimental study shows that, for query terms appearing less than three times in the corpus, the Laplacian diffusion kernel gives better accuracy than the methods based on the adjacency matrix.
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.20, pp.97-104, 2001-03-05
被引用文献数
8

本稿では,チャンキングの段階適用による日本語係り受け解析手法を惺案し,その評価を行う.従来法は,任意の二文節間の係りやすさを数値化した行列を作成し,そこから動的計画法を用いて文全体を最適にする係り受け関係を求めるというモデルに基づいていた.しかし,解析時に候補となるすべての係り関係の尤度を計算する必要があるため効率が良いとは言えない.本提案手法は,直後の文節に係るか係らないかという観点のみで決定的に解析を行うため,従来方法に比べ,モデル自身が単純で,実装も容易であり,高効率である.さらに,従来法では,個々の係り関係の独立性を前提としているが,本提案手法はその独立性を一部排除することが可能である.本提案手法を用い,京大コーパスを用いて実験を行った結果,従来法と比較して効率面で大幅に改善されるとともに,従来法以上の高い精度(89.29%)を示した.In this paper, we apply cascaded chunking to Japanese dependency structure analysis. A conventional approach consists of two steps: First, dependency matrix is constructed, in which each element represents the probability of a dependency. Second, an optimal combination of dependencies are determined from the matrix. However, this method is not always efficient since we have to calculate all the probabilities of candidates. Our proposed cascaded chunking model is quite simple and efficient, since it estimates whether current segment modifies immediately right-hand side segment to parse a sentence. In addition, proposed model does not assume the independence constraints in dependency relation. Experimental results on Kyoto University corpus show that our system achieves accuracy of 89.29%, higher than that of our previous system, as well as improves the efficiency of parsing.
著者
宇津呂 武仁 松本 裕治 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.34, no.5, pp.913-924, 1993-05-15
被引用文献数
24

自然言語処理のための大規模な意味辞書を構築するためには、人間のための辞書や大規模コーパスに含まれる自然言語の文を解析して、そこから意昧辞書を構築する技術を確立することが重要となる。計算機で知識獲得を行う場合、全自動で知識が獲得されることが望ましいが、現在利用可能な情報が貧弱であるため、有用な知識を獲得するためには何らかの人間の介入が必要である。しかし、最終的に得られる結果が人間の主観的な判断の影響を受けないように、人間の介入は最小限に抑えたい。我々は、英語と日本語のように統語構造および語彙が異なる二言語間の翻訳例を構文解析して、その結果を二言語間で比較するというアプローチによって語彙的知識の獲樗を行っている。そこでは、両言語の解析結果を比較することによって統語的および意味的曖昧性の両方が解消するため、単言語だけのアプローチに比ぺると人間の介入を大幅に抑えて語彙的知識を獲得できる。本論文では、二言語対訳コーパスから日本語の動詞の表層格フレームを獲得する手法について述べる。我々の手法では、システムと人間との相互作用は、動詞の複数の意昧を類別する部分だけに許される。そこでは、システムが動詞の複数の意昧を類別する手がかりをヒューリスティックスによって発見し、その妥当性を人間が判定するという形で相互作用が行われる。その際には、対訳例の英語の情報が有カな手がかりとなる。
著者
山下 達雄 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.99, pp.17-22, 1998-11-05
被引用文献数
1

形態素解析処理において、日本語などのわかち書きされない言語と英語などのわかち書きされる言語では、形態素辞書検索のタイミングや辞書検索単位が異なる。これらを同じ枠組で扱うことにより、辞書検索部の多言語化を行った。また、これに関連し、形態素解析処理のモジュール分割を行い、多言語形態素解析ツールキットとして実装した。実験として日本語、英語、中国語、韓国語での実装を行った。To develop a multi-lingual morphological analyzer, we need to recognize crucial differences between segmented languages, like English, and non-segmented languages, like Japanese. One difference is the way the dictionary is looked up. We developed a framework of dictionary look-up to achieve a uniform treatment of both types of languages. Processing undefined words and inflection is another difference. To minimize these language dependencies, we divided whole system into some modules. We implemented a multi-lingual morphological analyzer, in which morphological analysis of Japanese, English and Chinese are experimentally implemented.
著者
伊藤敬彦 堀部 史郎 新保仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.51, pp.181-188, 2003-05-22
被引用文献数
2

ある文献が他のどの文献を参照しているか、という文献の参照情報は、その文献の参考文献一覧の各一文(参考文献文)が指し示している文献を、文献データベース(著者、題目、掲載誌等からなる文献を表す文献データ集合)中から同定することで獲得できる。この同定を、参考文献文と文献データの単なる文字列の完全一致判定で行なうことはできない。参考文献文に表記の多様性や誤りが存在するためである。本稿では参照情報の自動獲得手法を提案する。始めに、単一のベクトル空間とその上での類似度を用いて粗く候補を絞る。次に、参考文献と文候補が同一の文献であるかを多数の尺度に基づく類似度を特徴量として判定する。複数の尺度それぞれの重みを人手でつけることは現実的ではないため本稿ではサポートベクターマシーンを用い、各尺度の最適な重みを自動で算出した結果、F値0.992が得られた。Citation indices are invaluable for the retrieval of related papers. With the increase in the volume of scientific literature, a demand is growing for methods to automatically construct such indices. However, a naive method such as using exact string matches makes errors because of the various ways references can be formatted. In this paper, we propose a new citation indexing method that uses many features to evaluate similarity between references and bibligoraphic data. Unlike the previous work which typically uses only a few features to compute similarity, our method computes a weighted sum of more than 1200 feature values, each of which reflects one of the diverse similarity measures. An F-measure of 0.992 was obtained when Support Vector Machines were used to compute optimal weights to each feature.
著者
中川 哲治 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.73, pp.197-204, 2004-07-16

本稿では,中国語と日本語の単語分割を行うために,コスト最小法と文字タグ付け法を組み合わせた単語分割手法を提案する.単語分割に関してこれまでに多くの研究が行われているが,一般に単語単位で処理を行うコスト最小法は未知語の扱いが困難であり,文字単位で処理を行う文字タグ付け法は既知語に対する精度が低い.そこで,2つの手法を組み合わせることでこれらの問題を解決することを試みる.複数のコーパスを使用して中国語と日本語の単語分割実験を行った結果,高い解析精度が得られることを確認した.In this paper, we propose a hybrid method for Chinese and Japanese word segmentation which combines the Markov model-based method and the character tagging method. In general, word-based Markov models have difficulties in handling of unknown words and the character-based character tagging method performs worse than other methods for known words. In order to solve these problems, we combine the two methods. Experimental results of Chinese and Japanese word segmentation with multiple corpora showed that the method achieves high accuracy.
著者
福岡 健太 浅原 正幸 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.22, no.1, pp.69-77, 2007 (Released:2007-01-05)
参考文献数
15

Linear-chain conditional random fields are a state-of-the-art machine learner for sequential labeling tasks. Altun investigated various loss functions for linear-chain conditional random fields. Tsuboi introduced smoothing method between point-wise loss function and sequential loss function. Sarawagi proposed semi-markov conditional random fields in which variable length of observed tokens are regarded as one node in lattice function. We propose a smoothing method among several loss functions for semi-markov conditional random fields. We draw a comparison among the loss functions and smoothing rate settings in base phrase chunking and named entity recognition tasks.
著者
小町 守 工藤 拓 新保 仁 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.2, pp.233-242, 2010 (Released:2010-01-26)
参考文献数
27
被引用文献数
5 6

Bootstrapping has a tendency, called semantic drift, to select instances unrelated to the seed instances as the iteration proceeds. We demonstrate the semantic drift of Espresso-style bootstrapping has the same root as the topic drift of Kleinberg's HITS, using a simplified graph-based reformulation of bootstrapping. We confirm that two graph-based algorithms, the von Neumann kernels and the regularized Laplacian, can reduce the effect of semantic drift in the task of word sense disambiguation (WSD) on Senseval-3 English Lexical Sample Task. Proposed algorithms achieve superior performance to Espresso and previous graph-based WSD methods, even though the proposed algorithms have less parameters and are easy to calibrate.
著者
藤尾 正和 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.12, pp.4201-4212, 1999-12-15
被引用文献数
14

本論文では,粗い日本語係り受け解析手法として,語の共起確率に基づく係り受け解析手法を提案し,その評価を行う.学習および評価用コーパスとしてEDRコーパスを使用し,文節および文単位の係り受け精度を調べる.またどのような係り受け関係名において誤りが多いのか調べるため,関係名ごとの解析精度も調べる.英語において,比較的近いモデルおよび情報を用いたCollins? (1996)のモデルと文節単位の係り受け精度を比較した結果,EDRコーパスを使用した日本語解析に関しては,我々のモデルの精度がCollinsのモデルを上まわった.また,現状の統計モデルのもとでさらに解析精度を上げるため,再現率を犠牲にして適合率を上げる手法(部分解析),および適合率を犠牲にして再現率を上げる手法(冗長解析手法)についても提案する.``確信度''(乾ら,1998)を使用した Globalのほか,Local/norm,Ratio/nextの3つの手法について評価を行った結果,少くとも我々の統計モデルを使用する場合,解析精度,速度などを考慮するとRatio/nextが優れているということが分かった.We present statistical models of Japanese dependency analysis based onlexical collocation probability.We use the EDR corpus for both training and evaluation,and evaluate the precision of the models in terms of correct dependencypairs and correct sentences.We measure the correct rate of dependencypairs for each type of dependency relation.To achieve higher performance under the current statistical parsingmodel, we propose a method that intend to acquire higher precision rateat the cost of recall rate (partial parse), and the method to acquirehigher recall rate at the cost of precision rate (redundant parse).We propose and compare three partial (redundant) parse methods,Global, Local/norm, Ratio/next, and find that Ratio/next is superior to others among our methods.
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.107, pp.9-16, 2000-11-21
被引用文献数
18

本稿では,Support Vector Machine (SVM)に基づく一般的なchunk同定手法を提案し,その評価を行なう.SVMは従来からある学習モデルと比較して,入力次元数に依存しない極めて高い汎化能力を持ち,Kernel関数を導入することで効率良く素性の組み合わせを考慮しながら分類問題を学習することが可能である.SVMを英語の単名詞句とその他の句の同定問題に適用し,実際のタグ付けデータを用いて解析を行なったところ,従来手法に比べて非常に高い精度を示した.さらに,chunkの表現手法が異なる複数のモデルの重み付き多数決を行なうことでさらなる精度向上を示すことができた.In this paper, we apply Support Vector Machines (SVMs) to identify English base phrases (chunks). It is well-known that SVMs achieve high generalization performance even with input data of very high dimensional feature space. Furthermore, by introducing the Kernel principle, SVMs can carry out the training in a high-dimensional space with smaller computational cost independent of their dimensionality. In order to achieve higher accuracy, we also apply majority voting of 8 SVM-based systems which are trained using distinct chunk representations. Experimental results show that our approach achieves better accuracy than other conventional frameworks.
著者
坂田 浩亮 新保仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.113-119, 2007-09-26
被引用文献数
1

言語教育において,学習者の言語習得度を知ることは教師にとって重要なことであるまた,言語学習者の言語習得度を客観的に量る手段があれば 学習者は教師がいなくても自分の言語習得度を評価できるため,学習効率の向上につながると考えられる.本発表では 言語学習者の作文と習得度別コーパスとの類似度に基づいて 学習者の言語習得度を推定する手法を提案する.NICT JLEコーパスを用いて行った提案手法の評価実験と,その結果について紹介する.We propose methods for automatically evaluating second language learners' proficiency levels. These methods not only help teachers evaluate students' proficiency levels, but also accelerate students' learning, since they can evaluate their proficiency levels whenever they like without consulting their teachers. The proposed methods compute students' proficiency levels on the basis of the similarity between their free compositions and the corpus of compositions divided into skill levels.
著者
浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.3, pp.685-695, 2002-03-15
参考文献数
19
被引用文献数
10

自然言語処理の分野で最も基本的な処理として形態素解析がある.近年大量のタグ付きコーパスが整備され,コーパスに基づいた統計的形態素解析器が開発されてきた.しかし単純な統計的手法ではコーパスに出現しない例外的な言語現象に対処することができない.この問題に対処するため,本論文ではより柔軟な拡張統計モデルを提案する.例外的な現象に対応するために単語レベルの統計値を利用する.この拡張により,細かく分類された大量のタグを扱う際,必要なコーパスの量は増加する.一般に適切なコーパスの量で学習するために複数のタグを同値類へとグループ化することによりタグの数を減らすことが行われる.我々はこれを拡張し,マルコフモデルの条件付き確率計算について,先行する品詞タグ集合と,後続する品詞タグ集合とで,別々の品詞タグの同値類を導入するようにした.コーパスの量が不足する場合にtri-gramモデルを構築すると,学習データへの過学習が起きる.これを回避するために選択的tri-gramモデルを導入した.一方,これらの拡張のため,語彙化するタグやtri-gram文脈の選択を人手で設定することは困難である.そこで,この素性選択に誤り駆動の手法を導入し半自動化した.日本語・中国語形態素解析,英語品詞タグ付けについて評価実験を行い,これらの拡張の有効性を検証した.Recently, large-scale part-of-speech tagged corpora have becomeavailable, making it possible to develop statistical morphologicalanalyzers trained on these corpora.Nevertheless, statistical approaches in isolation cannot coverexceptional language phenomena which do not appear in the corpora.In this paper, we propose three extensions to statistical modelsin order to cope with such exceptional language phenomena.First of all, we incorporate lexicalized part-of-speech tags into the modelby using the word itself as a part-of-speech tag.Second, because the tag set becomes fragmented by the use of lexicalized tags, we reduce the size of the tag set by introducing a new type of grouping technique where the tag set ispartitioned creating two different equivalent classes for the events in theconditional probabilities of a Markov Model.Third, to avoid over-fitting, we selectively introduce tri-gram contexts into a bi-gram model.In order to implement these extensions, we introduce error-driven methods to semi-automatically determine the words to be used as lexicalized tags and the tri-gram contextsto be introduced.We investigate how our extension is effective through experiments onJapanese, Chinese and English.
著者
浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.49-56, 2003-01-20
被引用文献数
1

一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組み合わせによる.形態素解析出力結果をそのままチャンカーの入力にすると,形態素解析結果より小さい単位の固有表現を抽出することは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn次解までの品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャンカーにより決定的に固有表現となる語の語境界を推定する.この手法により,1次解のみを用いる場合より豊かな素性をチャンカーに与えることができ,固有表現抽出の精度を向上させることができた.CRL 固有表現データを用いて評価実験(交差検定 5-fold)を行った結果,F 値約 88% という高精度の結果が得られた.Named Entity (NE) extraction is a task in which proper nouns and numerical information are extracted from texts. A method of cascading morphological analysis and chunking is usually used for NE extraction in Japanese. However, such a method cannot extract smaller NE units than morphological analyzer outputs. To cope with the unit problem, we propose a character-based chunking method. Firstly, input sentences are redundantly analyzed by a statistical analyzer. Secondly, the input sentences are segmented into characters. The characters are annotated redundantly with the character types and POS tags of the top n best answers that are given by the statistical morphological analyzer. Finally, we do chunking deterministically based on support vector machines. The method can introduce richer features for chunkers than the method based on single morphological analysis result. We apply our method to IREX NE task using CRL Named Entities data. The cross validation result of the F-value being 88% shows the effectiveness of the method.
著者
飯田 龍 乾健太郎 松本裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.3, pp.906-918, 2004-03-15
参考文献数
24
被引用文献数
15

センタリング理論のような言語学的な知見を,機械学習を用いた照応解析に統合する一方法を提案する.従来の照応解析手法は,大きく規則ベースの手法と統計的な手法に分類でき,それぞれ独立に研究がなされてきた.規則ベースの手法では,言語学的知見に基づき人手で規則を記述するが,照応現象を包括的にとらえる規則を書き尽くすことは困難である.一方,機械学習に基づく手法では,人手では扱うことのできない規則の組合せを考慮できるが,言語学的知見を有効に活用していない.これら2つの手法をうまく統合することによって,両者の利点を同時に引き出すことができれば,精度の向上がさらに期待できる.本論文では2つの手法の統合を目指し,具体的な方法として,(i)センタリング理論に基づく局所的な文脈を考慮した素性(センタリング素性)の導入,および(ii)先行詞候補間を比較するモデル(トーナメントモデル)の2点を提案する.この提案手法を用いて日本語ゼロ代名詞の同定を行い,先行研究の機械学習を用いた手法より精度良く先行詞の同定ができたことを報告する.We propose a method that enhances a machine learning model foranaphora resolution by incorporating linguistically motivatedcontextual clues, such as the centering theory. Conventionalapproaches to anaphora resolution (or more generally coreferenceresolution) can be classified into rule-based approaches andcorpus-based empirical approaches, and they have evolved ratherindependently. In rule-based approaches, efforts have been directedto manual encoding of various linguistic cues into a set of rule.However it is prohibitively difficult to describe rulesexhaustively. On the other hand, empirical approaches with a machinelearning techniques are able to take into account the combination offeatures, which is hard to deal with in the former approaches.However, they hardly exploit the linguistic cues. Therefore, weenvisaged that a method that combines the working of the twoapproaches will perform more effectively. Indeed, our model showsimprovements arising from two sources: (i) the feature of localcontextual factors and (ii) an augmentation of the learning model totake into account comparison between candidates. This model is appliedto resolve Japanese zero-anaphors and outperforms earlier machinelearning approaches.
著者
平尾 努 磯崎 秀樹 前田 英作 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.8, pp.2230-2243, 2003-08-15
参考文献数
29
被引用文献数
10

文書から重要な情報を持った文を抽出する重要文抽出技術は,文書要約技術の1つであり,より自然な文書要約を実現するための基盤技術である.重要文の抽出精度を高めるためには,複数の手がかりを統合的かつ効果的に扱うことが必要とされており,機械学習手法を取り入れた重要文抽出法が着目されつつある.本稿では,汎化能力の高い機械学習手法とされるSupport Vector Machine(SVM)を用いた重要文抽出手法を提案する.Text Summarization Challenge(TSC)のデータを用いて評価実験を行い,提案手法はLead手法などの従来手法と比較して統計的に有意な差で優れていることを実証した.また,野本らのデータを用いた評価実験でもこれに近い成績が得られた.さらに,文書のジャンルを考慮することで重要文の抽出精度が向上すること,重要文抽出に有効な素性のジャンルによる違いを明らかにした.Extracting from a text the sentences that contain important information is aform of text summarization.If done accurately, it supports the automatic generation of summaries similar to those written by humans.To achieve this, the algorithm must be able to handle heterogeneous information.Therefore, parameter tuning by machine learning techniques have received attention.In this paper, we propose a method of sentence extraction based onSupport Vector Machines (SVMs).To confirm the performance of our method, we conduct experiments on the Text Summarization Challenge (TSC) corpus and Nomoto's corpus.Results on the former show that our method is better (statistically significant) than the Lead-based method.Moreover, we discover that document genre is important with regard to extraction performance; the effective features of each genre are clarified.