著者
大石 亨 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.29, pp.15-20, 1997-03-21
被引用文献数
4

日本語のアスペクトの研究は,継続相,完成相というような分類とそれぞれの意味を記述していく段階から,副詞的成分などの関わりを含め,アスペクト的な意味の決まり方のプロセスを整理する方向へと発展してきている.本稿では,アスペクト形式や副詞句の意味を時間軸におけるズーミングや焦点化といった認知的プロセスを表示するものとしてとらえ,動詞句の意味に対する動的な操作であると考える.その上で,動詞の意味を素性によって六種類のカテゴリーに分類し,コーパスに現れた表層表現によってこれを推定する実験を行なった.実験の結果,対象とした動詞のうち,96%のカテゴリーを一意に決定することができた.得られた分類を評価するために,最も基本的なアスペクトの形態である「シテイル」形の意味を自動的に決定する処理を行なった.200文における正解率は71%であった.これらの情報は,動詞句のアスペクト的な意味のあり方の類型を与えるだけではなく,文間の関係をとらえる際の手がかりを提供するものであると考える.The study on aspect in Japanese has evolved from the description of the meaning for each type such as "progressive" or "perfective" into the process of the determination of the aspectual meaning including adverbial phrases etc. In this paper, we consider the meaning of the aspectual markers or adverbs as the indicators of the cognitive processes such as "zooming" or "focusing" on the time-line and define them as the dynamic operations on the meaning of the verb phrases. We estimate the aspectual meaning of verbs from surface expressions in a corpus and represent them as a bundle of features. A unique category is identified for 96% of the target verbs. To evaluate the result of the experiment, we examine the meaning of si-teiru which is one of the most fundamental aspectual markers, and obtained the correct recognition score of 71% for the 200 sentences.
著者
竹内 孔一 松本 裕治
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.95, no.168, pp.13-19, 1995-07-20
被引用文献数
5

日本語の形態素解析は自然言語処理を行なう上で最も基本的でかつ重要な処理である。我々の研究室で開発している形態素解析システムJUMANは、品詞の連接と単語に対してコストによる制約を与えることで曖昧性の絞り込みを行なっている。コスト値はJUMANの品質に大きな影響を与えるにも関わらず、人手で付与されるため最適化する機構は存在しなかった。そこで、本研究では、英語のタグづけなどで効果を発揮しているHMM(Hidden Markov Model)を用いて、コーパスによる学習を行なうことでJUMANのコスト値、すなわちパラメータの最適化を行なう。HMM学習の結果、現在のJUMANの解析精度を改善する結果が得られた。
著者
北内 啓 宇津呂 武仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.21, pp.41-48, 1998-03-12
被引用文献数
2

本研究では、日本語形態素解析の確率モデル学習におけるパラメータ推定の精度を上げるための有効な品詞分類を自動的に学習した。解析誤りをもとに詳細化する品詞分類を素性として取り出し、品詞分類を段階的に細かくしていく。学習によって得られた品詞分類を用いてbi-gramのマルコフモデルに基づくパラメータ推定を行うことにより、形態素解析の精度を向上させた。実験により、人手で調整して決めた品詞分類に比べ、より少ないパラメータ数でより高い精度を得ることができた。また、品詞分類によってパラメータ数や精度がどのように変化するかといった、品詞分類全体の性質をとらよることができた。This paper proposes a method of an learning optimal set of part-of-speech tags which gives the highest performance in morphological analysis. In our method, considering patterns of errors in the morphological analysis, first, candidates of more specific part-of-speech tags to be included in the model of morphological analyzer are generated. Then, the most effective candidate which gives the greatest decrease in errors is employed. In the experimental evaluation of the proposed method, we achieve a morphological analyzer of higher performance compared with a model with a hand-tuned set of part-of-speech tags, and with much smaller number of parameters.
著者
笠原 誠司 小町 守 永田 昌明 松本 裕治
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.4, pp.1-6, 2011-09-09

本稿では日本語学習 SNS において,ローマ字で書かれた学習者の文を仮名に変換することで,添削者が訂正を容易に行えるよう支援する方法について述べる.我々のシステムは外国語の単語を検出し,日本語の単語のみを変換する.また単語のスペルに誤りが含まれていても変換することができる.学習者の作文に対し実験を行い既存の日本語入力システムよりも 10% 高い単語変換精度を達成した.誤り解析を行うことにより,母音同士を混同しやすい,母語の発音の影響を受けた書き方をしてしまう,といった学習者の誤りの傾向を明らかにした.We present an approach to help Japanese editors on language learning SNS correct learners' sentences written in roman characters by converting them into kana. Our system detects foreign words and converts only Japanese words even if it contains spelling errors. Experimental results show that our system achieves about 10 points higher conversion accuracy than one of traditional input methods. Error analysis reveals tendency of errors made by learners. For example, learners tend to be confused by vowels and make errors caused by nature of their native language.
著者
城戸崎 和佐 仲 隆介 松本 裕司
出版者
神戸大学
雑誌
基盤研究(C)
巻号頁・発行日
2010

外部と内部の明快な境界を持たず環境として連続する概念としてのに着目して、オフィスデザインに外部環境を直接的・概念的に取り入れるための基礎的な調査と実践を行い、オフィスデザイン上の要点とその効果を明らかにした。
著者
鈴木 郁美 原 一夫 新保 仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.2, pp.65-70, 2009-01-15

コーパスから抽出した文脈情報により作成する専門用語グラフに対し,グラフを辿ることで節点間の類似度を計算する手法を適用し,類義語獲得に応用した.雑誌 「蛋白質・核酸・酵素」 をコーパスとして用いた実験で,コーパスでの出現頻度が少ない専門用語をクエリとして与えた場合,ラプラシアン拡散カーネル行列を用いた手法が比較的高い精度を示した.この結果は,専門性の高いレアな用語を既存のシソーラスに登録する場面において,ラプラシアン行列ベースの手法の有効性を示唆するものである.We apply graph-based methods to problems of biomedical synonym acquisition. Given a graph of biomedical terms constructed from a corpus, the methods calculate term similarities by traversing the graph to capture shared features between nodes. An experimental study shows that, for query terms appearing less than three times in the corpus, the Laplacian diffusion kernel gives better accuracy than the methods based on the adjacency matrix.
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.20, pp.97-104, 2001-03-05
被引用文献数
8

本稿では,チャンキングの段階適用による日本語係り受け解析手法を惺案し,その評価を行う.従来法は,任意の二文節間の係りやすさを数値化した行列を作成し,そこから動的計画法を用いて文全体を最適にする係り受け関係を求めるというモデルに基づいていた.しかし,解析時に候補となるすべての係り関係の尤度を計算する必要があるため効率が良いとは言えない.本提案手法は,直後の文節に係るか係らないかという観点のみで決定的に解析を行うため,従来方法に比べ,モデル自身が単純で,実装も容易であり,高効率である.さらに,従来法では,個々の係り関係の独立性を前提としているが,本提案手法はその独立性を一部排除することが可能である.本提案手法を用い,京大コーパスを用いて実験を行った結果,従来法と比較して効率面で大幅に改善されるとともに,従来法以上の高い精度(89.29%)を示した.In this paper, we apply cascaded chunking to Japanese dependency structure analysis. A conventional approach consists of two steps: First, dependency matrix is constructed, in which each element represents the probability of a dependency. Second, an optimal combination of dependencies are determined from the matrix. However, this method is not always efficient since we have to calculate all the probabilities of candidates. Our proposed cascaded chunking model is quite simple and efficient, since it estimates whether current segment modifies immediately right-hand side segment to parse a sentence. In addition, proposed model does not assume the independence constraints in dependency relation. Experimental results on Kyoto University corpus show that our system achieves accuracy of 89.29%, higher than that of our previous system, as well as improves the efficiency of parsing.
著者
秋元 芳明 小野 眞紀子 松本 裕子 藤井 彰 山本 浩嗣 平山 晃康
出版者
日本大学
雑誌
基盤研究(C)
巻号頁・発行日
2004

平成16年〜平成18年12月の期間中の歯性感染症611症例を対象として、膿・滲出液を採取し、細菌培養を行った。22症例からブドウ球菌(staphylococci)を分離した。同定の結果は、黄色ブドウ球菌(Staphulococcus aureu: S. auresu)16株、白色ブドウ球菌(Staphylococcus epidermidis: S.epidermidis)6株であった。S. aureus16株中、メチシリン耐性黄色ブドウ球菌(MRSA)は1株、S.epidermidis6株中、メチシリン耐性白色ブドウ球菌(MRCoNS)は2株検出された。MRSA分離頻度は、MRSA/全歯性感染症:0.002、MRSA/S. aureus:0.063であった。MRCoNS分離頻度は、MRCoNS/全歯性感染症:0.003、MRCoNS/S. epidermidis:0.333であり、MRCoNSの分離頻度が高かった。MRSA, MRCoNSが感受性を示した抗菌薬は、アルベカシン、バンコマイシン、リファンピシンであった。beta-lactamese産性は認めなっかた。全症例で皮下膿瘍形成を認めた。1症例は基礎疾患として糖尿病があったが、コントロールされていた。画像所見では、根尖病巣を認めた。処置法は、切開排膿・ドレナージを行い、膿瘍部を洗浄し治癒を得た。結果を誌上および学会発表した。なお、シンポジストととして5thInternational Symposium on Antimicrobial Agents and Resistance, Seoul, Korea, 4/28,2005にてMethicillin-resistant staphylococcal infections in odontogenicinfectionsを発表した。
著者
宇津呂 武仁 松本 裕治 長尾 眞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.34, no.5, pp.913-924, 1993-05-15
被引用文献数
24

自然言語処理のための大規模な意味辞書を構築するためには、人間のための辞書や大規模コーパスに含まれる自然言語の文を解析して、そこから意昧辞書を構築する技術を確立することが重要となる。計算機で知識獲得を行う場合、全自動で知識が獲得されることが望ましいが、現在利用可能な情報が貧弱であるため、有用な知識を獲得するためには何らかの人間の介入が必要である。しかし、最終的に得られる結果が人間の主観的な判断の影響を受けないように、人間の介入は最小限に抑えたい。我々は、英語と日本語のように統語構造および語彙が異なる二言語間の翻訳例を構文解析して、その結果を二言語間で比較するというアプローチによって語彙的知識の獲樗を行っている。そこでは、両言語の解析結果を比較することによって統語的および意味的曖昧性の両方が解消するため、単言語だけのアプローチに比ぺると人間の介入を大幅に抑えて語彙的知識を獲得できる。本論文では、二言語対訳コーパスから日本語の動詞の表層格フレームを獲得する手法について述べる。我々の手法では、システムと人間との相互作用は、動詞の複数の意昧を類別する部分だけに許される。そこでは、システムが動詞の複数の意昧を類別する手がかりをヒューリスティックスによって発見し、その妥当性を人間が判定するという形で相互作用が行われる。その際には、対訳例の英語の情報が有カな手がかりとなる。
著者
山下 達雄 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.99, pp.17-22, 1998-11-05
被引用文献数
1

形態素解析処理において、日本語などのわかち書きされない言語と英語などのわかち書きされる言語では、形態素辞書検索のタイミングや辞書検索単位が異なる。これらを同じ枠組で扱うことにより、辞書検索部の多言語化を行った。また、これに関連し、形態素解析処理のモジュール分割を行い、多言語形態素解析ツールキットとして実装した。実験として日本語、英語、中国語、韓国語での実装を行った。To develop a multi-lingual morphological analyzer, we need to recognize crucial differences between segmented languages, like English, and non-segmented languages, like Japanese. One difference is the way the dictionary is looked up. We developed a framework of dictionary look-up to achieve a uniform treatment of both types of languages. Processing undefined words and inflection is another difference. To minimize these language dependencies, we divided whole system into some modules. We implemented a multi-lingual morphological analyzer, in which morphological analysis of Japanese, English and Chinese are experimentally implemented.
著者
伊藤敬彦 堀部 史郎 新保仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.51, pp.181-188, 2003-05-22
被引用文献数
2

ある文献が他のどの文献を参照しているか、という文献の参照情報は、その文献の参考文献一覧の各一文(参考文献文)が指し示している文献を、文献データベース(著者、題目、掲載誌等からなる文献を表す文献データ集合)中から同定することで獲得できる。この同定を、参考文献文と文献データの単なる文字列の完全一致判定で行なうことはできない。参考文献文に表記の多様性や誤りが存在するためである。本稿では参照情報の自動獲得手法を提案する。始めに、単一のベクトル空間とその上での類似度を用いて粗く候補を絞る。次に、参考文献と文候補が同一の文献であるかを多数の尺度に基づく類似度を特徴量として判定する。複数の尺度それぞれの重みを人手でつけることは現実的ではないため本稿ではサポートベクターマシーンを用い、各尺度の最適な重みを自動で算出した結果、F値0.992が得られた。Citation indices are invaluable for the retrieval of related papers. With the increase in the volume of scientific literature, a demand is growing for methods to automatically construct such indices. However, a naive method such as using exact string matches makes errors because of the various ways references can be formatted. In this paper, we propose a new citation indexing method that uses many features to evaluate similarity between references and bibligoraphic data. Unlike the previous work which typically uses only a few features to compute similarity, our method computes a weighted sum of more than 1200 feature values, each of which reflects one of the diverse similarity measures. An F-measure of 0.992 was obtained when Support Vector Machines were used to compute optimal weights to each feature.
著者
中川 哲治 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.73, pp.197-204, 2004-07-16

本稿では,中国語と日本語の単語分割を行うために,コスト最小法と文字タグ付け法を組み合わせた単語分割手法を提案する.単語分割に関してこれまでに多くの研究が行われているが,一般に単語単位で処理を行うコスト最小法は未知語の扱いが困難であり,文字単位で処理を行う文字タグ付け法は既知語に対する精度が低い.そこで,2つの手法を組み合わせることでこれらの問題を解決することを試みる.複数のコーパスを使用して中国語と日本語の単語分割実験を行った結果,高い解析精度が得られることを確認した.In this paper, we propose a hybrid method for Chinese and Japanese word segmentation which combines the Markov model-based method and the character tagging method. In general, word-based Markov models have difficulties in handling of unknown words and the character-based character tagging method performs worse than other methods for known words. In order to solve these problems, we combine the two methods. Experimental results of Chinese and Japanese word segmentation with multiple corpora showed that the method achieves high accuracy.
著者
福岡 健太 浅原 正幸 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.22, no.1, pp.69-77, 2007 (Released:2007-01-05)
参考文献数
15

Linear-chain conditional random fields are a state-of-the-art machine learner for sequential labeling tasks. Altun investigated various loss functions for linear-chain conditional random fields. Tsuboi introduced smoothing method between point-wise loss function and sequential loss function. Sarawagi proposed semi-markov conditional random fields in which variable length of observed tokens are regarded as one node in lattice function. We propose a smoothing method among several loss functions for semi-markov conditional random fields. We draw a comparison among the loss functions and smoothing rate settings in base phrase chunking and named entity recognition tasks.
著者
小町 守 工藤 拓 新保 仁 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.2, pp.233-242, 2010 (Released:2010-01-26)
参考文献数
27
被引用文献数
5 6

Bootstrapping has a tendency, called semantic drift, to select instances unrelated to the seed instances as the iteration proceeds. We demonstrate the semantic drift of Espresso-style bootstrapping has the same root as the topic drift of Kleinberg's HITS, using a simplified graph-based reformulation of bootstrapping. We confirm that two graph-based algorithms, the von Neumann kernels and the regularized Laplacian, can reduce the effect of semantic drift in the task of word sense disambiguation (WSD) on Senseval-3 English Lexical Sample Task. Proposed algorithms achieve superior performance to Espresso and previous graph-based WSD methods, even though the proposed algorithms have less parameters and are easy to calibrate.
著者
藤尾 正和 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.12, pp.4201-4212, 1999-12-15
被引用文献数
14

本論文では,粗い日本語係り受け解析手法として,語の共起確率に基づく係り受け解析手法を提案し,その評価を行う.学習および評価用コーパスとしてEDRコーパスを使用し,文節および文単位の係り受け精度を調べる.またどのような係り受け関係名において誤りが多いのか調べるため,関係名ごとの解析精度も調べる.英語において,比較的近いモデルおよび情報を用いたCollins? (1996)のモデルと文節単位の係り受け精度を比較した結果,EDRコーパスを使用した日本語解析に関しては,我々のモデルの精度がCollinsのモデルを上まわった.また,現状の統計モデルのもとでさらに解析精度を上げるため,再現率を犠牲にして適合率を上げる手法(部分解析),および適合率を犠牲にして再現率を上げる手法(冗長解析手法)についても提案する.``確信度''(乾ら,1998)を使用した Globalのほか,Local/norm,Ratio/nextの3つの手法について評価を行った結果,少くとも我々の統計モデルを使用する場合,解析精度,速度などを考慮するとRatio/nextが優れているということが分かった.We present statistical models of Japanese dependency analysis based onlexical collocation probability.We use the EDR corpus for both training and evaluation,and evaluate the precision of the models in terms of correct dependencypairs and correct sentences.We measure the correct rate of dependencypairs for each type of dependency relation.To achieve higher performance under the current statistical parsingmodel, we propose a method that intend to acquire higher precision rateat the cost of recall rate (partial parse), and the method to acquirehigher recall rate at the cost of precision rate (redundant parse).We propose and compare three partial (redundant) parse methods,Global, Local/norm, Ratio/next, and find that Ratio/next is superior to others among our methods.
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.107, pp.9-16, 2000-11-21
被引用文献数
18

本稿では,Support Vector Machine (SVM)に基づく一般的なchunk同定手法を提案し,その評価を行なう.SVMは従来からある学習モデルと比較して,入力次元数に依存しない極めて高い汎化能力を持ち,Kernel関数を導入することで効率良く素性の組み合わせを考慮しながら分類問題を学習することが可能である.SVMを英語の単名詞句とその他の句の同定問題に適用し,実際のタグ付けデータを用いて解析を行なったところ,従来手法に比べて非常に高い精度を示した.さらに,chunkの表現手法が異なる複数のモデルの重み付き多数決を行なうことでさらなる精度向上を示すことができた.In this paper, we apply Support Vector Machines (SVMs) to identify English base phrases (chunks). It is well-known that SVMs achieve high generalization performance even with input data of very high dimensional feature space. Furthermore, by introducing the Kernel principle, SVMs can carry out the training in a high-dimensional space with smaller computational cost independent of their dimensionality. In order to achieve higher accuracy, we also apply majority voting of 8 SVM-based systems which are trained using distinct chunk representations. Experimental results show that our approach achieves better accuracy than other conventional frameworks.
著者
坂田 浩亮 新保仁 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.113-119, 2007-09-26
被引用文献数
1

言語教育において,学習者の言語習得度を知ることは教師にとって重要なことであるまた,言語学習者の言語習得度を客観的に量る手段があれば 学習者は教師がいなくても自分の言語習得度を評価できるため,学習効率の向上につながると考えられる.本発表では 言語学習者の作文と習得度別コーパスとの類似度に基づいて 学習者の言語習得度を推定する手法を提案する.NICT JLEコーパスを用いて行った提案手法の評価実験と,その結果について紹介する.We propose methods for automatically evaluating second language learners' proficiency levels. These methods not only help teachers evaluate students' proficiency levels, but also accelerate students' learning, since they can evaluate their proficiency levels whenever they like without consulting their teachers. The proposed methods compute students' proficiency levels on the basis of the similarity between their free compositions and the corpus of compositions divided into skill levels.