著者
山田 寛康 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.44, pp.57-64, 2002-05-23
参考文献数
10
被引用文献数
3

本稿では 機械学習アルゴリズム Support Vector Machine を用いた英語構文解析法を提案する. 高精度な構文解析を行うには 句のラベルだけでなく 句の主辞がもつ語彙情報をも考慮する必要がある. しかし従来の統計的構文解析モデルは データスパースネスの問題から 主辞の語彙情報を素性として大量に使用することは 逆に精度低下の要因となっていた. 機械学習アルゴリズム Support Vector Machine は 素性空間の次元数に依存しない高い汎化性能と Kernel 関数によって素性の組合せまでも考慮した学習が可能である. そのため主辞の語彙情報を含めた多くの素性とその組合わせを考慮した学習が行える. しかし SVM は 確率を推定するのではなく 2つのクラスを識別する分類器であり 従来多くの統計的構文解析モデルが採用している確率モデルへの直接的な適用が困難である.本稿では 上昇型解析アルゴリズムを用い 構文解析の各段階を 文脈に適切な解析木構築手続きへの分類問題とみなすことでSVMを適用し 解析木構築規則の学習を行う. 解析木は SVMが分類器であることから 決定的に構築される. 本手法を Penn Treebank コーパスを用いて評価した結果 labeledrecall/precision で 88.2/89.0%という高い精度を得ることができた.In this paper, we propose a parsing method for English sentences with machine learning algorithm called Support Vector Machines (SVMs). The performance of statistical parsing strongly depends on how to deal with lexical information and incorporate them into the statistics for parsing. Data sparseness problem arises when using large number of features like head words. As a result, we cannot estimate correct statistics for construction of parse trees. SVMs not only have high generalization performance in sparse data using a large number of features like head words, but also can take into account the combinations of features by virtue of polynomial kernel functions. However, SVMs are classifiers, not probabilistic estimator. Thus, it is difficult to apply SVMs to the probabilistic parsing model directly. Our parser constructs a parse tree for an input sentence with a deterministic bottom-up algorithm. Each parsing process is regarded as a classification task which classifies the context into a procedure for constructing parsed trees. We evaluated our parser using the Penn Treebank corpus, and the result attained over the 88.2/89.0% labeled recall/precision.
著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.95, pp.155-162, 1999-11-25

本論文では,単語の意味を単語間の連想関係を表す確率分布として表現し,その定式化と連想確率の獲得について述べる.単語の意味的な重みを表す指標として単語の共起確率分布の情報量から計算される連想情報量を提案し,共起確率との組み合わせにより連想確率を計算する.連想はMarkov過程の上で行われ,その状態確率分布として意味が定義される.状態遷移として連想を行うことによって,直接共起しない語の意味的な関係が表現できる.また,確率ベクトルとして捉えた意味のスケール変換として文脈を捉え,先行単語集合の数を仮定しない非線型な更新式を提案し,これにより文脈の強化と順序への依存が表現できることを示す.現実のテキストから意味を獲得し,文脈をモデル化することで,意味的類似度や文脈解析だけでなく,情報検索などにおいて様々な実際的な意味処理が可能になる.This paper describes meanings of a word by stochastic association. First, we propose a new indicator of semantic informativeness of a word by its co-occurrence distributions. Second, we define the association probability by a combination of co-occurrence probability and the indicator. Then, regarding context as a vector of scaling factors against semantic vector, we propose a nonlinear formula of context succession to show its validity in modeling reinforcement and order depencency of context. Stochastic treatment of meaning and its aquisition from texts is useful in real semantic processing.
著者
野本 忠司 松本 裕治
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.97, no.200, pp.1-6, 1997-07-25

本稿では大学生を中心とした被験者112名について要約文指摘能力に関する調査を行い、そのデータをもとにした自動要約手法について述べる。要約問題は日本経済新聞95年の記事から随想 (春秋)、社説、一面報道の各分野別に粒度の揃った記事を選び作成した。調査結果はKappa統計と呼ばれる尺度で評価し、さらに調査データから要約文判定の被験者間一致度を調べ、その高低に応じていくつかのデータセットを作成した。一方、自動要約の手法として、C4.5学習アルゴリズムを使い、上記データセットに対する要約モデルの生成とテスト実験をおこなった。実験の結果、K値と自動要約モデルの性能との間に相関傾向があることが認められた。
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.9, pp.2146-2156, 2004-09-15
被引用文献数
25

近年,テキスト分類は,単純なトピック分類から,文のモダリティ,意見性,主観性といった書き手の意図に基づく分類へと,そのタスクの多様化が進んでいる.それにともない,単語の集合(bag-of-words)を素性とする古典的手法では十分な精度を得にくくなっている.精度向上には,テキストの構造(構文/レイアウト)を考慮する必要があるが,恣意的に選択された部分構造のみを用いた手法が多い.本稿では,構造を考慮したテキスト分類(半構造化テキスト分類)に向け,部分木を素性とするdecision stumpsと,それを弱学習器とするBoostingアルゴリズムを提案する.また,Tree Kernelを用いたSVMとの関連性,および本手法の利点について言及する.実データを用いた実験により,提案手法の有効性を検証する.The research focus in text classification has expanded from a simple topic identification to a more challenging task, such as opinion/modality identification. For the latter, the traditional bag-of-word representations are not sufficient, and a richer, structural representation will be required. Accordingly, learning algorithms must be able to handle such sub-structures observed in text. In this paper, we propose a Boosting algorithm that captures sub-structures embedded in text. The proposal consists of i) decision stumps that use subtrees as features and ii) Boosting algorithm in which the subtree-based decision stumps are applied as weak learners. We also discuss a relation between our algorithm and SVM with Tree Kernel. Two experiments on the opinion/modality classification tasks confirm that subtree features are important. Our Boosting algorithm is computationally efficient for classification tasks involving discrete structural features.
著者
浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.137, pp.39-46, 2000-06-01
参考文献数
9
被引用文献数
1

我々は日本語形態素解析器『茶筌』のための学習ツールを開発している。現在『茶筌』では階層構造をもった品詞体系を採用し、タグの種類は約500にもなっている。このため、通常の品詞tri-gramモデルの作成は困難で、品詞bi-gramモデルでも適当な量のタグづけコーパスを得ることは難しい。通常、このような細かいタグを取り扱うために、複数のタグを同値類へとグループ化することによってタグの数を減らすことが行われる。我々はこれを拡張し、マルコフモデルの条件付き確率計算について各件でタグの同値類を変更するようにした。さらに、例外的な現象によるデータスパースネスに対処するため、単語レベルまで品詞として見るモデルと、選択的tri-gramモデルを導入した。また、単語レベルまで品詞として見る場合には、単語-品詞間スムージングを導入した。『茶筌』にこれらのモデルを適用し、各拡張の評価を行った。
著者
山田 寛康 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.112, pp.33-38, 2001-11-20
被引用文献数
7

本研究では 日本語固有表現抽出タスクを題材に 機械学習アルゴリズムSupport Vector Machine(SVM)を多値分類問題に適用する手法を提案し 代表的な従来手法である one vs. rest 法 及び pairwise法 との比較を行なう. 二値分類器であるSVMを固有表現抽出タスクに適用するためには 多値分類器に拡張する必要がある. しかし分類するクラス数に比例して計算コストが増加するため 現実的な時間での学習 及び分類が困難となる. 我々は 多値分類問題を 比較的分類が容易な二値分類へ分割し 二分木を構築する手法を応用し 効率的な学習 及び分類ができるよう SVMの多値分類器への拡張を行う. 固有表現抽出実験では 従来法である pairwise 法 及び one vs. rest 法と比べ ほぼ同等な抽出精度を維持し 抽出時間を削減できることを確認した.This paper proposes a method for multi-class classification with Support Vector Machines(SVM) and evaluates its effectiveness using Japanese named entity extraction task. Multi-class problems with more than two classes have typically been solved by combining independently produced binary classifiers, such as pairwise and one vs. rest method. However, these methods require large computational cost with increasing the number of classes. We propose a method to reduce multi-class classification to binary using a method called as tree-structured model for efficient learning and classifying. Results of our extraction experiments suggest that the method is comparable to the one vs. rest and pairwise methods, and it can reduce the extraction time.
著者
坪井 祐太 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.20, pp.17-24, 2002-03-04
被引用文献数
2

本研究では、機械学習手法(Support Vector Machines)を用いてメーリングリストの著者識別を行った。また、メーリングリストのデータで学習した識別器によって、Webの文書の著作識別を試みることで異なるタイプのドキュメントに対する性能を調べた。この際、従来から使われていた単語N-gramとともに、データマイニング手法(PrefixSpan)によって抽出された単語の連続パターンを素性に用いることでより高い性能が得られた。使用されたパターンは隣り合わない単語列にもマッチするパターンであり、実験結果より著述すタイルを表現するのに適当な特徴の一つであると考えられる。The study of authorship identification in Japanese has for most part been restricted to literary texts using basic statistical methods. In the present study, authors of mailing list messages are identified using a machine learning technique (Support Vector Machines). In addition, the classifier trained on the mailing list data is applied to identify the author of Web documents in order to investigate performance in authorship identification for more heterogeneous documents. Experimental results show better identification performance when we use the features of not only conventional word N-gram information but also of frequent sequential patterns extracted by a data mining technique (PrefixSpan).
著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.41-47, 2003-01-20
被引用文献数
2

本報告では 語彙の意味的概念の空間内での表現に関し 空間の性質によらない評価基準を示し 確率的表現が従来のベクトル空間での表現より優れていることを見る.また 計算量上問題となる概念空間の次元数に対し AICによる最適次元数の決定を試みた.This paper proposes a neutral metric of semantic coherence independent of the inherent property of semantic spaces. Using this metric, we show that PLSA representation excels than LSA, and try to find an optimal setting of semantic dimensions based on minimum description length criterion.
著者
竹内 孔一 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.6, pp.2679-2689, 1999-06-15
被引用文献数
13

近年 インターネットの普及により OCRを用いたテキストの電子化がますます重要な課題となってきた. 日本語におけるOCR誤り訂正の先行研究には OCRの文字候補と品詞タグ付きコーパスを利用した研究がある. しかしながら 分野が異なれば単語の出現分布などが変わることから 誤り訂正を行う分野と同分野のタグ付きコーパスを用意する必要があり それには大変コストがかかる. また 分野によっては統計学習に必要な電子化テキストデータがない場合も多い. そこで まず我々は学習用として電子化された大量テキストデータを仮定したOCR誤り訂正システムを構築し ランダムに生成された文字置換誤りテキストに対する訂正実験を行った. 次に 電子化テキストがない分野に対して OCR処理された誤りを含むテキストを学習に利用するシステムを作成し評価を行った. システムは 文字trigram 統計的形態素解析システム 単語trigramを用いた. 大量テキストを仮定したシステムでは 90%の文字読み取り精度のテキストを92.9%まで改善し 95%の精度のテキストを96.4%にまで改善した. また 電子化テキストデータがない場合について 実際のOCR処理されたテキストに対する訂正実験を行い その有効性を示す.In recent years, OCR error correction is getting more and more important for the purpose of converting printed texts into electronic ones on computers. As a previous work, there exists a study of OCR post processing which uses OCR's character candidates and a morphological analyzer trained on part-of-speech-tagged corpus. However, too much cost is required to prepare pos-tagged corpus for each domain. In this paper, we present an OCR error correction method which uses stochastic language models trained on large texts. We also construct an OCR error correction system which uses OCR's output texts in a domain in which no large scale training text exists. Our system consists of the models of character trigram, a stochastic morphological analyzer and word trigram. We show that the models trained on large texts improve a text of 90% correct character rate into that of 92.9% correct rate and a 95% correct text into a 96.4% correct one. We also show how the models trained on OCR's output texts correct errors in the OCR's output texts.
著者
田中 伸之輔 南谷 圭持 中村 優花 平田 謙次 松本 裕希子 原 有希
出版者
THE JAPAN SOCIETY FOR MANAGEMENT INFORMATION (JASMIN)
雑誌
経営情報学会 全国研究発表大会要旨集
巻号頁・発行日
pp.143-146, 2024-01-31 (Released:2024-01-31)

本研究では、組織開発の構造的・技術的側面だけでなく人間的側面を重視する方法として開発された「人間中心設計・実践コミュニティに基づく組織開発手法」が、A社内に導入・展開された約3年のプロセスを事例分析した。その結果、従業員が「組織開発の主体」に成長する、対話型の学習・実践プログラムが段階的に設計されていたこと、人間の認知・感情・行動に着目する人間中心設計の考え方が、従業員のポジティブな感情体験を生み出す組織文化を支えていたことが示された。
著者
橋本 まき 小谷口 美也子 松本 裕貴 琴浦 聡 湯浅 浩気 青木 基 中根 正人 北村 進一
出版者
公益社団法人 日本食品科学工学会
雑誌
日本食品科学工学会誌 (ISSN:1341027X)
巻号頁・発行日
pp.NSKKK-D-23-00058, (Released:2023-09-27)

機能性表示食品の機能性関与成分のルーチン分析で求められるスループット性を考慮して, 構築したNP-HPLC簡易法の定量値の妥当性を検証した. ソフトカプセル2粒当たりのプラズマローゲン量をNP-HPLC簡易法と2D-HPLC法で分析し, 得られた定量値と比較したところ, 有意差はみられず定量値の妥当性が確認できた. NP-HPLC簡易法はソフトカプセルやその他の食品中プラズマローゲン含有量について日々のモニタリングに活用できると考える.
著者
笠巻 純一 宮西 邦夫 笠原 賀子 松本 裕史 西田 順一 渋倉 崇行
出版者
日本健康行動科学会
雑誌
Health and Behavior Sciences (ISSN:13480898)
巻号頁・発行日
vol.19, no.2, pp.45-56, 2021 (Released:2022-03-31)
参考文献数
42

This study aimed to clarify the correlation between snacking behavior and psychological stress in female university students and thereby contribute to health support measures. A questionnaire survey was conducted to examine household living arrangements, snacking behavior (consumption of confectionery and snacks), and psychological stress stemming from interpersonal relationships or the demands of study, etc. of students from four universities in Japan. The survey was conducted yearly for 3 years (following multiple sections of the population from the first to third year), and 81 female students were valid respondents. Interpersonal stress scores were positively and significantly correlated with several items of snack frequency scores by time of day and snack frequency scores by situation (i.e., snacking alone, with friends, before/after classes or other events, and instead of a meal). In their first year, the students with high interpersonal stress showed a high total frequency of snacking in the morning, in the afternoon, or at night or snacking alone, which was more common among students living alone. In their second year, the students with high interpersonal stress showed a higher frequency of snacking alone. In their third year, the students living alone and with high interpersonal stress showed a high total frequency of snacking in the morning, in the afternoon, or at night; before or after classes or other events; and instead of a meal. It was found that the higher the degree of personal stress among female university students, the higher the frequency of their ingestion of confectionery and snacks.
著者
水野 淳太 渡邉 陽太郎 エリックニコルズ 村上 浩司 乾 健太郎 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3408-3422, 2011-12-15

情報検索技術の発展により,あるトピックに関連する多様な情報を容易に入手できるようになった.しかしながら,これらの文書に記述されている情報には,不正確な記述,偏りのある意見などが多数混在している.そのため,個々の情報や意見の信憑性を判断するためには,多様な情報源からの意見との整合性を調べる必要がある.しかし,限られた時間で数多くの情報源を調べることは難しいため,ユーザが持っている先入観が正常な判断を妨げてしまう場合がある.我々は,そのような状態を避けるために,言論マップ生成課題に取り組んでいる.これは,検索された文について,まず,トピックに対する賛成意見であるのか,それとも反対意見であるのかを分類し,次に,賛成および反対する根拠を含むかどうかを認識し,それらを俯瞰的に示すというものである.本課題において最も重要な問題は,1組の文対が与えられたときに,その間の意味的関係を分類する文間関係認識である.これは近年さかんに研究されている含意関係認識と重なる部分が多い.しかしながら,ウェブ上の実文に対して既存の含意関係認識を適用しても,その分類性能は限定的であるという報告がある.そこで,我々は,評価用データセットとその分析に基づく文間関係認識モデルを構築した.本論文では,検索された文において,クエリの内容に対応する部分を正しく同定することが,最も重要な技術的課題であること,また,いくつかの制約を変化させることで,関係分類の精度と再現率を制御できることを示す.
著者
森川 祐介 仁禮 和男 福田 悠貴 関根 聡 松本 裕治 古崎 晃司
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会第二種研究会資料 (ISSN:24365556)
巻号頁・発行日
vol.2022, no.SWO-056, pp.05, 2022-03-11 (Released:2022-03-24)

The automobile industry is in a VUCA world called "era of revolution once in 100 years". To respond to the VUCA world, development sections require to concentrate human resources on development of future main products and accelerate development. Therefore it is required to manage existing business and ensure the quality of products with fewer human resources than ever before. To resolve this problem we considered to use accumulated knowledge of expert engineers to assist development. A part of the knowledge of expert engineers is that concerning failures occurred during development such as causes and solutions of the failures. A failure ontology proposed in this paper helps to extract the knowledge concerning failures from accumulated documents. In this paper we introduce how to construct the failure ontology and use it.
著者
大石 亨 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.36, no.11, pp.2597-2610, 1995-11-15
参考文献数
18
被引用文献数
17

動詞がある事象を表すために、論理的に最低限必要な名詞との関係を「格」という。格構造(case frame)は、自然言語処理をはじめとする人工知能分野において、文の意味を表示するために、必要不可欠なものとして取り扱われてきた。特に、意味主導型の言語である日本語文の解析では、動詞とそのとりうる格との意味的関係を表示する深層格(deepcase)が重要な役割を果たしている。しかし、格関係の分析は意味的な問題であるだけに、どうしても個別的かつ主観的にならざるをえない。本論文では、文の表層に現れる格助詞およびそれと置換されうる語旬のバターンに基づいて動詞を細かく分類し、この分類に基づいて、動詞の語彙知識を獲得する手法(格バターン分析法)を提案する。この手法を用いることにより、意味的な情報を客観的にしかも類型化して取り扱うことができる。この手法を解析済みコーパスから得られた共起情報に適用して行った深層格獲得実験の結果と評価、ならびに、実験を通して得られた格バターンの組合せから動詞の意味構造(semantic structure)を抽出する方法について述べる。
著者
飯田 龍 小町 守 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.7, pp.71-78, 2007-01-26
被引用文献数
12

本稿では,日本語書き言葉を対象とした述語項構造と共参照のタグ付与について議論する.述語項構造や共参照解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの問題の主要な解析手法はタグ付与コーパスに基づく学習ベースの手法である.この手法で利用するための大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で採用されているタグ付与の基準は,言語の違いや我々が対象としたい解析と異なるために,そのまま採用することができない.そこで,既存のいくつかのタグ付与の仕様を比較し,我々のタグ付与作業で採用する基準について吟味する.また,実際に京都コーパス第3.0版の文章を対象にタグ付与の仕様について検討した結果とタグ付与の際に問題となった点や今後検討すべき点について報告する.In this paper, we discuss how to annotate predicate-argument and coreference relations in Japanese written text. Predicate argument analysis and coreference resolution are particularly important as they often provide a crucial bridge between basic NLP techniques such as morpho-syntactic analysis and end-level applications, and they have been mainly developed with corpus-based empirical approaches. In order to train a classification model in such approaches, a large scale corpus annotated with predicate-argument and coreference information is needed. To our best knowledge, however, there is no corpus including plenty of such tags in Japanese. In addition, we have difficulty adopting the traditional specifications for annotating tags due to the problem setting of each task and the difference between Japanese and English. So, we develop a new criteria for our annotating processes by examining the previous work on annotating tasks. This paper explains our annotating specification cultivated through actual annotating processes for the texts in Kyoto Text Corpus version 3.0, and discusses the future directions.
著者
山田 寛康 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2001, no.112(2001-NL-146), pp.33-38, 2001-11-20

本研究では 日本語固有表現抽出タスクを題材に 機械学習アルゴリズムSupport Vector Machine(SVM)を多値分類問題に適用する手法を提案し 代表的な従来手法である one vs. rest 法 及び pairwise法 との比較を行なう. 二値分類器であるSVMを固有表現抽出タスクに適用するためには 多値分類器に拡張する必要がある. しかし分類するクラス数に比例して計算コストが増加するため 現実的な時間での学習 及び分類が困難となる. 我々は 多値分類問題を 比較的分類が容易な二値分類へ分割し 二分木を構築する手法を応用し 効率的な学習 及び分類ができるよう SVMの多値分類器への拡張を行う. 固有表現抽出実験では 従来法である pairwise 法 及び one vs. rest 法と比べ ほぼ同等な抽出精度を維持し 抽出時間を削減できることを確認した.