著者
東 藍 新保仁 松本 裕治 Azuma Ai Shimbo Masashi Matsumoto Yuji
雑誌
データマイニングと統計数理研究会(第 12 回)

When we apply machine learning or data mining technique to sequential data, it is often required to take a summation over all the possible sequences. We cannot calculate such a summation directly from its definition in practice. Although the ordinary forward-backward algorithm provides an efficient way to do it, it is applicable to quite limited types of summations. In this paper, we propose general algebraic frameworks for generalization of the forward-backward algorithm. We show some examples falling within this framework and their importance.
著者
濱口 拓男 大岩 秀和 新保 仁 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.33, no.2, pp.F-H72_1-10, 2018-03-01 (Released:2018-04-03)
参考文献数
31
被引用文献数
5

Knowledge base completion (KBC) aims to predict missing information in a knowledge base. In this paper, we address the out-of-knowledge-base (OOKB) entity problem in KBC: how to answer queries concerning test entities not observed at training time. Existing embedding-based KBC models assume that all test entities are available at training time, making it unclear how to obtain embeddings for new entities without costly retraining. To solve the OOKB entity problem without retraining, we use graph neural networks (GNNs) to compute the embeddings of OOKB entities, exploiting the limited auxiliary knowledge provided at test time. The experimental results show the effectiveness of our proposed model in the OOKB setting. Additionally, in the standard KBC setting in which OOKB entities are not involved, our model achieves state-of-the-art performance on the WordNet dataset.
著者
中村 哲 須藤 克仁 松本 裕治 田中 宏季 サクリアニ サクティ 吉野 幸一郎 高道 慎之介
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(A)
巻号頁・発行日
2017-04-01

①-A)常時音声認識:音声、非音声音響モデルに基づく常時音声認識の検討を始めた。B)自動音声同時通訳:シフトリデュースパーザを音声認識に組み込み、逐次的に音声認識デコーダで構文解析しながら次の文構成要素を予測し、訳出、待機を行う方法の高度化について文献調査を行った。C)機械翻訳の高度化:再帰的ニューラルネットワークの一種であるLSTMによる注意形ニューラル機械翻訳(NMT)の高度化に向けて研究を進めた。D)対話制御:LSTMを用いた対話状態推定法の利用、POMDPを利用した音声翻訳の高度化に向けて検討を始めた。②パラ言語:元言語の発話から強調抽出し、アライメントを求めた後、CRFおよびLSTMニューラルネットで対象言語に強調を付与する技術の改良を進めた。③リアルタイムコミュニケーション:視線検出装置Tobi、モバイル心拍計などを用いてプロの同時通訳者の作業時、および同時通訳ユーザの聴取時の聴取負荷の観察を行うため、実験計画の検討を行った。④コーパス構築:2012年から介した基盤研究Aで収集したコーパスの整理を行い、H29年度に実施すべきコーパス収集の計画を検討した。
著者
持橋 大地 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2003, no.4(2002-NL-153), pp.41-47, 2003-01-20

本報告では 語彙の意味的概念の空間内での表現に関し 空間の性質によらない評価基準を示し 確率的表現が従来のベクトル空間での表現より優れていることを見る.また 計算量上問題となる概念空間の次元数に対し AICによる最適次元数の決定を試みた.
著者
持橋 大地 松本 裕治
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1999, no.95(1999-NL-134), pp.155-162, 1999-11-25

本論文では,単語の意味を単語間の連想関係を表す確率分布として表現し,その定式化と連想確率の獲得について述べる.単語の意味的な重みを表す指標として単語の共起確率分布の情報量から計算される連想情報量を提案し,共起確率との組み合わせにより連想確率を計算する.連想はMarkov過程の上で行われ,その状態確率分布として意味が定義される.状態遷移として連想を行うことによって,直接共起しない語の意味的な関係が表現できる.また,確率ベクトルとして捉えた意味のスケール変換として文脈を捉え,先行単語集合の数を仮定しない非線型な更新式を提案し,これにより文脈の強化と順序への依存が表現できることを示す.現実のテキストから意味を獲得し,文脈をモデル化することで,意味的類似度や文脈解析だけでなく,情報検索などにおいて様々な実際的な意味処理が可能になる.
著者
妙木 裕 松本 裕治 長尾 真
雑誌
全国大会講演論文集
巻号頁・発行日
vol.42, pp.17-18, 1991-02-25
被引用文献数
12

ユーザカスタマイズ可能な汎用日本語辞書データシステムと、それを利用した形態素解析システムについて述べる。日本語辞書データシステムは、木構造形式の辞書ファイルと、そのファイルを操作するCのライブラリ関数から構成される。木構造辞書ファイルは、ユーザが用意したテキスト形式の辞書から構築され、任意のカスタマイズが可能である。形態素解析システムの主要部分はLAX [杉村他88] のアルゴリズムを用いてPrologで記述されており、辞書の検索に際してはCのライブラリ関数を呼び出す。その解析結果は形態素により構成されたラティス構造として得られ、いくつかのヒューリスティクスを用いて曖昧さを減少させることもできる。出力はProlog上の構文解析システムSAX[桜木・杉村86]への入力として利用されることを想定しているが、テキストデータとして得ることも可能である。
著者
原 一夫 鈴木 郁美 新保 仁 松本 裕治
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.4, pp.379-390, 2013 (Released:2013-05-23)
参考文献数
27

We propose a new measure of semantic similarity between words in context, which exploits the syntactic/semantic structure of the context surrounding each target word. For a given pair of target words and their sentential contexts, labeled directed graphs are made from the output of a semantic parser on these sentences. Nodes in these graphs represent words in the sentences, and labeled edges represent syntactic/semantic relations between them. The similarity between the target words is then computed as the sum of the similarity of walks starting from the target words (nodes) in the two graphs. The proposed measure is tested on word sense disambiguation and paraphrase ranking tasks, and the results are promising: The proposed measure outperforms existing methods which completely ignore or do not fully exploit syntactic/semantic structural co-occurrences between a target word and its neighbors.
著者
吉川 克正 浅原 正幸 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.251-271, 2013-06-14 (Released:2013-09-14)
参考文献数
23
被引用文献数
4 6

本稿ではマルコフロジックを利用した日本語述語項構造解析について述べる.日本語述語項構造解析に関する従来研究の多くは,格毎に独立した解析器を用意し,他の述語項関係との依存関係を無視したまま解析を行っていた.これに対し,本研究では同一文内にある全ての述語項候補を同時に考慮して解析する手法を提案する.この手法は複数の述語項関係の間にある依存関係を考慮した上で,文内における全ての述語項関係の候補から,最適な状態を見つけ出すことができる.さらに,本研究では,述語の項として妥当でないものを削除するための新たな論理的制約を考案し,ゼロ照応も含めて正しい項を効果的に見つけ出すことができるように工夫した.NAIST テキストコーパスにおける実験で,本研究の提案手法は,大規模データを利用せずに,従来手法と同等の結果を達成した.
著者
山田 寛康 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.44, pp.57-64, 2002-05-23
参考文献数
10
被引用文献数
3

本稿では 機械学習アルゴリズム Support Vector Machine を用いた英語構文解析法を提案する. 高精度な構文解析を行うには 句のラベルだけでなく 句の主辞がもつ語彙情報をも考慮する必要がある. しかし従来の統計的構文解析モデルは データスパースネスの問題から 主辞の語彙情報を素性として大量に使用することは 逆に精度低下の要因となっていた. 機械学習アルゴリズム Support Vector Machine は 素性空間の次元数に依存しない高い汎化性能と Kernel 関数によって素性の組合せまでも考慮した学習が可能である. そのため主辞の語彙情報を含めた多くの素性とその組合わせを考慮した学習が行える. しかし SVM は 確率を推定するのではなく 2つのクラスを識別する分類器であり 従来多くの統計的構文解析モデルが採用している確率モデルへの直接的な適用が困難である.本稿では 上昇型解析アルゴリズムを用い 構文解析の各段階を 文脈に適切な解析木構築手続きへの分類問題とみなすことでSVMを適用し 解析木構築規則の学習を行う. 解析木は SVMが分類器であることから 決定的に構築される. 本手法を Penn Treebank コーパスを用いて評価した結果 labeledrecall/precision で 88.2/89.0%という高い精度を得ることができた.In this paper, we propose a parsing method for English sentences with machine learning algorithm called Support Vector Machines (SVMs). The performance of statistical parsing strongly depends on how to deal with lexical information and incorporate them into the statistics for parsing. Data sparseness problem arises when using large number of features like head words. As a result, we cannot estimate correct statistics for construction of parse trees. SVMs not only have high generalization performance in sparse data using a large number of features like head words, but also can take into account the combinations of features by virtue of polynomial kernel functions. However, SVMs are classifiers, not probabilistic estimator. Thus, it is difficult to apply SVMs to the probabilistic parsing model directly. Our parser constructs a parse tree for an input sentence with a deterministic bottom-up algorithm. Each parsing process is regarded as a classification task which classifies the context into a procedure for constructing parsed trees. We evaluated our parser using the Penn Treebank corpus, and the result attained over the 88.2/89.0% labeled recall/precision.
著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.95, pp.155-162, 1999-11-25

本論文では,単語の意味を単語間の連想関係を表す確率分布として表現し,その定式化と連想確率の獲得について述べる.単語の意味的な重みを表す指標として単語の共起確率分布の情報量から計算される連想情報量を提案し,共起確率との組み合わせにより連想確率を計算する.連想はMarkov過程の上で行われ,その状態確率分布として意味が定義される.状態遷移として連想を行うことによって,直接共起しない語の意味的な関係が表現できる.また,確率ベクトルとして捉えた意味のスケール変換として文脈を捉え,先行単語集合の数を仮定しない非線型な更新式を提案し,これにより文脈の強化と順序への依存が表現できることを示す.現実のテキストから意味を獲得し,文脈をモデル化することで,意味的類似度や文脈解析だけでなく,情報検索などにおいて様々な実際的な意味処理が可能になる.This paper describes meanings of a word by stochastic association. First, we propose a new indicator of semantic informativeness of a word by its co-occurrence distributions. Second, we define the association probability by a combination of co-occurrence probability and the indicator. Then, regarding context as a vector of scaling factors against semantic vector, we propose a nonlinear formula of context succession to show its validity in modeling reinforcement and order depencency of context. Stochastic treatment of meaning and its aquisition from texts is useful in real semantic processing.
著者
野本 忠司 松本 裕治
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.97, no.200, pp.1-6, 1997-07-25

本稿では大学生を中心とした被験者112名について要約文指摘能力に関する調査を行い、そのデータをもとにした自動要約手法について述べる。要約問題は日本経済新聞95年の記事から随想 (春秋)、社説、一面報道の各分野別に粒度の揃った記事を選び作成した。調査結果はKappa統計と呼ばれる尺度で評価し、さらに調査データから要約文判定の被験者間一致度を調べ、その高低に応じていくつかのデータセットを作成した。一方、自動要約の手法として、C4.5学習アルゴリズムを使い、上記データセットに対する要約モデルの生成とテスト実験をおこなった。実験の結果、K値と自動要約モデルの性能との間に相関傾向があることが認められた。
著者
工藤 拓 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.9, pp.2146-2156, 2004-09-15
被引用文献数
25

近年,テキスト分類は,単純なトピック分類から,文のモダリティ,意見性,主観性といった書き手の意図に基づく分類へと,そのタスクの多様化が進んでいる.それにともない,単語の集合(bag-of-words)を素性とする古典的手法では十分な精度を得にくくなっている.精度向上には,テキストの構造(構文/レイアウト)を考慮する必要があるが,恣意的に選択された部分構造のみを用いた手法が多い.本稿では,構造を考慮したテキスト分類(半構造化テキスト分類)に向け,部分木を素性とするdecision stumpsと,それを弱学習器とするBoostingアルゴリズムを提案する.また,Tree Kernelを用いたSVMとの関連性,および本手法の利点について言及する.実データを用いた実験により,提案手法の有効性を検証する.The research focus in text classification has expanded from a simple topic identification to a more challenging task, such as opinion/modality identification. For the latter, the traditional bag-of-word representations are not sufficient, and a richer, structural representation will be required. Accordingly, learning algorithms must be able to handle such sub-structures observed in text. In this paper, we propose a Boosting algorithm that captures sub-structures embedded in text. The proposal consists of i) decision stumps that use subtrees as features and ii) Boosting algorithm in which the subtree-based decision stumps are applied as weak learners. We also discuss a relation between our algorithm and SVM with Tree Kernel. Two experiments on the opinion/modality classification tasks confirm that subtree features are important. Our Boosting algorithm is computationally efficient for classification tasks involving discrete structural features.
著者
浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.137, pp.39-46, 2000-06-01
参考文献数
9
被引用文献数
1

我々は日本語形態素解析器『茶筌』のための学習ツールを開発している。現在『茶筌』では階層構造をもった品詞体系を採用し、タグの種類は約500にもなっている。このため、通常の品詞tri-gramモデルの作成は困難で、品詞bi-gramモデルでも適当な量のタグづけコーパスを得ることは難しい。通常、このような細かいタグを取り扱うために、複数のタグを同値類へとグループ化することによってタグの数を減らすことが行われる。我々はこれを拡張し、マルコフモデルの条件付き確率計算について各件でタグの同値類を変更するようにした。さらに、例外的な現象によるデータスパースネスに対処するため、単語レベルまで品詞として見るモデルと、選択的tri-gramモデルを導入した。また、単語レベルまで品詞として見る場合には、単語-品詞間スムージングを導入した。『茶筌』にこれらのモデルを適用し、各拡張の評価を行った。
著者
山田 寛康 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.112, pp.33-38, 2001-11-20
被引用文献数
7

本研究では 日本語固有表現抽出タスクを題材に 機械学習アルゴリズムSupport Vector Machine(SVM)を多値分類問題に適用する手法を提案し 代表的な従来手法である one vs. rest 法 及び pairwise法 との比較を行なう. 二値分類器であるSVMを固有表現抽出タスクに適用するためには 多値分類器に拡張する必要がある. しかし分類するクラス数に比例して計算コストが増加するため 現実的な時間での学習 及び分類が困難となる. 我々は 多値分類問題を 比較的分類が容易な二値分類へ分割し 二分木を構築する手法を応用し 効率的な学習 及び分類ができるよう SVMの多値分類器への拡張を行う. 固有表現抽出実験では 従来法である pairwise 法 及び one vs. rest 法と比べ ほぼ同等な抽出精度を維持し 抽出時間を削減できることを確認した.This paper proposes a method for multi-class classification with Support Vector Machines(SVM) and evaluates its effectiveness using Japanese named entity extraction task. Multi-class problems with more than two classes have typically been solved by combining independently produced binary classifiers, such as pairwise and one vs. rest method. However, these methods require large computational cost with increasing the number of classes. We propose a method to reduce multi-class classification to binary using a method called as tree-structured model for efficient learning and classifying. Results of our extraction experiments suggest that the method is comparable to the one vs. rest and pairwise methods, and it can reduce the extraction time.
著者
坪井 祐太 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.20, pp.17-24, 2002-03-04
被引用文献数
2

本研究では、機械学習手法(Support Vector Machines)を用いてメーリングリストの著者識別を行った。また、メーリングリストのデータで学習した識別器によって、Webの文書の著作識別を試みることで異なるタイプのドキュメントに対する性能を調べた。この際、従来から使われていた単語N-gramとともに、データマイニング手法(PrefixSpan)によって抽出された単語の連続パターンを素性に用いることでより高い性能が得られた。使用されたパターンは隣り合わない単語列にもマッチするパターンであり、実験結果より著述すタイルを表現するのに適当な特徴の一つであると考えられる。The study of authorship identification in Japanese has for most part been restricted to literary texts using basic statistical methods. In the present study, authors of mailing list messages are identified using a machine learning technique (Support Vector Machines). In addition, the classifier trained on the mailing list data is applied to identify the author of Web documents in order to investigate performance in authorship identification for more heterogeneous documents. Experimental results show better identification performance when we use the features of not only conventional word N-gram information but also of frequent sequential patterns extracted by a data mining technique (PrefixSpan).
著者
持橋 大地 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.41-47, 2003-01-20
被引用文献数
2

本報告では 語彙の意味的概念の空間内での表現に関し 空間の性質によらない評価基準を示し 確率的表現が従来のベクトル空間での表現より優れていることを見る.また 計算量上問題となる概念空間の次元数に対し AICによる最適次元数の決定を試みた.This paper proposes a neutral metric of semantic coherence independent of the inherent property of semantic spaces. Using this metric, we show that PLSA representation excels than LSA, and try to find an optimal setting of semantic dimensions based on minimum description length criterion.
著者
竹内 孔一 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.6, pp.2679-2689, 1999-06-15
被引用文献数
13

近年 インターネットの普及により OCRを用いたテキストの電子化がますます重要な課題となってきた. 日本語におけるOCR誤り訂正の先行研究には OCRの文字候補と品詞タグ付きコーパスを利用した研究がある. しかしながら 分野が異なれば単語の出現分布などが変わることから 誤り訂正を行う分野と同分野のタグ付きコーパスを用意する必要があり それには大変コストがかかる. また 分野によっては統計学習に必要な電子化テキストデータがない場合も多い. そこで まず我々は学習用として電子化された大量テキストデータを仮定したOCR誤り訂正システムを構築し ランダムに生成された文字置換誤りテキストに対する訂正実験を行った. 次に 電子化テキストがない分野に対して OCR処理された誤りを含むテキストを学習に利用するシステムを作成し評価を行った. システムは 文字trigram 統計的形態素解析システム 単語trigramを用いた. 大量テキストを仮定したシステムでは 90%の文字読み取り精度のテキストを92.9%まで改善し 95%の精度のテキストを96.4%にまで改善した. また 電子化テキストデータがない場合について 実際のOCR処理されたテキストに対する訂正実験を行い その有効性を示す.In recent years, OCR error correction is getting more and more important for the purpose of converting printed texts into electronic ones on computers. As a previous work, there exists a study of OCR post processing which uses OCR's character candidates and a morphological analyzer trained on part-of-speech-tagged corpus. However, too much cost is required to prepare pos-tagged corpus for each domain. In this paper, we present an OCR error correction method which uses stochastic language models trained on large texts. We also construct an OCR error correction system which uses OCR's output texts in a domain in which no large scale training text exists. Our system consists of the models of character trigram, a stochastic morphological analyzer and word trigram. We show that the models trained on large texts improve a text of 90% correct character rate into that of 92.9% correct rate and a 95% correct text into a 96.4% correct one. We also show how the models trained on OCR's output texts correct errors in the OCR's output texts.
著者
水野 淳太 渡邉 陽太郎 エリックニコルズ 村上 浩司 乾 健太郎 松本 裕治
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3408-3422, 2011-12-15

情報検索技術の発展により,あるトピックに関連する多様な情報を容易に入手できるようになった.しかしながら,これらの文書に記述されている情報には,不正確な記述,偏りのある意見などが多数混在している.そのため,個々の情報や意見の信憑性を判断するためには,多様な情報源からの意見との整合性を調べる必要がある.しかし,限られた時間で数多くの情報源を調べることは難しいため,ユーザが持っている先入観が正常な判断を妨げてしまう場合がある.我々は,そのような状態を避けるために,言論マップ生成課題に取り組んでいる.これは,検索された文について,まず,トピックに対する賛成意見であるのか,それとも反対意見であるのかを分類し,次に,賛成および反対する根拠を含むかどうかを認識し,それらを俯瞰的に示すというものである.本課題において最も重要な問題は,1組の文対が与えられたときに,その間の意味的関係を分類する文間関係認識である.これは近年さかんに研究されている含意関係認識と重なる部分が多い.しかしながら,ウェブ上の実文に対して既存の含意関係認識を適用しても,その分類性能は限定的であるという報告がある.そこで,我々は,評価用データセットとその分析に基づく文間関係認識モデルを構築した.本論文では,検索された文において,クエリの内容に対応する部分を正しく同定することが,最も重要な技術的課題であること,また,いくつかの制約を変化させることで,関係分類の精度と再現率を制御できることを示す.
著者
森川 祐介 仁禮 和男 福田 悠貴 関根 聡 松本 裕治 古崎 晃司
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会第二種研究会資料 (ISSN:24365556)
巻号頁・発行日
vol.2022, no.SWO-056, pp.05, 2022-03-11 (Released:2022-03-24)

The automobile industry is in a VUCA world called "era of revolution once in 100 years". To respond to the VUCA world, development sections require to concentrate human resources on development of future main products and accelerate development. Therefore it is required to manage existing business and ensure the quality of products with fewer human resources than ever before. To resolve this problem we considered to use accumulated knowledge of expert engineers to assist development. A part of the knowledge of expert engineers is that concerning failures occurred during development such as causes and solutions of the failures. A failure ontology proposed in this paper helps to extract the knowledge concerning failures from accumulated documents. In this paper we introduce how to construct the failure ontology and use it.
著者
大石 亨 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.36, no.11, pp.2597-2610, 1995-11-15
参考文献数
18
被引用文献数
17

動詞がある事象を表すために、論理的に最低限必要な名詞との関係を「格」という。格構造(case frame)は、自然言語処理をはじめとする人工知能分野において、文の意味を表示するために、必要不可欠なものとして取り扱われてきた。特に、意味主導型の言語である日本語文の解析では、動詞とそのとりうる格との意味的関係を表示する深層格(deepcase)が重要な役割を果たしている。しかし、格関係の分析は意味的な問題であるだけに、どうしても個別的かつ主観的にならざるをえない。本論文では、文の表層に現れる格助詞およびそれと置換されうる語旬のバターンに基づいて動詞を細かく分類し、この分類に基づいて、動詞の語彙知識を獲得する手法(格バターン分析法)を提案する。この手法を用いることにより、意味的な情報を客観的にしかも類型化して取り扱うことができる。この手法を解析済みコーパスから得られた共起情報に適用して行った深層格獲得実験の結果と評価、ならびに、実験を通して得られた格バターンの組合せから動詞の意味構造(semantic structure)を抽出する方法について述べる。