著者
江口 浩二 大川 剛直
出版者
神戸大学
雑誌
特定領域研究
巻号頁・発行日
2007

情報爆発時代と呼ばれる今日、インターネット上に発信された情報は, 発信者にも制御不能な形で流通することが少なくなく、一旦流通したこれらの情報はアンドゥーすなわち発信される前の状態に戻すことは通常不可能である。また、これらは膨大な他の情報に埋没しがちであるため、既存の手段で探し当てるのは容易でない。本課題では、とくに、人物や組織等に対する誹謗中傷、ならびに、災害、事故、事件などの風評に着目し、それらの発見を支援するための技術基盤として、情報検索および情報追跡手法を開発する。平成20年度は主に以下の基本技術の開発に取り組んだ。1.逐次的に配信される文書系列に対するトピック追跡問題のため、情報理論に基づく語の重みづけ法を開発し、従来手法と比較して有意な改善を実現した。2.ブログポスト間のハイパーリンクとブログボストの潜在トピックに着目して、ブログ空間における情報伝搬を解析する手法を開発し、現実のプログデータを用いた評価実験によって有効性を示した。3.人物名や地名などのエンティティ(固有表現)がタグ付けされた文書の集合から、エンティティ間の関係を示すネットワークを推測する手法を実現した。4.タグで構造化された文書の集合から推定した潜在トピックに基づいて、構造化文書を効果的に検索する手法を実現した。Wikipediaデータを用いた評価実験によって提案手法の有効性を示した。5.マルコフ確率場モデルに基づく語間依存性のモデルにより、自然言語文で表現された質問から構造化クエリを構築し、高精度なWeb検索を実現した。
著者
宮坂 房千加 大川 剛直 湯元 真樹 薦田 憲久 山崎 高弘
出版者
公益社団法人 空気調和・衛生工学会
雑誌
空気調和・衛生工学会 論文集 (ISSN:0385275X)
巻号頁・発行日
vol.24, no.72, pp.11-21, 1999
参考文献数
8
被引用文献数
2

空調システムの異常検知・診断システムの研究開発は,IEA-Annex 25を契機に始まったといえる.その後,空気調和・衛生工学会蓄熱最適化委員会のFDD-WGやIEA-Annex 34として研究が進んでいる.確率的定性推論は,計装図と制御内容を基に人間の定性的な思考過程をモデル化し,少ない情報で異常検知・診断を行う手法である.これをVAVシステムで発生させた故障状態データに適用したリアルタイムシミュレーション内容について報告する.今後,異常検知・診断を自動的に行う手法として,確率的定性推論を利用した異常検知・診断アプリケーションが期待される.
著者
小薮 駿 大川 剛直
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.15, pp.1-8, 2012-06-21

文献からのタンパク質相互作用情報抽出において,十分な量の訓練データが得られない場合,仮ラベル推定に基づく半教師あり学習が有効である.このようなタイプの半教師あり学習では仮ラベルを与える際に,誤ってラベルを付与することが精度低下の原因となるため,いかに正確に仮ラベルを付与するかが,極めて重要である.そこで本研究では、複数の分類器を用い,その共通コンセンサスを得る際に,分類器の類似度や学習手法の信頼度を導入することで正確な仮ラベル決定が可能となる手法を提案する。相互作用情報抽出実験の結果として,データセットが比較的大きな場合に,提案手法を用いることで,より精度の高い抽出が達成された.また従来手法との比較において,F 値と再現率では同等,もしくは少し劣る結果となったが,適合率の観点では提案手法が優位な結果を示すことが確認された.Semi-supervised learning based on tentative label prediction is a useful technique for automatic extraction of protein-protein interaction from litratures if enough training instances cannot be prepared. In such a framework of semi-supervised learning, how we predict the correct labels is very important for accurate extraction. In this paper, we propose a method of predicting tentative labels based on multiple classifiers introducing two types of measures for evaluating each classifier, similarity among the classifiers and reliability of the classifiers. As a result of experiment, the proposed method shows higher precision values for relatively large dataset, in comparison with conventiional methods.
著者
車谷 奈都実 大川 剛直
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.14, pp.1-6, 2012-06-21

蛋白質の機能と構造の関連を明らかにする上で,その立体構造を比較し,局所的に類似した部分を見つけることが重要である.本研究では蛋白質分子表面データを3次元画像へ変換し,そこから局所特徴点を検出して特徴量を算出することにより,蛋白質の局所構造間を比較する手法を提案する.提案手法を蛋白質の結合部位予測へ適用した結果,11 個中 6 個の結合部位の予測に成功することが示されており,その有効性を確認した.To explain the relationships between functions and structures of proteins, it is important to identify locally similar sites on protein molecular surfaces by comparing protein 3D structures. In this paper, we propose a method of comparing protein structures, in which the molecular surfaces are regarded as 3D images and the similarity between them is calculated by detecting keypoints from the images and computing local features at each keypoint. We applied the proposed method to prediction of protein's binding sites, which shows the accurate prediction of binding sites in six out of eleven proteins.
著者
江口 浩二 高須 淳弘 大川 剛直
出版者
神戸大学
雑誌
基盤研究(B)
巻号頁・発行日
2011-04-01

本課題では、内部構造や外部構造を持つテキストデータとネットワークデータに対して確率的に表現された潜在構造を推定する技術を開発する。ここでいう内部構造とは、たとえば、テキストデータにおいてトークン(単語)が属性で特徴づけられたものを指し、ネットワークデータにおいては各頂点または辺が属性で特徴づけられたものを指す。また、外部構造とは、たとえば、所与のネットワーク構造における各頂点にテキストデータ群が関連付けられた状況を指す。このような複雑な構造をもつ大規模なデータから低次元の潜在構造を推定することで、様々な実問題に利用可能な「知識」を抽出する。情報の検索、推薦、予測と、時系列解析などに応用する。
著者
尾崎 知伸 大川 剛直
出版者
The Japanese Society for Artificial Intelligence
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.23, no.6, pp.514-525, 2008
被引用文献数
1

Recently, pattern mining in structured domain, such as sequences, trees and graphs, is becoming increasingly abundant and several algorithms for especially frequent pattern mining have been developed. On the other hand, the research area of correlation mining in transaction databases, that extracts the underlying dependency among objects, attracts a big attention and extensive studies have been reported. Although we can easily expect to get a more powerful tool for structured data by introducing correlation mining, the most of current research on correlation mining are designed for transaction databases and little attention is paid to mining correlations from structured data. Motivated by these backgrounds, in this paper, we bring the concept of hyperclique pattern in transaction databases into the graph mining and consider the discovery of sets of highly-correlated subgraphs in graph-structured databases. To achieve this objective, a novel algorithm named HSG is proposed. By considering the generality ordering on sets of subgraphs, HSG employs the depth-first/breadth-first search strategy with powerful pruning techniques based on both of the anti-monotone property of support value and the upper bound of h-confidence measure. Experiments with artificial and real world datasets were conducted to assess the effectiveness of the proposed algorithm. The results of experiments show that HSG succeeds in discovering sets of highly-correlated subgraphs within reasonable computation time.
著者
横山 正太朗 江口 浩二 大川 剛直
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.3, pp.180-188, 2010-03-01

近年ブログの利用が爆発的に増加しており,重要な情報源の一つになりつつある.ブログは,ハイパリンクを利用することで,参考にした情報を明示的に参照することが可能であり,このネットワークを対象にした研究が最近注目されつつある.しかし,こういった研究のほとんどが,リンク情報のみを対象にしており,本文の情報を参照していない.そこで本研究では,リンク構造だけでなく,本文のトピックを推定し,適切に情報伝搬をとらえる手段を確立することを目的とする.文書集合の潜在的なトピックを統計的に推定するのに用いられる確率的トピックモデルの代表的なものに,潜在的ディリクレ配分法(Latent Dirichlet Allocation:LDA)が挙げられ,広く用いられている.本研究では,このLDAを用いてポストのトピックを推定し,リンク間のトピック分布を比較することで,情報伝搬の単位(カスケード)を的確に抽出する枠組みを提案する.日本語ブログデータを用いた実験において,提案手法の有効性を示す.
著者
尾崎 知伸 渡沼 智己 大川 剛直
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.22, no.2, pp.173-182, 2007 (Released:2007-01-25)
参考文献数
43
被引用文献数
1

Recently, the research area of mining in structured data has been actively studied. However, since most techniques for structured data mining so far specialize in mining from single structured data, it is difficult for these techniques to handle more realistic data which is related to various types of attribute and which consists of plural kinds of structured data. Since such kind of data is expected to be going to rapidly increase, we need to establish a flexible and highly accurate technique that can inclusively treat such kind of data. In this paper, as one of the techniques to deal with such kind of data, we propose data mining algorithms of mining classification rules in multidimensional structured data. First, an algorithm with two pruning capabilities of mining correlated patterns is introduced. Then, top-k multidimensional correlated patterns are discovered by using this algorithm repeatedly in the fashion like a beam search. We also show the algorithms for constructing classifiers based on the discovered patterns. Experiments with real world data were conducted to assess the effectiveness of the proposed algorithms. The results show that the proposed algorithms can construct comprehensible and accurate classifiers within a reasonable running time.