著者
齋藤 彰 竹内 孔一
雑誌
研究報告情報基礎とアクセス技術(IFAT) (ISSN:21888884)
巻号頁・発行日
vol.2017-IFAT-124, no.1, pp.1-5, 2017-02-03

テキスト含意認識問題の先行研究では,文に含まれる内容語の含有率などを含意の識別に用いていた. しかし,文中に現れる内容語の順序を考慮しない手法では,含意の識別において誤りが多くみられた.そこで,本研究ではテキスト含意認識を文の構造の包含関係を調べることにより,含意の識別を行うアプローチを提案する. 自然言語文から文の構造を生成する際に述語項構造解析エンジン Predicate-Argument Structure Analyzer (ASA) を利用した.従来の ASA による解析ではコピュラ文における述語について,内容語と機能語の分類が不完全であった.そのため,本研究ではその点について ASA を改良し,NTCIR-10 で提供されたRITE2 の問題セットを利用して評価実験を行った.評価実験の結果,ASA の改良により含意の識別に成功した事例が 3 件増加したことを報告する.
著者
木村 優介 駒水 孝裕 波多野 賢治
雑誌
研究報告情報基礎とアクセス技術(IFAT) (ISSN:21888884)
巻号頁・発行日
vol.2022-IFAT-148, no.24, pp.1-6, 2022-09-02

深層学習を用いた文書分類は従来の手法と比べて高精度を達成してきた.文書分類は固有表現抽出とのマルチタスク学習によりその精度を向上させることが可能であると報告されている.単語に基づいた特徴量を基本とする手法において,意味のまとまりとしてのフレーズは文書分類の精度に寄与することが知られている.一方で,深層学習においてサブワードは一般的に使われているが,単語とは異なり,意味のまとまりを表すとは限らない.そのため,サブワードで構成されるフレーズを文書分類に応用する研究はされてこなかった.そこで,本研究では文書分類の精度向上を目的に,サブワードフレーズ抽出と文書分類のマルチタスク学習を行う文書分類フレームワークを提案する.従来の単語に基づくフレーズ抽出手法が出現頻度を用いてきた点に倣い,本稿では高頻度なサブワードのフレーズをサブワードフレーズとして定義し抽出する.
著者
一瀬 航 嶋田 和孝
雑誌
研究報告情報基礎とアクセス技術(IFAT) (ISSN:21888884)
巻号頁・発行日
vol.2017-IFAT-124, no.4, pp.1-6, 2017-02-03

近年,機械学習を用いたテキストマイニング手法によって,テキスト情報と市場変動の関係性を発見し,市場分析に応用する研究が増えている.また,Web ニュースは企業の株価に少なからず影響を与えており,世に存在する個人投資家がこのニュース記事を参考にしていると考えると,Web ニュースから未来の株価が予測できる可能性がある.そこで本論文では,Web ニュースを対象とし,より多くの投資家が市場の分析に用いていると考えられる指標である日経平均株価の予測を目的とする.テキストを用いた金融予測では膨大なテキスト情報を用いて機械学習を行うことが一般的である.しかし,投資家は市場に影響を与える多様な情報を自ら取捨選択し,独自の着眼点にしたがって市場の分析を行っている.本研究では,この着眼点,つまり,分析にどのような情報が必要なのかという知識を専門家の分析記事から抽出し,これにより機械学習の精度が向上するかの検証と新素性の提案を行う.
著者
神田 峻介 泓田 正雄 森田 和宏 青江 順一
雑誌
研究報告情報基礎とアクセス技術(IFAT) (ISSN:21888884)
巻号頁・発行日
vol.2015-IFAT-119, no.10, pp.1-6, 2015-07-29

トライと呼ばれる順序木を効率的に表現するデータ構造として,高速な検索を提供するダブル配列がある.また,データの大規模化に伴いコンパクト性が重視される背景に応じて,様々なダブル配列の圧縮表現が提案されてきた.しかし,これらの圧縮表現は,トライにおける順方向の遷移 (親から子) のみを提供し,逆方向の遷移 (子から親) を提供していないため,結果としてダブル配列における逆引きや動的更新を犠牲にしている.本論文では,逆方向遷移を可能としたコンパクトな配列構造を提案する.記憶量について,ダブル配列の約 36%でトライを表現可能なことが実験により確認されている.