著者
古川 忠延 阿部 修也 安藤 剛寿 岩倉 友哉 志賀 聡子 高橋 哲朗 井形 伸之
雑誌
研究報告 デジタルドキュメント(DD)
巻号頁・発行日
vol.2011, no.3, pp.1-6, 2011-10-01

本研究では,センサーや統計等を通じては獲得できない社会的事象の抽出と活用の可能性調査を目的として,犯罪情報を対象に Twitter 投稿の分析をおこなった.分析を通じ,(1) Twitter 上の犯罪関連投稿には,投稿者自身の犯罪の目撃や被害に関する投稿,公共・公的機関が発表した情報等を引用した投稿,ニュース記事の引用という3種類が存在すること,(2) それらの間で記述されている犯罪種別傾向の違いから,Twitter からのみ抽出できる犯罪情報が存在していること,が分かった.また,犯罪関連投稿を自動抽出する実験結果についても報告する.We analyzed criminal Twitter posts. The purpose is to investigate the possibility of extraction of various social phenomena which can not be acquired by a sensor or statistical prediction. Through the analysis, our findings are: (1) There are three types of criminal tweets: user's experience, announce by public institution, and cited news article. (2) By analyzing the difference between these three types of criminal tweets, there may be criminal information existing only on Twitter. We also show the result of an experiment to extract criminal tweets automatically.
著者
古川 忠延 阿部 修也 安藤 剛寿 岩倉 友哉 志賀 聡子 高橋 哲朗 井形 伸之
雑誌
研究報告 デジタルドキュメント(DD)
巻号頁・発行日
vol.2011-DD-82, no.3, pp.1-6, 2011-10-01

本研究では,センサーや統計等を通じては獲得できない社会的事象の抽出と活用の可能性調査を目的として,犯罪情報を対象に Twitter 投稿の分析をおこなった.分析を通じ,(1) Twitter 上の犯罪関連投稿には,投稿者自身の犯罪の目撃や被害に関する投稿,公共・公的機関が発表した情報等を引用した投稿,ニュース記事の引用という3種類が存在すること,(2) それらの間で記述されている犯罪種別傾向の違いから,Twitter からのみ抽出できる犯罪情報が存在していること,が分かった.また,犯罪関連投稿を自動抽出する実験結果についても報告する.
著者
牧野 拓哉 野呂 智哉 岩倉 友哉
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.1, pp.117-134, 2017-02-15 (Released:2017-05-15)
参考文献数
15

本論文では,ユーザからの自然文による問い合わせを対応する Frequently Asked Question (FAQ) に分類する文書分類器を用いた FAQ 検索手法を提案する.本文書分類器は,問い合わせ中の単語を手掛かりに,対応する FAQ を判別する.しかし,FAQ の多くは冗長性がないため,FAQ を学習データとして文書分類器を作成する方法では,ユーザからの多様な問い合わせに対応するのが難しい.そこで,この問題に対処するために,蓄積されたユーザからの問い合わせ履歴から学習データを自動生成し,文書分類器を作成する.さらに,FAQ および文書分類用に自動生成した学習データを用いて,通常使われる表層的な手がかりに加えて,本文書分類器の出力を考慮するランキングモデルを学習する.ある企業のコールセンターの 4,738 件の FAQ および問い合わせ履歴 54 万件を用いて本手法を評価した.その結果,提案手法が,pseudo-relevance feedback および,統計的機械翻訳のアライメント手法を用いて得られる語彙知識によるクエリ拡張手法と比較し,高いランキング性能を示した.
著者
岩倉 友哉 岡本 青史 淺川 和雄
出版者
一般社団法人 電気学会
雑誌
電気学会論文誌C(電子・情報・システム部門誌) (ISSN:03854221)
巻号頁・発行日
vol.130, no.1, pp.83-91, 2010-01-01 (Released:2010-01-01)
参考文献数
26
被引用文献数
2

AdaBoost is a method to create a final hypothesis by repeatedly generating a weak hypothesis in each training iteration with a given weak learner. AdaBoost-based algorithms are successfully applied to several tasks such as Natural Language Processing (NLP), OCR, and so on. However, learning on the training data consisting of large number of samples and features requires long training time. We propose a fast AdaBoost-based algorithm for learning rules represented by combination of features. Our algorithm constructs a final hypothesis by learning several weak-hypotheses at each iteration. We assign a confidence-rated value to each weak-hypothesis while ensuring a reduction in the theoretical upper bound of the training error of AdaBoost. We evaluate our methods with English POS tagging and text chunking. The experimental results show that the training speed of our algorithm are about 25 times faster than an AdaBoost-based learner, and about 50 times faster than Support Vector Machines with polynomial kernel on the average while maintaining state-of-the-art accuracy.
著者
牧野 拓哉 岩倉 友哉
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.35, no.6, pp.B-K46_1-8, 2020-11-01 (Released:2020-11-01)
参考文献数
25
被引用文献数
1

Pointer-generator, which is the one of the strong baselines in neural summarization models, generates summaries by selecting words from a set of words (output vocabulary) and words in source documents. A conventional method for constructing output vocabulary collects highly frequent words in summaries of training data. However, highly frequent words in summaries could be usually a high possibility to be frequent in source documents. Thus, an output vocabulary constructed by the conventional method is redundant for pointer-generator because pointergenerator can copy words in source documents. We propose a vocabulary construction method that selects words included in each summary but not included in its source text of each pair. Experimental results on CNN/Daily Mail corpus and NEWSROOM corpus showed that our method contributes to improved ROUGE scores while obtaining high ratios of generating novel words that do not occur in source documents.
著者
浦澤 合 関根 裕人 乾 孝司 岩倉 友哉
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.1N4J903, 2019 (Released:2019-06-01)

本論文は化学化合物抽出におけるサブワード系列の有効性を調査する.5種類のサブワード分割方法(SYMBOL,SP,BPE,BPE-DICT,BPE-PMI)を用いて調査を行った.この内,BPE-DICTとBPE-PMIは今回新たに提案する手法であり,BPE-DICTとは辞書制約付きのBPE,BPE-PMIとは通常のBPEが語の出現頻度を用いる箇所をPointwise Mutual Information(PMI)に置き換えたBPEである.実験結果よりサブワード系列が抽出性能を向上させることを示した.本論文で行った全ての実験結果ではBPE-DICTのF値86.74が最も良い結果となった.
著者
崔 一鳴 西川 仁 徳永 健伸 吉川 和 岩倉 友哉
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.1N4J901, 2019 (Released:2019-06-01)

本研究では,化学文書中の専門用語の自動抽出に自己学習を取り入れる手法を提案する.我々は CHEMDNER コーパスを使い,ニューラルネットワークをベースとする化学文書中の専門用語抽出のモデルを訓練した.訓練済みのモデルは自動的に訓練データを作成するために,正解タグがついていない MEDLINE コーパスにアノテーションをするのに使用した.そして,最終的なモデルを獲得するために,人手でタグ付けが行われた CHEMDNER コーパスと自動タグ付けを行った MEDLINE コーパスの両方を用いて訓練を行った.訓練データとしてタグがついていない MEDLINE コーパスを用いた評価は,化学文書中の専門用語抽出における自己学習の有効性を示した.
著者
岩倉 友哉
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, pp.16-17, 2015-12-15

本稿では,固有表現抽出タスクおよび抽出手法の概要を紹介した後,固有表現抽出のエラー分析結果を基に洗い出した課題について述べる.