著者
藏本 貴久 和泉 潔 吉村 忍 石田 智也 中嶋 啓浩 松井 藤五郎 吉田 稔 中川 裕志
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.28, no.3, pp.291-296, 2013 (Released:2013-03-28)
参考文献数
9
被引用文献数
5 3

In this study, we developed a new method of the long-term market analysis by using text-mining of news articles. Using our method, we conducted extrapolation tests to predict stock price averages by 19 industry and two market averages, TOPIX and Nikkei225 for about 10 years. As a result, 8 sectors in 21 sectors (about 40%) showed over about 60% accuracy, and 15 sectors in 21 sectors (over 70%) showed over about 55% accuracy. We also developed a web system of financial text-mining based on our method for financial professionals.
著者
中川 裕志
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.60, no.10, pp.710-718, 2018-01-01 (Released:2018-01-01)
参考文献数
9

日本では改正個人情報保護法が2015年に成立し2017年5月に施行された。データ主体の同意なしに流通できる匿名加工情報が導入されたが,どのような匿名化処理を施すべきか検討が続いている。EUでは全体の統一的なパーソナルデータ保護規則「一般データ保護規則」が成立し,2018年からの施行に向け,これに適合するプライバシー保護の方策が模索されている。本稿では,プライバシー保護技術を保護対象となる個人が,(1)質問者である場合に (a)質問者が誰であるか,および (b)質問内容自体,を検索エンジン側から秘匿する方法,(2)データベースに個人データが格納されているデータ主体の個人に関して識別を防ぐ場合に分けて,代表的なプライバシー保護技術を概観する。
著者
横井 創磨 佐藤 一誠 中川 裕志
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.31, no.6, pp.AI30-C_1-9, 2016-11-01 (Released:2016-11-02)
参考文献数
16

Topic models are generative models of documents, automatically clustering frequently co-occurring words (topics) from corpora. Topics can be used as stable features that represent the substances of documents, so that topic models have been extensively studied as technology for extracting latent information behind large data. Unfortunately, the typical time complexity of topic model computation is the product of the data size and the number of topics, therefore the traditional Markov chain Monte Carlo (MCMC) method cannot estimate many topics on large corpora within a realistic time. The data size is a common concern in Bayesian learning and there are general approaches to avoid it, such as variational Bayes and stochastic gradient MCMC. On the other hand, the number of topics is a specific problem to topic models and most solutions are proposed to the traditional Gibbs sampler. However, it is natural to solve these problems at once, because as the data size grows, so does the number of topics in corpora. Accordingly, we propose new methods coping with both data and topic scalability, by using fast computing techniques of the Gibbs sampler on stochastic gradient MCMC. Our experiments demonstrate that the proposed method outperforms the state-of-the-art of traditional MCMC in mini-batch setting, showing a better mixing rate and faster updating.
著者
佐倉 統 福住 伸一 中川 裕志
出版者
人工知能学会
雑誌
2019年度 人工知能学会全国大会(第33回)
巻号頁・発行日
2019-04-08

この論文の目的は,人とAIが一緒に写っている写真を対象にしてそれらの構図を分析すること(図像分析)が,人−AI関係の文化的相違の解明に資すると示すことである.試行的に得られたインターネット上の画像から,日本由来の写真では人とAI/ロボットは横並びに位置してこちらを見ていることが多く,欧米由来の写真では人とロボットがお互いに向き合っている構図が多いことがわかった.共視論研究(北山,2005)によれば,日本の浮世絵の母子像は何か別の物(第三項)を一緒に注視していることが多く,西洋の絵画ではこのような共視は少ないという.このような“共視”は人では生後9か月から見られるようになる.浮世絵の母子関係と同じパターンが人−AI関係にも見られるのだとすると,それはAIやロボットが人間の子供と同じく何物か(第三項)を共同注視することのできる存在,それだけの認知能力をもった存在として日本では無意識に認知していることを示唆する.欧米ではAI/ロボットはもっと人に従属する存在として位置づけられているのではないか.今後より体系的な図像分析をおこない,東アジア内での国際比較(日韓台)をおこなう必要がある.
著者
中川 裕志 湯本 紘彰 森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.10, no.1, pp.27-45, 2003-01-10 (Released:2011-03-01)
参考文献数
22
被引用文献数
12 18

本論文では, 専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する. 本論文では名詞 (単名詞と複合名詞) を対象として専門用語抽出について検討する. 基本的アイデアは, 単名詞のバイグラムから得られる単名詞の統計量を利用するという点である. より具体的に言えば, ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる. この頻度を利用した数種類の複合名詞スコア付け法を提案する. NTCIR1 TMRECテストコレクションによって提案方法を実験的に評価した. この結果, スコアの上位の1, 400用語候補以内, ならびに, 12,000用語候補以上においては, 単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
著者
簗瀬 拓弥 増田 英孝 山田 剛一 荒牧 英治 中川 裕志
雑誌
研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2013, no.1, pp.1-6, 2013-02-21

本研究では電車の運行状況をリアルタイムに一般の Twitter のユーザのツイートから取得することを目的とする.対象として常磐線をキーワードとして含むパブリックタイムライン上のツイートを半年分収集した.このデータを用いて単位時間あたりのバースト数を元に定常時と異常時を判別し,通知を行うシステムを試作した.また,遅延や運転見合わせ時のユーザのツイートの特徴の分析を行った.Our goal is to extract train services from ordinary twitter users' tweets in real-time. We have collected tweets which includes '常磐線' from public time line over six months. We distinguish abnormal state from normal state by using a burst per minutes in the collected tweets, and we implemented a prototype system which can be notified abnormal state. Also, we analyzed the characteristic of users' tweets when trains are delayed or postponed.
著者
大倉 務 清水 伸幸 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.1-6, 2007-09-25
被引用文献数
3

本論文では,ブログの著者属性推定問題を扱う.ブログを用いた流行分析が広がりつつあるが,その際に年齢・性別・居住域などの著者属性が分かればその有用性はさらに高まる.これまでに,いくつかのブログの著者属性推定手法が提案されてきたが,汎用的なものではなかった.本論文では著者属性推定問題を,個々の属性固有の性質を利用しない単純な多クラス文書分類問題ととらえ,χ2値による素性選択と Complement Naive Bayes を用いる方法を提案する.その上で提案手法を現実のブログデータに適用する実験を行い,汎用的であるにも関わらず高速かつ高精度に著者属性を推定できることを示す.We propose a general and scalable method to estimate bloggers' unstated profiles. Recently, trend analysis based on weblogs is gaining popularity, and blogger profiles provide us more detailed interpretation of data. None of previous studies proposed a method generally applicable to different attributes. In this paper, we reduce blogger profile estimation to text classification, using Complement Naive Bayes with feature selection based on χ2 value. We applied our proposed general method to real weblog data, and experimental results show the its effectiveness and scalability.
著者
角野 為耶 荒井 ひろみ 中川 裕志
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.56, no.12, pp.2244-2252, 2015-12-15

個人の情報を保護したデータ開示法の1つにk-匿名化がある.k-匿名化されたデータを人間が閲覧した際に,データに含まれた人間に対して不利益を生ずるような推測がなされる場合がある.本研究ではこの現象をk-匿名化が誘発する濡れ衣と呼び,濡れ衣を発生させうる属性を持つ機微なレコードに着目し,濡れ衣の発生を軽減させるk-匿名化法を提案する.実データに対して濡れ衣を発生させうる機微属性を付与したデータセットを用いて実験を行い,提案手法を用いると濡れ衣を軽減させたk-匿名化を実現できることを確認した.
著者
和泉 潔 池田 翔 石田 智也 中嶋 啓浩 松井 藤五郎 吉田 稔 中川 裕志 本多 隆虎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.25, 2011

本研究では,新聞記事データを用いた業種別株価指数の分析の新たな手法を提案した.本手法を用いて,2009年の1 年間を対象に外挿予測精度を評価した結果,予測精度の目標とした52%を超えた業種は,19 業種中11業種(57.8%) であった.また,予測正答率は時期・業種によって予測正答率の季節性が見られた.これにより,期間毎のテキストマイニングによる予測の信頼度を測る指標になることが期待できる.
著者
簗瀬 拓弥 増田 英孝 山田 剛一 荒牧 英治 中川 裕志
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2013, no.1, pp.1-6, 2013-02-21

本研究では電車の運行状況をリアルタイムに一般の Twitter のユーザのツイートから取得することを目的とする.対象として常磐線をキーワードとして含むパブリックタイムライン上のツイートを半年分収集した.このデータを用いて単位時間あたりのバースト数を元に定常時と異常時を判別し,通知を行うシステムを試作した.また,遅延や運転見合わせ時のユーザのツイートの特徴の分析を行った.Our goal is to extract train services from ordinary twitter users' tweets in real-time. We have collected tweets which includes '常磐線' from public time line over six months. We distinguish abnormal state from normal state by using a burst per minutes in the collected tweets, and we implemented a prototype system which can be notified abnormal state. Also, we analyzed the characteristic of users' tweets when trains are delayed or postponed.
著者
佐藤 一誠 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌数理モデル化と応用(TOM) (ISSN:18827780)
巻号頁・発行日
vol.48, no.19, pp.107-116, 2007-12-15

Unigram Mixtureは教師なし文書分類などで幅広く使われている確率的生成モデルである.Unigram Mixtureは,混合モデルであり,実際の適用にはユーザは混合数決定問題をつねにかかえている.近年,このような混合モデルにおいて,Dirichlet Processを用いたノンパラメトリックベイズモデルが注目を集めている.Dirichlet Processを用いることでデータに合わせてモデル構造(混合数)を変化させることができる.本研究では,Dirichlet Processにより拡張したUnigram Mixtureに対して,Collapsed変分ベイズ法を用いてモデル学習する手法を示す.対数尤度とF-scoreによる評価により従来手法に対する有効性を確認した.Unigram Mixture is a probabilistic generative model that is widely used in unsupervised clustering of documents. Unigram Mixture is a mixture model and have a problem of how to determine the number of clusters. Recently, a nonparametric Bayes model using Dirichlet Process has gotten a lot of attention in this problem. Models using Dirichlet Process can determine the number of cluster corresponding to data. In this paper, we expand Unigram Mixture by Dirichlet Process and present a scheme that learns the model by Collapsed Variational Bayes inference.
著者
横井 創磨 佐藤 一誠 中川 裕志
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:21888833)
巻号頁・発行日
vol.2015-MPS-103, no.5, pp.1-5, 2015-06-16

大規模な文書データに対して頻度分布のロングテールに位置する単語は情報量が少ないため,トピックモデルと呼ばれる単語の統計モデルを分布の背後に仮定することで,検索エンジンやオンライン広告などの性能が向上することが知られている.しかし,このような場面において用いられるトピックモデルは,予め仮定する潜在トピック数を高次元に設定する必要があり,計算速度や必要メモリ量が問題になる.トピックモデルの最も基本的なモデルである LDA に対して,大量の文書を扱える SGRLD LDA や高次元のトピックを扱える AliasLDA などの手法が存在するが,大量の文書・高次元のトピックを同時に達成するためには非効率的なアルゴリズムを巨大な計算機リソースを用いて実行しなくてはならない.そこで本研究では,これらの手法をうまく組み合わせることで効率的な計算を可能にする.また,勾配計算において更新の方法を工夫することにより,余分な空間を使わずに期待値計算を行うことができる.実験により,提案手法は大規模データかつ高次元トピックでも実行可能であり,さらに既存手法と比較して速く,特に高次元トピックでは 10 倍以上高速であることを示す.
著者
蔵本 貴久 和泉 潔 吉村 忍 石田 智也 中嶋 啓浩 松井 藤五郎 吉田 稔 中川 裕志
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.26, 2012

本研究は、金融実務家から要望が高い、数週間以上の長期的で広範な市場分析を、テキスト情報から安定的に行うための手法を開発した。業種別平均株価および市場全体の平均株価について外挿予測テストを行った。その結果、1ヶ月後の騰落予測について、過去10年間の長期間を通じて約60%以上の精度を4割近くの市場で、55%以上の精度は7割以上の市場で達成することができた。
著者
中川 裕志 小野 晋
出版者
言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.3, no.2, pp.3-18, 1996-04-10
被引用文献数
4

終助詞「よ」「ね」「な」は,書き言葉の文には殆んど用いられないが,日常会話において頻繁に使われており,文全体の解釈に及ぼす影響が大きい. そのため,機械による会話理解には,終助詞の機能の研究は不可欠である.本論文では,代表的な終助詞「よ」「ね」「な」について,階層的記憶モデルによる終助詞の機能を提案する.まず,終助詞「よ」の機能は,文の表す命題が発話以前に記憶中のある階層に存在することを表すことである.次に,終助詞「ね」「な」の機能は,文の表す命題を記憶中に保存する処理をモニターすることである.本稿で提案する機能は,従来の終助詞の機能が説明してきた終助詞「よ」「ね」「な」の用法を全て説明できるだけでなく,従来のものでは説明できなかった終助詞の用法を説明できる.Japanese sentence final particles(JSFPs henceforth) are used extremely frequently in utterances. We propose functions of Japanese Sentence Final Particles YO NE and NA that are based on a hierarchal memory model which consists of Long Term Memory, Episodic Memory and Discourse Memory. The proposed functions of JSFPs are basically monitoring functions of the mental process being done in utterance. YO shows that the propositional content of the utterance that ends with YO was already in the speaker's Episodic Memory or Long Term Memory, while NE and NA show that the speaker is processing the propositional contents with the contents of speaker's memory. The proposed functions succeed in accounting for the phenomena yet to be explained in the previous works.
著者
吉田 稔 中川 裕志 寺田 昭
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.122-132, 2010 (Released:2010-01-06)
参考文献数
18
被引用文献数
1

This paper proposes a method for implementing real-time synonym search systems. Our final aim is to provide users with an interface with which they can query the system for any length strings and the system returns a list of synonyms of the input string. We propose an efficient algorithm for this operation. The strategy involves indexing documents by suffix arrays and finding adjacent strings of the query by dynamically retrieving its contexts (i.e., strings around the query). The extracted contexts are in turn sent to the suffix arrays to retrieve the strings around the contexts, which are likely to contain the synonyms of the query string.
著者
湯本 紘彰 森 辰則 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2001, no.86, pp.111-118, 2001-09-10
被引用文献数
8

本論文では,専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する。本論文では名詞(単名詞と複合名詞)を対象として専門用語抽出について検討する。基本的アイデアは、単名詞のバイグラムから得られる単名詞の統計量を利用するという点である。より具体的に言えば、ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる。この頻度を利用した数種類の複合名詞スコア付け法を提案する。NTCIR1 TMREC テストコレクションによって提案方法を実験的に評価した。この結果、スコアの上位の1 400用語候補以内においては 単名詞バイグラムの統計に基づく提案手法が優れていた。In this paper, we propose a new idea of automatically recognizing domain specific terms from monolingual corpus. The majority of domain specific terms are compound nouns that we aim at extracting. Our idea is based on single-noun statistic calculated with single-noun bigrams. Namely we focus on how many nouns adjoin the noun in question to form compound nouns. In adition, we combine thismeasure and frequency of each compound nouns and single-nouns, whichwe call FLR method. We experimentally evaluate these methodson NTCIR1 TMREC test collection. As the results, when we take intoaccount up to 1,400 highest term candidates, FLR method performsbest.
著者
中川 裕志
出版者
総務省情報通信政策研究所
雑誌
情報通信政策研究 (ISSN:24336254)
巻号頁・発行日
vol.3, no.2, pp.1-24, 2020-03-30 (Released:2020-03-31)
参考文献数
20
被引用文献数
1

シンギュラリティによって人間と同じような知的能力を持つAIが出現し、人間への脅威になりかねないという言説が流布した。これによって、AIにも倫理を守らせようという機運が高まったという状況もあってか、2016年ころからAI倫理指針の作成と公開が盛んになった。本論文では、2017年から2019年にかけて国内外で公開された多数のAI倫理指針のうち、影響力の大きな主要な指針に関して、AI制御、人権、公平性、非差別、透明性、アカウンタビリティ、トラスト、悪用、誤用、プライバシー、AIエージェント、安全性、SDGs、教育、独占禁止・協調、政策、軍事利用、法律的位置づけ、幸福などの倫理的テーマを各AI倫理指針がどのように扱ってきたかをまとめた。種々のAI倫理指針の公開の時間順序と合わせてみれば、AI倫理の内容の変遷を探ることができ、同時にAI技術、AI応用システムの開発を行うにあたって留意すべき点が明らかになる。また、これらの指針が誰を対象に起草されているか、すなわち名宛人を考察することによって、AI倫理指針を作成した組織の意図が見えてくる。次に、AI倫理指針のうちIEEE EAD ver2、1eで提案された個人データの収集、管理、保護をおこなう代理ソフトウェア、すなわちパーソナルAIエージェントの概念設計について述べる。これは、データ主体本人の個人データとその利用条件の記述されたデータベースであるので、これをデータ主体の死後に残されたディジタル遺産の管理に適用する場合の検討課題について述べた。
著者
杉田 賢治 福原 知宏 増田 英孝 中川 裕志
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.25, 2011

利用者のWebページ閲覧時の行動分析を目的としたWebブラウザ操作ログ 収集ツールを提案する.Web上で情報検索や情報推薦を行う際,利用者が Webページ内でどの箇所に注目していたか,どのようにページを閲覧したかを 把握できれば,より適切な検索や推薦が可能となる. 本研究ではWebブラウザの拡張機能を利用し,利用者の各種ブラウザ操作ログを 収集し管理するツールを提案する.
著者
山田 剛一 森 辰則 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:03875806)
巻号頁・発行日
vol.39, no.8, pp.2431-2439, 1998-08-15
参考文献数
12
被引用文献数
2

情報検索においては, 検索対象の規模が拡大するにつれ, 検索精度の向上がより強く求められてきている.そこで本論文では, 複合語をまとまりとして扱う手法と, 単語の共起情報を用いる手法を統合することにより, 探索システムの精度向上を図ることを提案する.複合語は全体で1つの概念を表現しており, まとまりとして扱うことが望ましいが, 複合語どうしマッチさせる場合には部分的なマッチングを考慮する必要が生じる.このマッチングを行い文書をスコア付けする手法を考案した.さらに, 単語が複合語を構成せず共起する場合もスコアに反映させるため, 共起情報を利用する手法と組み合わせ, 評価実験を行ったところ, 単語の重みに基づく手法, およびそれに共起情報を加える手法のいずれよりも良い探索精度が得られることが確認できた.
著者
新井 嘉章 福原 知宏 増田 英孝 中川 裕志
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第22回全国大会(2008)
巻号頁・発行日
pp.227, 2008 (Released:2009-07-31)

Wikipediaは現在253言語で展開されている巨大なユーザー参加型の百科事典である。本研究では,Wikipediaから抽出した言語間リンクをいくつかの接続パタンに分けて分析している。本論文では,各接続パタンの紹介と,日中韓英4言語を対象とした各接続パタンの割合を示す。また,言語間リンクによるキーワード対訳に関する調査結果を示し,言語間リンクの対訳システムへの有効性を検証する。本論文では,我々が試作した言語間リンクに基づくキーワード対訳システムについても紹介する。