著者
岡崎直観 乾健太郎
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-217, no.8, pp.1-5, 2014-06-26

単語の意味ベクトルを大規模コーパスから学習するためのツールとして,Mikolov らの手法 [14] を実装した word2vec が注目を浴びている.本論文は,word2vec を複数のプロセッサで並列で動作させた時に学習速度が低下する原因を説明し,これを改善するアルゴリズムを提案する.提案手法は学習で得られる単語ベクトルの質を落とすこと無く,複数のプロセッサを効率よく利用できることを実験的に示す.
著者
横井 祥 持橋 大地 高橋 諒 岡崎 直観 乾 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

コーパスから関係知識を取り出す際,元の文のどの単語までを知識に含めるかが問題となる.本研究では,文ペアの集合を入力として知識に含めるべき単語を教師なしで推定する問題を提案し,この形式の問題が人工知能の諸分野に存在することを指摘する.提案手法では,カーネル法ベースの独立性尺度を目的関数に用いて乱択アルゴリズムで最適化する.人工データと実データを用いた実験でその有用性を示す.
著者
荒牧 英治 岡崎 直観
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, pp.32-33, 2015-12-15

2000年以降の自然言語処理(NLP)の発展の一翼を担ったのはWorld Wide Web(WWW)である.Webを大規模テキストコーパスと見なし,そこから知識や統計量を抽出することで,さまざまなタスクで精度の向上が報告されている.これらは,WebがNLPを高度化した事例と言える.本プロジェクトでは,Webのテキストデータから個人の実際の経験や意図を推測する(マーケティングでは,「傾聴」という言葉が用いられている)というタスクにおいて,自然言語処理の最先端技術の適用と,そのエラーの分析,取り組むべき課題の整理を行った.
著者
岡崎 直観 辻井 潤一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.89-117, 2011 (Released:2011-09-28)
参考文献数
34
被引用文献数
2

本論文では,コサイン係数,ダイス係数,ジャッカード係数,オーバーラップ係数に対し,簡潔かつ高速な類似文字列検索アルゴリズムを提案する.本論文では,文字列を任意の特徴(tri-gram など)の集合で表現し,類似文字列検索における必要十分条件及び必要条件を導出する.そして,類似文字列検索が転置リストにおける τ オーバーラップ問題として正確に解けることを示す.次に,τ オーバーラップ問題の効率的な解法として,CPMerge アルゴリズムを提案する.CPMerge は,検索クエリ文字列中のシグニチャと呼ばれる特徴と,解候補が枝刈りできる条件に着目し,τ オーバーラップ問題の解候補を絞り込む.さらに,CPMerge アルゴリズムの実装上の工夫について言及する.英語の人名,日本語の単語,生命医学分野の固有表現の 3 つの大規模文字列データセットを用い,類似文字列検索の性能を評価する.実験では,類似文字列検索の最近の手法である Locality Sensitive Hashing や DivideSkip 等と提案手法を比較し,提案手法が全てのデータセットにおいて,最も高速かつ正確に文字列を検索できることを実証する.また,提案手法による類似文字列検索が高速になる要因について,分析を行う.なお,提案手法をライブラリとして実装したものは,SimString としてオープンソースライセンスで公開している.
著者
岡崎直観 乾健太郎
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014, no.8, pp.1-5, 2014-06-26

単語の意味ベクトルを大規模コーパスから学習するためのツールとして,Mikolov らの手法 [14] を実装した word2vec が注目を浴びている.本論文は,word2vec を複数のプロセッサで並列で動作させた時に学習速度が低下する原因を説明し,これを改善するアルゴリズムを提案する.提案手法は学習で得られる単語ベクトルの質を落とすこと無く,複数のプロセッサを効率よく利用できることを実験的に示す.
著者
松林 優一郎 岡崎 直観 辻井 潤一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.4, pp.4_59-4_89, 2010 (Released:2011-06-09)
参考文献数
26

FrameNet,PropBank といった意味タグ付きコーパスの出現とともに,機械学習の枠組みを利用した自動意味役割付与システムが数多く研究されてきた.しかし,これらのコーパスは個々のフレームに固有の意味役割を定義するため,コーパス中に低頻度,或いは未出現の意味役割が数多く存在し,効率的な学習を妨げている.本論文は,意味役割付与における意味役割の汎化問題を取り上げ,既存の汎化指標と新たに提案する指標を役割の分類精度を通して比較し,それぞれの特徴を探求する.また,複数の汎化指標を同時に利用する分類モデルが自動意味役割付与の精度を向上させることを示す.実験では,FrameNet において全体の精度で 19.16% のエラー削減,F1 マクロ平均で 7.42% の向上を,PropBank において全体の精度で 24.07% のエラー削減,未知動詞に対するテストで 26.39% のエラー削減を達成した.
著者
佐々木 彬 水野 淳太 岡崎 直観 乾 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

近年、Twitterなどのマイクロブログが爆発的に普及し、それを対象とした自然言語処理関連の研究が増加している。しかしながら、マイクロブログ上のテキストには口語表現やインターネットスラングの類が入り混じり、自然言語処理を行うに当たって不便な点が多い。本研究では機械学習により、マイクロブログ上のテキストから自然言語処理に適したテキストへの正規化を図る。
著者
乾 健太郎 岡崎 直観 楠見 孝 渡邉 陽太郎
出版者
東北大学
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

(i) Web上の様々な医療・健康情報の間に潜在的に存在する同意、対立、根拠等の隠れた論理的関係を同定する言論間関係認識技術を研究開発した。(ii) (i)の要素技術として、大規模言語データからの知識獲得、述語項構造解析の洗練、仮説推論の高速化と機械学習に関する研究に取り組んだ。(iii) (i)(ii)の技術をソーシャルメディア上の情報に対する信頼性分析に応用し、ソーシャルメディア分析のケーススタディを行った。(iv) ネット調査を行い、批判的思考態度や教育歴がヘルスリテラシーを高め、適切なネット上の医療・健康、食品安全性に関する情報の利活用を促進していることを明らかにした。
著者
岡崎 直観 劉 瀟 綱川 隆司 辻井 潤一
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.23, 2009

ウィキペディアでは,同一の実体を複数の言語で説明することがあり,それらのエントリ間は言語横断リンクで結ばれる.そこで,本研究では言語横断リンクで結ばれたエントリ同士を並行コーパスと見なし,対訳用語対をマイニングする.提案手法は,単一言語に対して用語抽出を行い,その用語に対する訳語を,統計的機械翻訳に基づく翻訳確率,並行コーパス中における共起回数,言語を横断した用語周辺文脈の類似度で選出する.