著者
塚本悠馬 笹野遼平 高村大也 奥村学
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-214, no.14, pp.1-8, 2013-11-07

近年,Twitter をはじめとするマイクロブログを利用した商品やイベントの告知に対し,多くのユーザが感想など告知の投稿者やその告知への感想に関心があるユーザにとって有益な関連投稿を行うようになってきている.しかし,関連投稿の多くは告知投稿とは明示的に関連付けられてはいないため,告知の投稿者がこれらの関連投稿を見つけるのは容易ではない.そこで本研究では,特に Twitter の機能であるリツイートに注目し,告知に対する非明示的な関連投稿を効率的に収集する手法を提案する.
著者
高橋 佑介 横本 大輔 宇津呂 武仁 吉岡 真治
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011, no.6, pp.1-6, 2011-11-14
被引用文献数
1

本論文では,時系列ニュースを対象として,情報集約を行うための二種類の方式として,バースト解析およびトピックモデルの2つの手法の考え方を組み合わせることにより,トピックのバーストを検出する方式を提案する.時系列ニュースにおけるバーストとは,世の中における特異な出来事に対応して,ある時期からその出来事に関連するニュース記事が急激に増加する現象を指す.バーストを検出するための代表的な手法として,Kleinbergのバースト解析が挙げられる.この手法においては,一般的に,バーストの検出はキーワード単位で行われる.一方,文書集合におけるトピックの分布を推定するものとしてLDA (latent Dirichlet allocation) やDTM (dynamic topic model) に代表されるトピックモデルがある.トピックモデルを適用することにより,ニュース記事集合全体の情報を,いくつかのトピックに集約することができる.以上の既存技術をふまえて,本論文では,DTMを用いて推定したトピックに対してバースト度を付与することで,トピック単位のバーストが検出可能であることを示す.Among various types of recent information explosion, that in news stream is also a kind of serious problems. This paper studies issues regarding two types of modeling of information flow in news stream, namely, burst analysis and topic modeling. First, when one wants to detect a kind of topics that are paid much more attention than usual, it is usually necessary for him/her to carefully watch every article in news stream at every moment. In such a situation, it is well known in the field of time series analysis that Kleinberg's modeling of bursts is quite effective in detecting burst of keywords. Second, topic models such as LDA (latent Dirichlet allocation) and DTM (dynamic topic model) are also quite effective in estimating distribution of topics over a document collection such as articles in news stream. This paper focuses on the fact that Kleinberg's modeling of bursts is usually applied only to bursts of keywords but not to those of topics. Then, based on Kleinberg's modeling of bursts of keywords, we propose how to measure bursts of topics estimated by a topic model such as LDA and DTM.
著者
持橋 大地 吉井 和佳 後藤 真孝
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-213, no.11, pp.1-8, 2013-09-05

本論文では,単語に潜在空間における座標を明示的に与え,その上でのガウス過程を考えることで,通常の混合モデルに基づくトピックモデルより高精度なテキストモデルが得られることを示す.提案法は潜在層が二値ではなく,ガウス分布に従う RBM の生成モデルともみることができ,MCMC により単語の潜在座標を学習することは他の多くの応用や,可視化にも自然に繋がることができる.
著者
長尾真
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012, no.12, pp.1-12, 2012-11-15
著者
藤沼祥成 横野光 PascualMartinez-gomez 相澤彰子
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-216, no.3, pp.1-8, 2014-05-15

あるイベントの盛り上がりに対して,それに関するツイートにも変化が現れその変化に着目することで盛り上がりを検出することが可能であると考えられる.本研究ではこの盛り上がり時間帯中のツイートに用いられている表現の特性を解析することを試みる.はじめに各時間帯のツイート集合とツイートより構築した言語モデルの関係をクロスエントロピーで算出した.実験結果より複数のハッシュタグ間における一部の盛り上がり時間帯のツイートはツイートより構築した n-gram 言語モデルに従うことを示す.また,盛り上がっている時間帯とそうでない時間帯において,クロスエントロピーにおいて統計的に有意差があることを示した (p<0.02).また,n-gram 言語モデルでは捉えられない素性も検討するため,Support Vector Machine (SVM) と Random Forest により各ツイートを盛り上がり時間帯の二値分類を行い,盛り上がり時間帯の特徴として漢字数が少ないことが明らかになった.
著者
柴田 勝征
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-218, no.7, pp.1-6, 2014-08-25

福岡県の算数教育実践研究サークルの教師たちは,30 年の実践の中で数々のユニークな成功例を導き出してきた.その原因を探っていく中で,認知と言語の発達史に関する驚くべき事実が浮かび上がって来た.人類の認知のあり方には,ズームアウト型 (トップダウン型= “西洋脳”) とズームイン型 (ボトムアップ型= “東洋脳”) があり,各民族ごとに,どちらのタイプの人間が多いかがほぼ決まっている.そして,その認知型とその民族の言語の文法構造の間には,非常に強い相互作用 (抗争・対立/協調・協力) の数万年の歴史があった.
著者
吉越 卓見 河原 大輔 黒橋 禎夫
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2020-NL-244, no.6, pp.1-8, 2020-06-26

言語を理解するには,字義通りの意味を捉えるだけでなく,それが含意する意味を推論することが不可欠である.このような推論能力を計算機に与えるために,自然言語推論(NLI)の研究が盛んに行われている.NLI は,前提が与えられたときに,仮説が成立する(含意),成立しない(矛盾),判別できない(中立)かを判断するタスクある.自然言語推論を計算機で解くには数十万規模の前提・仮説ペアのデータセットが必要となるが,これまでに構築された自然言語推論データセットは言語間でその規模に大きな隔たりがある.この状況は,自然言語推論の研究の進展を妨げる要因となっている.このような背景から,本研究では,機械翻訳に基づく,安価かつ高速な自然言語推論データセットの構築手法を提案する.提案する構築手法は二つのステップからなる.まず,既存の大規模な自然言語推論データセットを機械翻訳によって目的の言語に変換する.次に,翻訳によって生じるノイズを軽減するため,フィルタリングを行う.フィルタリングの手法として,評価データと学習データに対し,それぞれ別のアプローチをとる.評価データは,正確さが重要となるため,クラウドソーシングを用い,人手で検証する.学習データは,大規模な自然言語推論データセットでは数十万ペアの問題が存在するため,翻訳文の検証を自動的に行い,効率的にデータをフィルタリングする.本研究では,機械翻訳を用いた逆翻訳による手法と,言語モデルによる手法の二つを提案する.本研究では,SNLI を翻訳対象とし,日本語を対象言語として実験を行った.その結果,評価データが 3,917 ペア,学習データが 53 万ペアのデータセットを構築した.このデータセットは BERT に基づく自然言語推論モデルによって 93.0 %の精度で解くことが可能である.
著者
藤田 正悟 上垣外 英剛 船越 孝太郎 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-250, no.3, pp.1-6, 2021-09-21

抽出型要約は元の文書において重要度が高い文を抽出し要約として再構成する手法であり広く使われている.その一方,この方法では複数文書を横断して重要文を抽出し要約を構成する際に,抽出された文の順序が適切ではない場合がある.解決策として既存の文並び替えモデルを使って文並び替えを行うことが考えられるが,抽出型要約に適した文並び替えの教師データが存在せず,尚且つ抽出型要約において並び替えを考慮した評価尺度が存在しないという問題がある.そこで我々は抽出型要約に適した文並び替えの教師データの作成手法と抽出型要約を並び替える場合の評価指標を提案する.いくつかのベースラインと比較した結果,我々の評価指標は特に一貫性において人手評価と高い相関を示した.
著者
磯沼 大 藤野 暢 浮田 純平 村上 遥 浅谷 公威 森 純一郎 坂田 一郎
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-227, no.6, pp.1-6, 2016-07-22

近年,記事生成などへの自動要約技術の適用が注目されている.本研究で対象とする決算記事は,どの事業や事象が企業全体の業績変動に大きな影響を及ぼすかといった記者の知見をもとに作成される.したがって自動要約においてはこうした記者の知見を抽出し,情報抽出・要約に適用する技術が必要である.本研究では過去の決算短信と決算記事から業績変動と短信文の掲載パターンを学習し,記事に掲載されるべき文を決算短信から抽出する手法を提案する.提案手法は 2 パートに分かれ,第 1 パートでは各事業セグメントの業績変動と,記事掲載パターンを学習することにより,各事業セグメントの重要度を判定する.第 2 パートでは,判定した各事業セグメントの重要度と極性判定を用いることで各文の重要度を評価し,抽出を行う.極性判定では,決算記事中の各表現に関する極性を自動で獲得し,非負値行列因子分解 (NMF) による極性値推定を行うことで,決算記事に未出現の表現も含めた多様な表現に関する極性の獲得を可能にした.提案手法を適用して決算短信から抽出された文と実際の決算記事を比較した実験において,重要文抽出精度の評価を行い,事業セグメントの重要度判定と NMF による極性推定の有用性を確認した.
著者
鈴木 雄登 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-209, no.8, pp.1-7, 2012-11-15

昨今, Web サービスの発達により気軽に Web 上にテキストを投稿することが可能になった.それに伴い, 「パフェる」 や 「リムる」 のような新しいカタカナ動詞も多く使用されるようになった.しかしこうしたカタカナ動詞には一見しただけでは意味が推測できないものが多く存在する.そこで本研究では,カタカナ動詞の入力に対して語源と言い換えの 2 つを出力として提示すればその意味の理解の助けになるとの考えから,格要素の統計的分布を用いてカタカナ動詞の語源と言い換えを獲得する手法を提案する.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2011-NL-201, no.1, pp.1-8, 2011-05-09

近年のTwitterの普及とともに,そこから有益な情報を抽出する研究の需要が高まっている.本研究ではインフルエンザ流行予測の問題に焦点をあてる.まず,Twitterからインフルエンザに関連した発言を抽出する.次に,SVMを用いた分類器で,その発言者が実際にインフルエンザにかかっているかどうかを判定する.実験では,厚労省報告の症例数と比較し相関係数0.89の精度で流行予測することができ,提案手法の有効性を示した.特に,流行の開始時期においては,相関係数は0.97と高く,最先端の手法であるGoogle Fluトレンドと同等の精度が得られた.本研究によって,Twitter上のテキストが現実の疾病状態を反映していること,また,言語処理技術によって,その情報が抽出可能であることを示した.
著者
川口 輝太 久保 遼馬 藤田 拓也 前田 竜冶 宇津呂 武仁 小林 彰夫 西崎 博光 河田 容英
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-241, no.22, pp.1-9, 2019-08-22

本論文では,テレビドラマ視聴者がドラマ視聴後にウェブ上で行うドラマ関連関心動向 ・感想 ・レビュー類の情報探索過程を支援することを目的として,ブログ ・ドラマ関連サイト等のウェブページからの情報収集 ・集約を行うウェブマイニング技術を提案する.具体的には,本論文では,BERT および Wikipedia を用いて,文単位での当該ドラマ関連判定および主観情報判定を行うとともに,文単位での判定結果に基づいて,ウェブページ単位での当該ドラマ関連判定および主観情報判定を行う手法,および,その評価結果について述べる.
著者
叢悠悠 浅井健一 戸次大介
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-214, no.19, pp.1-6, 2013-11-07

プログラミングにおける 「継続」 とは,残りの計算,すなわちある部分項に対する文脈のことを指す.この概念を自然言語の意味論に取り入れることで,様々な言語現象の意味を記述することができる.本研究では,限定継続命令 shift/reset を用いた副詞 only のフォーカスの分析 (Bekki and Asai (2010)) を OCaml で実装し,一つのフォーカスを含む文の意味表示を正しく計算できることを確認した.しかし,フォーカスが複数存在する場合への非対応など,今回の実装にはいくつかの問題があり,それらについても考察する.
著者
加納 隼人 佐藤 理史 松崎 拓也
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2015, no.8, pp.1-7, 2015-01-12

本年度新たに実装した,大学入試センター試験 『国語』 評論傍線部問題を解くソルバーについて報告する.実装したソルバーは,傍線部問題の本文と選択肢に対して節境界検出による節分割を行い,その結果を用いて類似度計算を行うことで,解答を選択する.本ソルバーをセンター試験の過去問 40 問に適用したところ,昨年度のソルバーを上回る最大 28 問の正解数を示した.This paper describes a new solver that solves comprehension questions in Contemporary Japanese of the National Center Test. A target question consists of a text body, a question sentence, and five choices. Our solver divides the text body and the choices into clauses by using clause-boundary detection and selects a choice based on clause similarity. Our solver correctly solved 28 questions in 40 previous questions of the National Center Test.
著者
石川 大介 栗山 和子 関 洋平 神門 典子
出版者
情報処理学会
雑誌
研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.8, pp.1-7, 2010-01-21
参考文献数
12

Q&Aサイトにおけるベストアンサーを計算機が推定可能か検証するために,人間の被験者によるベストアンサー推定実験を行った.ベストアンサー推定実験にはYahoo!知恵袋データを利用し,「恋愛相談」と「パソコン」のカテゴリーから各50問を使用した.被験者二人による推定結果は,「恋愛相談」では正解率50%と52%(ランダム推定結果は34%),「パソコン」では正解率62%と58%(ランダム推定結果は38%) であり,いずれもランダム推定結果を上回った.また,被験者二人のκ係数は,「恋愛相談」では0.454(moderate),「パソコン」では0.613(substantial) であった.In order to verify whether a computer can estimate the best answer on a Q&A site, a best-answer estimation experiment was carried out with human examinees. The Yahoo! Chiebukuro data was used for the best-answer estimation experiment, and 50 questions each were used for the categories of"Consultation of love"and"Personal computer."The estimated result by two examinees for the correct answer rate was 50% and 52% (randomly estimated result: 34%) in "Consultation of love" and 62% and 58% (randomly estimated result: 38%) in "Personal computer"; therefore, each estimated result exceeded the randomly estimated result. Moreover, the kappa coefficient of the two examinees was 0.454 (moderate) in "Consultation of love" and 0.613 (substantial) in "Personal computer."
著者
林 正頼 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2016-NL-227, no.7, pp.1-7, 2016-07-22

英語教育において,学習者が書いた英作文が,どの程度のレベルであるかを把握することは,教育者,学習者双方にとって有用である.本研究では,英作文のレベル判定問題を順序回帰問題として定式化する.レベル判定の手がかりとして,語彙情報といった基本的な素性に加え,英作文に含まれる誤りの傾向や,文の容認性などを導入し,それらの有効性を検証する.
著者
小田悠介 ニュービッググラム サクティサクリアニ 戸田智基 中村哲
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-216, no.22, pp.1-8, 2014-05-15

プログラミングは人手による作業が主であり,最終的なソースコードそのものを生成する自動プログラミングシステムは実用化されていない.このような自動プログラミングシステムを学習,評価するためには,実際のプログラミングに関するタスクを切り出したコーパスの収集が必要である.我々はタスクとして 「自然言語による仕様文が与えられたとき,その仕様に対応する関数を出力する」 という問題を考え,仕様文・ソースコード例からなるパラレルコーパスを人手により収集した.また,得られたコーパスから自動プログラミングのために必要な言語処理の技術を考察した.
著者
加納 隼人 佐藤 理史 松崎 拓也
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2015-NL-220, no.8, pp.1-7, 2015-01-12

本年度新たに実装した,大学入試センター試験 『国語』 評論傍線部問題を解くソルバーについて報告する.実装したソルバーは,傍線部問題の本文と選択肢に対して節境界検出による節分割を行い,その結果を用いて類似度計算を行うことで,解答を選択する.本ソルバーをセンター試験の過去問 40 問に適用したところ,昨年度のソルバーを上回る最大 28 問の正解数を示した.
著者
原 忠義 トピチ ゴラン 宮尾 祐介 相澤 彰子
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014-NL-217, no.3, pp.1-9, 2014-06-26

自然言語処理 (NLP) ツールの多くが入力として平文テキストを前提とする一方で,実文書中のテキストは多様なレイアウト,文構造,埋め込みのオブジェクトなどによって,より表現豊かに表示されている.このようなテキストを NLP ツールで解析する際には,ツールの利用者が対象テキストをツールに合った入力形式に変換しなければならない.また,利用者の不慣れな変換作業によって得られた入力を用いたところで,そのツールが本来持つとされる性能を発揮することは困難となるであろう.本研究の目的は,平文テキストでは表し切れないテキスト構成がタグを用いて表現されるような XML 文書の解析を題材として,この問題への意識喚起を促すことにある.我々は,XML でタグ付けされたテキストと,NLP ツールの入出力となる平文テキストとの間の一般的な変換枠組を提案し,本枠組を用いて獲得されるテキスト列が,単純にタグを除去して得られるテキストよりも構文解析器で高被覆かつ高効率に処理できることを示し,実文書を NLP 技術と適切に繋ぐ技術を開発することの重要性を浮き彫りにする.