著者
大和田 裕亮 水野 淳太 岡崎 直観 乾 健太郎 石塚 満
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.423-459, 2013-06-14 (Released:2013-09-14)
参考文献数
18
被引用文献数
1

東日本大震災では安否確認や被災者支援のためにTwitterが活躍したが,一方で多種多様な情報が流通し,混乱を招いた.我々は,情報の信憑性や重要性を評価するには,ツイート空間の論述的な構造を解析・可視化し,情報の「裏」を取ることが大切だと考えている.本稿では,ツイートの返信および非公式リツイート(以下,両者をまとめて返信と略す)に着目し,ツイート間の論述的な関係を認識する手法を提案する.具体的には,返信ツイートによって,投稿者の「同意」「反論」「疑問」などの態度が表明されると考え,これらの態度を推定する分類器を教師有り学習で構築する.評価実験では,返信ツイートで表明される態度の推定性能を報告する.さらに,本手法が直接的に返信関係のないツイート間の論述的な関係の推定にも応用できることを示し,ツイート間の含意関係認識に基づくアプローチとの比較を行う.
著者
鍋島 啓太 渡邉 研斗 水野 淳太 岡崎 直観 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.461-484, 2013-06-14 (Released:2013-09-14)
参考文献数
14
被引用文献数
1

東日本大震災では,「コスモ石油の爆発で有害物質の雨が降る」などの誤情報の拡散が問題となった.本研究の目的は,東本日大震災後 1 週間の全ツイートから誤情報を網羅的に抽出し,誤情報の拡散と訂正の過程を分析することである.本稿では,誤情報を訂正する表現(以下,訂正パターン)に着目し,誤情報を認識する手法を提案する.具体的には,訂正パターンを人手で整備し,訂正パターンにマッチするツイートを抽出する.次に,収集したツイートを内容の類似性に基づいてクラスタリングし,最後に,その中から誤情報を過不足なく説明する1文を選択する.実験では,誤情報を人手でまとめたウェブサイトを正解データとして,評価を行った.また,誤情報とその訂正情報の拡散状況を,時系列で可視化するシステムを構築した.本システムにより,誤情報の出現・普及,訂正情報の出現・普及の過程を分析できる.
著者
平岡 達也 高瀬 翔 内海 慶 欅 惇志 岡崎 直観
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.112-143, 2022 (Released:2022-03-15)
参考文献数
49
被引用文献数
2

本稿では,後段モデルと単語分割器を同時に学習することで,後段モデルに適切な単語分割を獲得する新たな手法を提案する.提案手法では,後段モデルを学習する際に得られる教師信号との損失値を用いて単語分割器の学習を行う.これにより,提案手法は損失値が計算できるあらゆる後段モデルに対して制限なく使用することができ,さまざまな自然言語処理のタスクで単語分割の最適化を行うことができる.さらに,提案手法はすでに学習済みの後段モデルに対しても,後処理として単語分割を最適化することで,後段モデルの処理性能を底上げすることができる.そのため,提案手法は自然言語処理のさまざまな場面で利用することが可能である.実験を通して,提案手法が 3 言語の文書分類タスクで性能の向上に貢献することを確認した.また,8 言語対での機械翻訳タスクにおいても,提案手法が性能向上に寄与することを確認した.
著者
船木 洋晃 佐々木 彬 岡崎 直観 乾 健太郎 深田 陽介 竹下 隆一郎 田森 秀明 野澤 博
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第28回全国大会(2014)
巻号頁・発行日
pp.1K32, 2014 (Released:2018-07-30)

本研究では2013年の参議院議員選挙より解禁されたインターネット選挙を受け、 ツイッター上での選挙運動を分析し、実際の選挙結果との相関を考察する。さら に,特定の候補者に対する当選・落選を期待する言語表現から当選運動・落選運 動を予測する分類器を生成し、各候補者に関する運動の盛り上がりを分析する。
著者
栗原 理聡 佐々木 彬 松田 耕史 岡崎 直観 乾 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

地域のまちづくりには住民の声を反映したものが求められるが,意見交換会などの参加者の多くは高齢者であり,特に若い年齢層からの声を聞く機会は限られている.そこで本研究では若者の利用率が高く,匿名性により本音が多く書き込まれていると思われるTwitterを用いて,自治体による解決が可能と思われる地域毎の特徴的な要望を抽出する手法を提案する.
著者
田中 翔平 岡崎 直観 石塚 満
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.26, no.2, pp.366-375, 2011 (Released:2011-01-25)
参考文献数
26

This paper presents a novel method for acquiring a set of query patterns that are able to retrieve documents containing important information about an entity. Given an existing Wikipedia category that should contain the entity, we first extract all entities that are the subjects of the articles in the category. From these articles, we extract triplets of the form (subject-entity, query pattern, concept) that are expected to be in the search results of the query patterns. We then select a small set of query patterns so that when formulating search queries with these patterns, the overall precision and coverage of the returned information from the Web are optimized. We model this optimization problem as a Weighted Maximum Satisfiability (Weighted Max-SAT) problem. Experimental results demonstrate that the proposed method outperformed the methods based on statistical measures such as frequency and point-wise mutual information (PMI) being widely used in relation extraction.
著者
平井 翔太 村岡 雅康 岡崎 直観
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第37回 (2023) (ISSN:27587347)
巻号頁・発行日
pp.4Xin138, 2023 (Released:2023-07-10)

人間が言語機能を獲得する上で、視覚情報は重要な役割を担っている。様々な自然言語処理タスクで成功を収めている大規模言語モデルの多くは、テキストデータのみを用いて学習される。Vokenizationの研究は、自然言語処理タスクにおける大規模言語モデルの性能を向上させるために、視覚情報を大規模言語モデル学習に取り入れるという新しい方法を確立した。しかし、Vokenizationでは、文中の異なるトークンに同じ画像を割り当ててしまうため、大規模言語モデルが効果的な単語埋め込み表現を学習することができない。本研究では、大規模言語モデルの性能をさらに向上させるために、大規模言語モデル学習においてトークンに割り当てられる画像をtop-kまたはtop-pサンプリングを利用して多様化する方法を提案する。実験の結果、言語理解ベンチマークであるGLUEにおいて、本手法の有効性が示され、Vokenizationのtop-1検索を用いたベースライン手法を上回った。
著者
古山 翔太 高村 大也 岡崎 直観
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.2, pp.542-586, 2022 (Released:2022-06-15)
参考文献数
52
被引用文献数
1

ニューラル文法誤り訂正では,データ拡張によって学習データの不足を補う手法が活発に研究されている.本研究では,既存のデータ拡張手法が,より良いデータ拡張を行い性能向上を目指す上で重要な要素として,(1) 誤りの多様性が訂正性能に寄与すること,(2) 特定の種類の誤り生成がその種類の誤り訂正性能に寄与すること,(3) データ拡張に用いるコーパスの大きさが訂正性能に寄与することの 3 点が仮定されている.本研究では,これらの仮定の妥当性を検証するため,多様な文法カテゴリでの誤り生成規則を組み合わせる手法を提案し,生成する誤りの種類を変えて誤り訂正モデルを学習することで,比較検証を行う.結果として,仮定 (1) (2) は正しいが,一方で,仮定 (3) においては,コーパスの規模ではなく,パラメータの更新回数と誤りの生成回数が影響することが明らかになった.さらに,提案手法は,学習者コーパスを用いない教師なし設定でも高い性能のモデルを学習でき,学習者コーパスを用いた場合でも,既存の手法と同程度に高性能なモデルを学習できることが明らかになった.折り返し翻訳・逆翻訳によるデータ拡張手法との比較を通じて,また,ルールによる誤り生成とこれらの手法を用いたモデルでは,訂正において得意な誤り種類が異なることが判明した.
著者
叶内 晨 北川 善彬 荒牧 英治 岡崎 直観 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.363-395, 2015-12-14 (Released:2016-03-14)
参考文献数
49

ソーシャルメディアサービスの普及により,人々や社会の状況を調査する新しいアプローチが開拓された.ひとつの応用事例として,ソーシャルメディアの投稿から疾患・症状の流行を検出する公衆衛生サーベイランスがある.本研究では,自然言語処理技術を応用して,ソーシャルメディアの投稿から風邪やインフルエンザなどの罹患を検出するタスクに取り組んだ.最先端のシステムのエラー分析を通じて,事実性解析と主体解析という重要かつ一般性のあるサブタスクを見い出した.本研究では,これらのサブタスクへの取り組みを行い,罹患検出タスクへの貢献を実証した.
著者
船木 洋晃 佐々木 彬 岡崎 直観 乾 健太郎 深田 陽介 竹下 隆一郎 田森 秀明 野澤 博
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2014, pp.1K32, 2014

<p>本研究では2013年の参議院議員選挙より解禁されたインターネット選挙を受け、 ツイッター上での選挙運動を分析し、実際の選挙結果との相関を考察する。さら に,特定の候補者に対する当選・落選を期待する言語表現から当選運動・落選運 動を予測する分類器を生成し、各候補者に関する運動の盛り上がりを分析する。</p>
著者
山本 風人 井之上 直也 渡邊 陽太郎 岡崎 直観 乾 健太郎
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-91, no.9, pp.1-8, 2012-05-03

本稿では、重み付き仮説推論のパラメタを教師あり学習によって自動調整する手法を提案する。仮説推論は、与えられた観測に対して評価関数を最大化する最良の説明を求める推論であり、自然言語処理において文章に明示されていない情報の顕在化を行うことに対して有用な枠組みとして注目を浴びている。しかしその一方で、仮説推論の評価関数の学習手法が未だ提案されておらず、評価関数のパラメタの調整は、人手による調整やヒューリスティックな手法に頼らざるを得ないという問題があった。そこで我々は、仮説推論の拡張のひとつである重み付き仮説推論を対象として、仮説の証明木におけるリテラル間のコストの関係をフィードフォワードニューラルネットワークの形で表現することで、誤差に対する各パラメタの勾配を求め、評価関数のパラメタの識別学習を実現する。また、提案手法によって評価関数を学習できていることを確かめるために、既存のデータセットを用いて実験した結果についても報告する。
著者
栗原 理聡 佐々木 彬 松田 耕史 岡崎 直観 乾 健太郎
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第29回全国大会(2015)
巻号頁・発行日
pp.1H33, 2015 (Released:2018-07-30)

地域のまちづくりには住民の声を反映したものが求められるが,意見交換会などの参加者の多くは高齢者であり,特に若い年齢層からの声を聞く機会は限られている.そこで本研究では若者の利用率が高く,匿名性により本音が多く書き込まれていると思われるTwitterを用いて,自治体による解決が可能と思われる地域毎の特徴的な要望を抽出する手法を提案する.