著者
飯田 龍 小町 守 井之上 直也 乾 健太郎 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.2, pp.2_25-2_50, 2010 (Released:2011-06-23)
参考文献数
25
被引用文献数
5 5

本論文では,日本語書き言葉を対象とした述語項構造と照応関係のタグ付与について議論する.述語項構造解析や照応解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの解析のための主要な手法はタグ付与コーパスを用いた学習に基づく手法である.この手法を実現するためには大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で導入されているタグ付与の基準は,言語の違いや最終的に出力したい解析結果の粒度が異なるため,そのまま利用することができない.そこで,我々は既存のいくつかのタグ付与の仕様を吟味し,述語項構造と共参照関係のアノテーションを行うためにタグ付与の基準がどうあるべきかについて検討した.本論文ではその結果について報告する.また,京都コーパス第 3.0 版の記事を対象にタグ付与作業を行った結果とその際に問題となった点について報告する.さらにタグ付与の仕様の改善案を示し,その案にしたがい作業をやり直した結果についても報告する.
著者
楠見 孝 子安 増生 道田 泰司 MANALO Emmanuel 林 創 平山 るみ 信原 幸弘 坂上 雅道 原 塑 三浦 麻子 小倉 加奈代 乾 健太郎 田中 優子 沖林 洋平 小口 峰樹
出版者
京都大学
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

本研究は,課題1-1「市民リテラシーと批判的思考のアセスメント」では市民リテラシーを支える批判的思考態度を検討し,評価ツールを開発した。課題1-2「批判的思考育成のための教育プログラム作成と授業実践」では,学習者間相互作用を重視した教育実践を高校・大学において行い,効果を分析した。課題2「神経科学リテラシーと科学コミュニケーション」では,哲学と神経生理学に基づいて推論と情動を検討した。さらに市民主体の科学コミュニケーション活動を検討した。課題3「ネットリテラシーと情報信頼性評価」では,放射能リスクに関する情報源信頼性評価とリテラシーの関連を調査によって解明し,情報信頼性判断支援技術を開発した。
著者
小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.3, pp.203-222, 2005
被引用文献数
35

近年, web上に多数存在する掲示板などの文書から, 意見を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には, 評価を表す表現が重要な手がかりとなるが, それらの表現には「燃費がよい」「CGがきれい」といった領域依存の表現が多数存在するため, 人手で書き尽くすことは困難である.そこで, 我々は, 評価対象表現, 属性表現, 評価表現の共起情報を利用して, これら領域依存の表現を効率的に収集することを試みた.本稿では, 共起パタンに基づく属性・評価値表現の半自動的収集方法を提案し, 「コンピュータ」と「ゲーム」の2つの領域を対象に, 人手と提案手法で行なった収集効率実験の結果について報告する.
著者
横井 祥 小林 颯介 福水 健次 乾 健太郎
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

コロケーション獲得や対話応答選択など,言語表現の間の関連の強さのモデル化は自然言語処理における基本的タスクである.デファクトの共起尺度である自己相互情報量(PMI)は疎なデータに適用すると大きな学習時間が必要となる.本講演では,PMIが「相互情報量へのペア(x,y)の貢献度」と捉えられることと対応付け,新しい共起尺度であるPointwise HSIC(PHSIC)を「カーネル法に基づく依存性尺度HSICへのペア(x,y)の貢献度」として提案する.PHSICは句や文などの疎な言語表現に適用でき,しかも行列計算に基づく高速な推定が可能である.実験では,PHSICを対話の応答文選択タスクに適用し,学習速度が既存尺度に比べ約100倍高速で,かつデータ数が少ないときにも予測精度の劣化が少ないことを示す.
著者
大和田 裕亮 水野 淳太 岡崎 直観 乾 健太郎 石塚 満
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.423-459, 2013-06-14 (Released:2013-09-14)
参考文献数
18
被引用文献数
1

東日本大震災では安否確認や被災者支援のためにTwitterが活躍したが,一方で多種多様な情報が流通し,混乱を招いた.我々は,情報の信憑性や重要性を評価するには,ツイート空間の論述的な構造を解析・可視化し,情報の「裏」を取ることが大切だと考えている.本稿では,ツイートの返信および非公式リツイート(以下,両者をまとめて返信と略す)に着目し,ツイート間の論述的な関係を認識する手法を提案する.具体的には,返信ツイートによって,投稿者の「同意」「反論」「疑問」などの態度が表明されると考え,これらの態度を推定する分類器を教師有り学習で構築する.評価実験では,返信ツイートで表明される態度の推定性能を報告する.さらに,本手法が直接的に返信関係のないツイート間の論述的な関係の推定にも応用できることを示し,ツイート間の含意関係認識に基づくアプローチとの比較を行う.
著者
鍋島 啓太 渡邉 研斗 水野 淳太 岡崎 直観 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.461-484, 2013-06-14 (Released:2013-09-14)
参考文献数
14
被引用文献数
1

東日本大震災では,「コスモ石油の爆発で有害物質の雨が降る」などの誤情報の拡散が問題となった.本研究の目的は,東本日大震災後 1 週間の全ツイートから誤情報を網羅的に抽出し,誤情報の拡散と訂正の過程を分析することである.本稿では,誤情報を訂正する表現(以下,訂正パターン)に着目し,誤情報を認識する手法を提案する.具体的には,訂正パターンを人手で整備し,訂正パターンにマッチするツイートを抽出する.次に,収集したツイートを内容の類似性に基づいてクラスタリングし,最後に,その中から誤情報を過不足なく説明する1文を選択する.実験では,誤情報を人手でまとめたウェブサイトを正解データとして,評価を行った.また,誤情報とその訂正情報の拡散状況を,時系列で可視化するシステムを構築した.本システムにより,誤情報の出現・普及,訂正情報の出現・普及の過程を分析できる.
著者
乾 健太郎 徳永 健伸 田中 穂積
雑誌
全国大会講演論文集
巻号頁・発行日
vol.42, pp.124-125, 1991-02-25

文章を生成するには,語乗選択や語順などさまざまな要素に関する決定が必要である.これらの決定は,文章中で述べる話題を選択・構成するwhat-to-sayレベルとwhat-tqsayの内容を表層化するhow-to-sayレベルに分けて考えることができる.2つのレベルの決定は相互に依存するため,その緊密な関係を実現するアーキテクチャの必要性が指摘されている.たとえば,1文の中にどれだけの話題を含めるかという問題は,話題間の意味的なつながりから制約(what-to-sayの制約)を受けると同時に,それを表層化したときに適切な長さの文になるかという制約(how-to-sayの制約)も受ける.また,how-to-sayレベルのみについて考えても,種々の決定が相互に依存し,それらをどの順序で決定すればよいかが必ずしも明らかではない.たとえば,後置詞句の語順は,後置詞句の長さに依存するため,語彙選択を先におこなわなければ適切に決めることができない.語彙選択には照応表現の選択も含まれるが,照応表現は,先行洞と照応詞の距離などに依存するため,適切な照応表現を決定するためには語順の情報が必要である.このように,生成に必要な種々の決定の間には相互依存関係がある.この問題に対する代表的なアプローチの1つに種類の異なる決定を交互におこなう手法があるAppeltやHovyでは,how-to-say決定部が決定の過程で必要に応じてwhat-to-say決定部を呼び出すことにより両者の相互作用を実現しているまた,Hovyは,how-to-say決定過程に対し,決定の種類ごとに異なるモジュールを用意し,モジュールの適用順序を動的に変えることによって,決定の順序に柔軟性を持たせる手法を提案している.しかしながら,これらの手法では,一度決定した要素については変更しないため,将来の影響を十分に予測した上で個々の決定をおこなう必要がある.Appelt,Hovyの手法では,統語的要因を考慮しながらwhat-to-sayを決定するため,what-to-say決定部は複雑なメカニズムを必要とする.また,what-to-say決定部を呼び出すタイミングの管理も困難である文章生成では,論旨展開や照応表現などの文脈的な問題も考慮しなければならないため,メカニズムはさらに複雑になる.本稿では,この問題へのアプローチとして,一度表層化した文章を繰り返し改良し,最終的に質の高い文章を生成するモデルを提案する.一般に,文章を繰り返し改良することを推敲と呼ぶが,生成過程全体を推敲過程としてとらえることによって,生成に必要な種々の決定を相互に依存する形で実現できる.本稿では,推敲に基づく生成モデルの概要と一部の実現について述べる.
著者
船木 洋晃 佐々木 彬 岡崎 直観 乾 健太郎 深田 陽介 竹下 隆一郎 田森 秀明 野澤 博
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第28回全国大会(2014)
巻号頁・発行日
pp.1K32, 2014 (Released:2018-07-30)

本研究では2013年の参議院議員選挙より解禁されたインターネット選挙を受け、 ツイッター上での選挙運動を分析し、実際の選挙結果との相関を考察する。さら に,特定の候補者に対する当選・落選を期待する言語表現から当選運動・落選運 動を予測する分類器を生成し、各候補者に関する運動の盛り上がりを分析する。
著者
栗原 理聡 佐々木 彬 松田 耕史 岡崎 直観 乾 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

地域のまちづくりには住民の声を反映したものが求められるが,意見交換会などの参加者の多くは高齢者であり,特に若い年齢層からの声を聞く機会は限られている.そこで本研究では若者の利用率が高く,匿名性により本音が多く書き込まれていると思われるTwitterを用いて,自治体による解決が可能と思われる地域毎の特徴的な要望を抽出する手法を提案する.
著者
内山 香 山下 亮 鈴木 海渡 田上 翼 塙 一晃 乾 健太郎 小宮 篤史 藤村 厚夫 町野 明徳 楊井 人文
出版者
一般社団法人 人工知能学会
雑誌
JSAI大会論文集
巻号頁・発行日
vol.2018, pp.4Pin126, 2018-07-30

<p>国内外を問わず誤情報の拡散が社会的な問題となっており,情報の真偽検証の必要性が急増している. そこで本研究では情報の真偽検証を効率的に行うための支援システムの構築を行った. 本システムではニュース記事に対して言及しているSNS上の投稿をもとに人手の検証を必要とするニュース記事を推定する. 作成したシステムを用いることで検証を必要とする記事の探索作業の効率化を期待できることが確かめられた.</p>
著者
藤井 諒 三田 雅人 阿部 香央莉 塙 一晃 森下 睦 鈴木 潤 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.2, pp.450-478, 2021 (Released:2021-06-15)
参考文献数
45

ニューラル機械翻訳 (NMT) の登場により,ニュース記事など文体の整った入力に対する翻訳の品質は著しく向上してきた.しかし,ソーシャル・ネットワーキング・サービス (SNS) に代表されるユーザ生成コンテンツ (UGC) を対象とした NMT の翻訳には依然として多くの課題が残されている.異文化・多言語交流の促進に向けた機械翻訳システムの活用には,そうした特異な入力を正確に扱うことのできる翻訳モデルの構築が不可欠である.近年では,UGC における翻訳品質の向上に向けたコンペティションが開催されるなどその重要性は広く認知されている.一方で,UGC に起因するどのような要因が機械翻訳システムの出力に悪影響を及ぼすのかは明らかでなく,偏在するユーザコンテンツの翻訳に向けた確かな方向性は依然として定まっていない.そこで本研究では,言語現象に着目した日英機械翻訳システムの頑健性測定データセット PheMT を提案する.特定の言語現象を含む文に特化したデータセットにより,当該表現の翻訳正解率,および正規化に基づく翻訳品質の差分を用いた精緻なエラー分析を可能にする.構築したデータセットを用いた評価により,広く商用に利用される機械翻訳システムを含む,最先端の NMT モデルにおいても十分に扱えない,対処すべき言語現象の存在を明らかにする.
著者
赤間 怜奈 渡邉 研斗 横井 祥 小林 颯介 乾 健太郎
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第32回全国大会(2018)
巻号頁・発行日
pp.1N203, 2018 (Released:2018-07-30)

本研究は,教師なし学習によりスタイル(言葉遣いや文体など)の類似性を捉えるを試みる初めての研究である. 本研究では「スタイル」の類似性を捉えるベクトル空間を構築するに当たり,「同一発話内に含まれる単語は同一のスタイルを持つ」という仮定を置く. この仮定に基づき,同一発話内の単語を予測できるようなベクトルを構成することで,スタイルの類似性を捉えた単語ベクトル空間を獲得する手法を提案する.我々が期待する単語ベクトル空間とは,(「意味」は近くとも)「スタイル」が大きく異なる``俺''と``私''は遠くに配置され,(「意味」は異なっているとしても)「スタイル」が似ている``俺''と``だぜ''が近くに配置されるような空間である. さらに本研究では,スタイルの類似性を包括的に定量評価する手法を提案し,そのための評価データセットを新たに作成する. 提案手法により獲得した単語ベクトルが,スタイルの類似性を捉えていることを定量的および定性的に示す.
著者
赤間 怜奈 渡邉 研斗 横井 祥 小林 颯介 乾 健太郎
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

本研究は,教師なし学習によりスタイル(言葉遣いや文体など)の類似性を捉えるを試みる初めての研究である.本研究では「スタイル」の類似性を捉えるベクトル空間を構築するに当たり,「同一発話内に含まれる単語は同一のスタイルを持つ」という仮定を置く.この仮定に基づき,同一発話内の単語を予測できるようなベクトルを構成することで,スタイルの類似性を捉えた単語ベクトル空間を獲得する手法を提案する.我々が期待する単語ベクトル空間とは,(「意味」は近くとも)「スタイル」が大きく異なる``俺''と``私''は遠くに配置され,(「意味」は異なっているとしても)「スタイル」が似ている``俺''と``だぜ''が近くに配置されるような空間である.さらに本研究では,スタイルの類似性を包括的に定量評価する手法を提案し,そのための評価データセットを新たに作成する.提案手法により獲得した単語ベクトルが,スタイルの類似性を捉えていることを定量的および定性的に示す.
著者
乾 健太郎 藤田 篤
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.5, pp.151-198, 2004-10-10 (Released:2011-03-01)
参考文献数
183
被引用文献数
4 6

意味が近似的に等価な言語表現の異形を言い換えと言う. 言い換え技術とは, 所与の言語表現からその言い換えを生成する言い換え生成技術, および所与の言語表現対が言い換え関係にあるか否かを判定する言い換え認識技術の総称である. これらの技術は, 機械翻訳の前編集や読解支援のための文章簡単化, 質問応答や複数文書要約など, 様々な応用に貢献する応用横断的なミドルウェア技術になると期待されており, 近年研究者の関心を集めてきた.本論文では, こうした言い換え技術について, 工学的研究を中心に近年の動向を紹介する. 具体的には, 言い換えの定義や言い換え技術の応用可能性について論じた後, 構造変換による言い換え生成, 質問応答・複数文書要約のための言い換え認識に関する研究を概観し, 最後に言い換え知識の自動獲得に関する最新の研究動向を紹介する.
著者
飯田 龍 小町 守 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.7, pp.71-78, 2007-01-26
被引用文献数
12

本稿では,日本語書き言葉を対象とした述語項構造と共参照のタグ付与について議論する.述語項構造や共参照解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの問題の主要な解析手法はタグ付与コーパスに基づく学習ベースの手法である.この手法で利用するための大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で採用されているタグ付与の基準は,言語の違いや我々が対象としたい解析と異なるために,そのまま採用することができない.そこで,既存のいくつかのタグ付与の仕様を比較し,我々のタグ付与作業で採用する基準について吟味する.また,実際に京都コーパス第3.0版の文章を対象にタグ付与の仕様について検討した結果とタグ付与の際に問題となった点や今後検討すべき点について報告する.In this paper, we discuss how to annotate predicate-argument and coreference relations in Japanese written text. Predicate argument analysis and coreference resolution are particularly important as they often provide a crucial bridge between basic NLP techniques such as morpho-syntactic analysis and end-level applications, and they have been mainly developed with corpus-based empirical approaches. In order to train a classification model in such approaches, a large scale corpus annotated with predicate-argument and coreference information is needed. To our best knowledge, however, there is no corpus including plenty of such tags in Japanese. In addition, we have difficulty adopting the traditional specifications for annotating tags due to the problem setting of each task and the difference between Japanese and English. So, we develop a new criteria for our annotating processes by examining the previous work on annotating tasks. This paper explains our annotating specification cultivated through actual annotating processes for the texts in Kyoto Text Corpus version 3.0, and discusses the future directions.