著者
乾 健太郎 石井 雄隆 松林 優一郞 井之上 直也 内藤 昭一 磯部 順子 舟山 弘晃 菊地 正弥
出版者
一般社団法人 電子情報通信学会
雑誌
電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review (ISSN:18820875)
巻号頁・発行日
vol.16, no.4, pp.289-300, 2023-04-01 (Released:2023-04-01)
参考文献数
54

自らの判断を説明できる能力は自然言語処理システムに期待される重要な要件である.説明はコミュニケーションであるから,説明できる能力についても,説明の目的や受け手との共通基盤化といったコミュニケーションの概念とリンクさせて研究することが望ましい.ライティング評価はそのような研究を進める格好の応用領域である.ライティング評価は,教育シーンにおいて学習者が産出するテキスト(記述式答案や論述文など)の質を評価・診断し,学習者にフィードバックすることによって学習を支援するタスク群を指す.教育目的の評価では説明は本質的に重要であり,したがってそこには説明の目的や手段など,教育学的な研究や実践の蓄積がある.ライティング評価ではそうした蓄積とリンクさせながら「説明できる自然言語処理システム」の研究を進めることができる.本稿では,ライティング評価における説明に焦点を当て,どのような評価タスクにどのような説明方法が考えられるか,どのような技術的実現手段が考えられるか,を論じる.近年の研究動向を概観しながら,内容選択,言語産出各レイヤの評価における説明生成の可能性を論じ,研究者のこの領域への参入を呼びかけたい.
著者
佐藤 志貴 赤間 怜奈 大内 啓樹 鈴木 潤 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.53-83, 2022 (Released:2022-03-15)
参考文献数
48

雑談対話応答生成システムの日々の改良が望ましい方向に効いているか継続的に評価するといった用途として,システムを低コストで評価できる自動評価の枠組みの確立が求められている.しかし,BLEU など,応答生成の自動評価に広く用いられている既存の指標は人間との相関が低いことが報告されている.これは,一つの対話履歴に対し適切な応答が複数存在するという対話の性質に起因する.この性質の影響を受けにくいシステムの評価方法の一つに対話応答選択が考えられる.対話応答選択は,対話履歴に対し適切な応答を応答候補から選ぶタスクである.このタスクではシステムの応答が候補内の発話に限られるため,前述した対話の性質の影響を回避した評価が可能である.一般に対話応答選択では,対話履歴に対する本来の応答(正例)に加え,誤り候補(負例)を無関係な対話データから無作為抽出し応答候補を構成する.しかし,この方法では,正例とかけ離れすぎていて応答として不適切と容易に判別できる発話や,応答として誤りとはいえない発話が負例として候補に混入し,評価の有効性が低下する可能性がある.本論文では,負例を厳選することで不適切な負例の混入を抑制した対話応答選択テストセットの構築方法を提案する.構築したテストセットを用いた対話応答選択によるシステム評価が,BLEU など既存の広く用いられている自動評価指標と比べ人手評価と強く相関することを報告する.
著者
飯田 龍 小町 守 井之上 直也 乾 健太郎 松本 裕治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.2, pp.2_25-2_50, 2010 (Released:2011-06-23)
参考文献数
25
被引用文献数
5 7

本論文では,日本語書き言葉を対象とした述語項構造と照応関係のタグ付与について議論する.述語項構造解析や照応解析は形態素・構文解析などの基盤技術と自然言語処理の応用分野とを繋ぐ重要な技術であり,これらの解析のための主要な手法はタグ付与コーパスを用いた学習に基づく手法である.この手法を実現するためには大規模な訓練データが必要となるが,これまでに日本語を対象にした大規模なタグ付きコーパスは存在しなかった.また,既存のコーパス作成に関する研究で導入されているタグ付与の基準は,言語の違いや最終的に出力したい解析結果の粒度が異なるため,そのまま利用することができない.そこで,我々は既存のいくつかのタグ付与の仕様を吟味し,述語項構造と共参照関係のアノテーションを行うためにタグ付与の基準がどうあるべきかについて検討した.本論文ではその結果について報告する.また,京都コーパス第 3.0 版の記事を対象にタグ付与作業を行った結果とその際に問題となった点について報告する.さらにタグ付与の仕様の改善案を示し,その案にしたがい作業をやり直した結果についても報告する.
著者
松本 悠太 林崎 由 北山 晃太郎 舟山 弘晃 三田 雅人 乾 健太郎
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第36回 (2022)
巻号頁・発行日
pp.3Yin239, 2022 (Released:2022-07-11)

敬語は日本では社会生活上でのコミュニケーションを円滑に行う上で重要とされているが,敬語を適切に使い分けることは日本語を母語としない日本語学習者にとって困難である.このような問題に対して,常体文を自動的に敬体文へ変換してくれるようなシステムの開発についてはほとんど議論がされておらず,またそのようなシステムを評価するためのデータも存在しないのが現状である. 本研究では任意の常体文に対して,意味を保持しつつ適切な敬体文へ自動変換を行う敬語変換という新たなタスクを提案する.また,本タスクの確立に向けた,データアノテーションスキームおよび評価データセットを提供した.さらに,文表現の分解手法を用いた調査によって敬語変換タスクをスタイル変換タスクの一種として見なして解くことの妥当性および実現可能性を示す.
著者
楠見 孝 子安 増生 道田 泰司 MANALO Emmanuel 林 創 平山 るみ 信原 幸弘 坂上 雅道 原 塑 三浦 麻子 小倉 加奈代 乾 健太郎 田中 優子 沖林 洋平 小口 峰樹
出版者
京都大学
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

本研究は,課題1-1「市民リテラシーと批判的思考のアセスメント」では市民リテラシーを支える批判的思考態度を検討し,評価ツールを開発した。課題1-2「批判的思考育成のための教育プログラム作成と授業実践」では,学習者間相互作用を重視した教育実践を高校・大学において行い,効果を分析した。課題2「神経科学リテラシーと科学コミュニケーション」では,哲学と神経生理学に基づいて推論と情動を検討した。さらに市民主体の科学コミュニケーション活動を検討した。課題3「ネットリテラシーと情報信頼性評価」では,放射能リスクに関する情報源信頼性評価とリテラシーの関連を調査によって解明し,情報信頼性判断支援技術を開発した。
著者
小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.3, pp.203-222, 2005
被引用文献数
57

近年, web上に多数存在する掲示板などの文書から, 意見を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には, 評価を表す表現が重要な手がかりとなるが, それらの表現には「燃費がよい」「CGがきれい」といった領域依存の表現が多数存在するため, 人手で書き尽くすことは困難である.そこで, 我々は, 評価対象表現, 属性表現, 評価表現の共起情報を利用して, これら領域依存の表現を効率的に収集することを試みた.本稿では, 共起パタンに基づく属性・評価値表現の半自動的収集方法を提案し, 「コンピュータ」と「ゲーム」の2つの領域を対象に, 人手と提案手法で行なった収集効率実験の結果について報告する.
著者
横井 祥 小林 颯介 福水 健次 乾 健太郎
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

コロケーション獲得や対話応答選択など,言語表現の間の関連の強さのモデル化は自然言語処理における基本的タスクである.デファクトの共起尺度である自己相互情報量(PMI)は疎なデータに適用すると大きな学習時間が必要となる.本講演では,PMIが「相互情報量へのペア(x,y)の貢献度」と捉えられることと対応付け,新しい共起尺度であるPointwise HSIC(PHSIC)を「カーネル法に基づく依存性尺度HSICへのペア(x,y)の貢献度」として提案する.PHSICは句や文などの疎な言語表現に適用でき,しかも行列計算に基づく高速な推定が可能である.実験では,PHSICを対話の応答文選択タスクに適用し,学習速度が既存尺度に比べ約100倍高速で,かつデータ数が少ないときにも予測精度の劣化が少ないことを示す.
著者
大和田 裕亮 水野 淳太 岡崎 直観 乾 健太郎 石塚 満
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.423-459, 2013-06-14 (Released:2013-09-14)
参考文献数
18
被引用文献数
1

東日本大震災では安否確認や被災者支援のためにTwitterが活躍したが,一方で多種多様な情報が流通し,混乱を招いた.我々は,情報の信憑性や重要性を評価するには,ツイート空間の論述的な構造を解析・可視化し,情報の「裏」を取ることが大切だと考えている.本稿では,ツイートの返信および非公式リツイート(以下,両者をまとめて返信と略す)に着目し,ツイート間の論述的な関係を認識する手法を提案する.具体的には,返信ツイートによって,投稿者の「同意」「反論」「疑問」などの態度が表明されると考え,これらの態度を推定する分類器を教師有り学習で構築する.評価実験では,返信ツイートで表明される態度の推定性能を報告する.さらに,本手法が直接的に返信関係のないツイート間の論述的な関係の推定にも応用できることを示し,ツイート間の含意関係認識に基づくアプローチとの比較を行う.
著者
鍋島 啓太 渡邉 研斗 水野 淳太 岡崎 直観 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.461-484, 2013-06-14 (Released:2013-09-14)
参考文献数
14
被引用文献数
1

東日本大震災では,「コスモ石油の爆発で有害物質の雨が降る」などの誤情報の拡散が問題となった.本研究の目的は,東本日大震災後 1 週間の全ツイートから誤情報を網羅的に抽出し,誤情報の拡散と訂正の過程を分析することである.本稿では,誤情報を訂正する表現(以下,訂正パターン)に着目し,誤情報を認識する手法を提案する.具体的には,訂正パターンを人手で整備し,訂正パターンにマッチするツイートを抽出する.次に,収集したツイートを内容の類似性に基づいてクラスタリングし,最後に,その中から誤情報を過不足なく説明する1文を選択する.実験では,誤情報を人手でまとめたウェブサイトを正解データとして,評価を行った.また,誤情報とその訂正情報の拡散状況を,時系列で可視化するシステムを構築した.本システムにより,誤情報の出現・普及,訂正情報の出現・普及の過程を分析できる.
著者
関根 聡 乾 健太郎
雑誌
情報処理
巻号頁・発行日
vol.57, no.1, pp.3-5, 2015-12-15

本稿では,2014年春から2015年春にかけて自然言語処理の研究者らによって行われたProject Next NLPというプロジェクトを紹介する.本プロジェクトではエラー分析を通じて自然言語処理技術の方向性を考える目的で,ボランティアベースで100名を超える研究者が参加して行われた.自然言語処理で重要な基礎技術,要素技術,応用技術について18個の技術に分け,それぞれの研究している研究者を集い,協調的にそれぞれの分野の技術の分析を行った.分析の方法は各グループに委ねたところ,さまざまな方法での分析が行われ,エラー分析の方法論の研究という側面も持っている.本プロジェクトの紹介により,自然言語処理以外の情報処理分野に対して,エラー分析を通した研究やグループによるエラー分析の重要性が伝わると存外の喜びである.
著者
乾 健太郎 徳永 健伸 田中 穂積
雑誌
全国大会講演論文集
巻号頁・発行日
vol.42, pp.124-125, 1991-02-25

文章を生成するには,語乗選択や語順などさまざまな要素に関する決定が必要である.これらの決定は,文章中で述べる話題を選択・構成するwhat-to-sayレベルとwhat-tqsayの内容を表層化するhow-to-sayレベルに分けて考えることができる.2つのレベルの決定は相互に依存するため,その緊密な関係を実現するアーキテクチャの必要性が指摘されている.たとえば,1文の中にどれだけの話題を含めるかという問題は,話題間の意味的なつながりから制約(what-to-sayの制約)を受けると同時に,それを表層化したときに適切な長さの文になるかという制約(how-to-sayの制約)も受ける.また,how-to-sayレベルのみについて考えても,種々の決定が相互に依存し,それらをどの順序で決定すればよいかが必ずしも明らかではない.たとえば,後置詞句の語順は,後置詞句の長さに依存するため,語彙選択を先におこなわなければ適切に決めることができない.語彙選択には照応表現の選択も含まれるが,照応表現は,先行洞と照応詞の距離などに依存するため,適切な照応表現を決定するためには語順の情報が必要である.このように,生成に必要な種々の決定の間には相互依存関係がある.この問題に対する代表的なアプローチの1つに種類の異なる決定を交互におこなう手法があるAppeltやHovyでは,how-to-say決定部が決定の過程で必要に応じてwhat-to-say決定部を呼び出すことにより両者の相互作用を実現しているまた,Hovyは,how-to-say決定過程に対し,決定の種類ごとに異なるモジュールを用意し,モジュールの適用順序を動的に変えることによって,決定の順序に柔軟性を持たせる手法を提案している.しかしながら,これらの手法では,一度決定した要素については変更しないため,将来の影響を十分に予測した上で個々の決定をおこなう必要がある.Appelt,Hovyの手法では,統語的要因を考慮しながらwhat-to-sayを決定するため,what-to-say決定部は複雑なメカニズムを必要とする.また,what-to-say決定部を呼び出すタイミングの管理も困難である文章生成では,論旨展開や照応表現などの文脈的な問題も考慮しなければならないため,メカニズムはさらに複雑になる.本稿では,この問題へのアプローチとして,一度表層化した文章を繰り返し改良し,最終的に質の高い文章を生成するモデルを提案する.一般に,文章を繰り返し改良することを推敲と呼ぶが,生成過程全体を推敲過程としてとらえることによって,生成に必要な種々の決定を相互に依存する形で実現できる.本稿では,推敲に基づく生成モデルの概要と一部の実現について述べる.

3 0 0 0 OA 問題を語る

著者
乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.1, pp.1_1-1_2, 2010 (Released:2011-06-30)
被引用文献数
2
著者
船木 洋晃 佐々木 彬 岡崎 直観 乾 健太郎 深田 陽介 竹下 隆一郎 田森 秀明 野澤 博
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第28回全国大会(2014)
巻号頁・発行日
pp.1K32, 2014 (Released:2018-07-30)

本研究では2013年の参議院議員選挙より解禁されたインターネット選挙を受け、 ツイッター上での選挙運動を分析し、実際の選挙結果との相関を考察する。さら に,特定の候補者に対する当選・落選を期待する言語表現から当選運動・落選運 動を予測する分類器を生成し、各候補者に関する運動の盛り上がりを分析する。
著者
栗原 理聡 佐々木 彬 松田 耕史 岡崎 直観 乾 健太郎
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.29, 2015

地域のまちづくりには住民の声を反映したものが求められるが,意見交換会などの参加者の多くは高齢者であり,特に若い年齢層からの声を聞く機会は限られている.そこで本研究では若者の利用率が高く,匿名性により本音が多く書き込まれていると思われるTwitterを用いて,自治体による解決が可能と思われる地域毎の特徴的な要望を抽出する手法を提案する.
著者
内山 香 山下 亮 鈴木 海渡 田上 翼 塙 一晃 乾 健太郎 小宮 篤史 藤村 厚夫 町野 明徳 楊井 人文
出版者
一般社団法人 人工知能学会
雑誌
JSAI大会論文集
巻号頁・発行日
vol.2018, pp.4Pin126, 2018-07-30

<p>国内外を問わず誤情報の拡散が社会的な問題となっており,情報の真偽検証の必要性が急増している. そこで本研究では情報の真偽検証を効率的に行うための支援システムの構築を行った. 本システムではニュース記事に対して言及しているSNS上の投稿をもとに人手の検証を必要とするニュース記事を推定する. 作成したシステムを用いることで検証を必要とする記事の探索作業の効率化を期待できることが確かめられた.</p>
著者
藤井 諒 三田 雅人 阿部 香央莉 塙 一晃 森下 睦 鈴木 潤 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.2, pp.450-478, 2021 (Released:2021-06-15)
参考文献数
45
被引用文献数
1

ニューラル機械翻訳 (NMT) の登場により,ニュース記事など文体の整った入力に対する翻訳の品質は著しく向上してきた.しかし,ソーシャル・ネットワーキング・サービス (SNS) に代表されるユーザ生成コンテンツ (UGC) を対象とした NMT の翻訳には依然として多くの課題が残されている.異文化・多言語交流の促進に向けた機械翻訳システムの活用には,そうした特異な入力を正確に扱うことのできる翻訳モデルの構築が不可欠である.近年では,UGC における翻訳品質の向上に向けたコンペティションが開催されるなどその重要性は広く認知されている.一方で,UGC に起因するどのような要因が機械翻訳システムの出力に悪影響を及ぼすのかは明らかでなく,偏在するユーザコンテンツの翻訳に向けた確かな方向性は依然として定まっていない.そこで本研究では,言語現象に着目した日英機械翻訳システムの頑健性測定データセット PheMT を提案する.特定の言語現象を含む文に特化したデータセットにより,当該表現の翻訳正解率,および正規化に基づく翻訳品質の差分を用いた精緻なエラー分析を可能にする.構築したデータセットを用いた評価により,広く商用に利用される機械翻訳システムを含む,最先端の NMT モデルにおいても十分に扱えない,対処すべき言語現象の存在を明らかにする.