著者
滝澤 修
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.2, pp.3-22, 1995-04-10 (Released:2011-03-01)
参考文献数
17
被引用文献数
1

比喩の一種である「駄洒落」は, 言語記号 (音声) とその記号が表す概念の意味との両方に, 比喩を成立させる「根拠 (ground) 」 (比喩における被喩辞 (tenor) と喩辞 (vehicle) とを結びつける関係) があるという点で, 高度な修辞表現に位置づけられる. 筆者らは, 「併置型」と呼ぶ駄洒落の一種 (例「トイレに行っといれ」) を, 外国語専攻の大学生54名に筆記によって創作させ, 203個を収集した. そしてこのデータに対して, 駄洒落理解システムの構築に必要な知見を得るという観点から, 「先行喩辞」 (例では「トイレ」) と「後続喩辞」 (例では「…といれ」) の関係, 及び「出現喩辞」 (例では「…といれ」) と「復元喩辞」 (例では「…ておいで」) の関係に着目し, 以下の3つの分析を行った.(1) 先行-後続出現喩辞間の音素列は, どれ位の長さの一致が見られるか.(2) 先行-後続出現喩辞間の音素の相違にはどのような特徴があるか.(3) 出現-復元喩辞間の音素の相違にはどのような特徴があるか. その結果, 出現喩辞の音節数は先行と後続とで一致する場合が多いこと, 先行-後続出現喩辞間及び出現-復元喩辞間の音素の相違は比較的少なく, 相違がある場合もかなり高い規則性があること, などがわかった. 以上の知見から, 計算機による駄洒落理解手法, 即ち出現喩辞と復元喩辞を同定するアルゴリズムを構築できる見通しが得られた.
著者
梅谷 俊治
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.5, pp.1059-1090, 2014-09-16 (Released:2014-12-16)
参考文献数
41

線形計画問題において変数が整数値を取る制約を持つ整数計画問題は,産業や学術の幅広い分野における現実問題を定式化できる汎用的な最適化問題の 1 つであり,最近では分枝限定法に様々なアイデアを盛り込んだ高性能な整数計画ソルバーがいくつか公開されている.しかし,整数計画問題では線形式のみを用いて現実問題を記述する必要があるため,数理最適化の専門家ではない利用者にとって現実問題を整数計画問題に定式化することは決して容易な作業ではない.本論文では,数理最適化の専門家ではない利用者が現実問題の解決に取り組む際に必要となる整数計画ソルバーの基本的な利用法と定式化の技法を解説する.

21 2 0 0 OA 成功の方程式

著者
賀沢 秀人
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.1, pp.1-2, 2012-03-30 (Released:2012-06-29)
被引用文献数
1
著者
相田 慎 新堂 安孝 内山 将夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.405-422, 2013-06-14 (Released:2013-09-14)
参考文献数
46
被引用文献数
2

東日本大震災初期,Twitter に寄せられた膨大なツィートには,緊急性の高い救助要請候補が多数含まれていたものの,他の震災関連ツィートや「善意のリツィート」によって,通報されるべき情報が埋もれてしまった.この様な状況を解消するために,筆者らは 2011 年 3 月 16 日,Twitter 上の救助要請情報をテキストフィルタリングで抽出し,類似文を一つにまとめ一覧表示する Webサイトを開発・公開した.本論文では,本サイト技術のみならず,通報支援活動プロジェクト #99japan との具体的な連携・活用事例についても詳述する.なお #99japan は,救助状況の進捗・完了報告を重視する Twitter を用いた活動であると共に,発災 2 時間後に 2 ちゃんねる臨時地震板ボランティアらによって立ち上げられたスレッドに由来する.
著者
山本 和英 池田 諭史 大橋 一輝
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.6, pp.85-111, 2005-11-10 (Released:2011-03-01)
参考文献数
8
被引用文献数
1 3

新幹線要約, すなわち新幹線車内や街頭での電光掲示板で流れるニュースは簡潔に表現されており, このために独特の表現をしている.本論文ではこの特徴的な表現のうち体言止めや助詞止めといった文末表現に着目し, 一般的な新聞記事の表現をこのような高密度表現に加工する手法を提案する.まず, 実際に2万記事に及ぶ新幹線要約の表現の特徴を調査し, 文末におけるサ変名詞での体言止めが一般の新聞記事の8倍, 格助詞での助詞止めが一般の20倍あることを確認し, 新幹線要約における表現の特異性を確認した.次に, このような文末表現を実現するための提案手法を実装し, 新聞記事を入力として要約した.この結果, 文末表現に限定した要約率は12%であり, 1文当たり平均して2.5文字削除することができた.この結果を人間が行なった文末整形の結果と比較したところ, 要約率はほぼ同様の結果が得られた.さらに, 出力表現の評価を行なった結果, 正解率は95%となった.
著者
塚越 駿 笹野 遼平 武田 浩一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.1, pp.125-155, 2023 (Released:2023-03-15)
参考文献数
39

自然言語文をベクトルとして表現する文埋め込みは,深層学習を用いた自然言語処理の基礎技術として盛んに研究されており,特に自然言語推論 (Natural Language Inference; NLI) タスクに基づく文埋め込み手法が成功を収めている.しかし,これらの手法は大規模な NLI データセットを必要とすることから,そのような NLI データが整備された言語以外については高品質な文埋め込みの構築が期待できないという問題がある.本研究ではこの問題を解決するため,NLI データと比べて多くの言語において整備が行われている言語資源である辞書に着目し,辞書の定義文を用いた文埋め込み手法を提案する.また,標準的なベンチマークを用いた評価実験を通し,提案手法は既存の NLI タスクに基づく文埋め込み手法と同等の性能を実現すること,評価タスクの性質や評価データの抽出方法により性能に差異が見られること,これら2手法を統合することでより高い性能を実現できることを示す.
著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.1, pp.133-150, 2020-03-15 (Released:2020-06-15)
参考文献数
16

本論文では『分類語彙表増補改訂版データベース』に対する単語親密度推定手法について述べる.分類語彙表に収録されている 96,557 項目に対する評定情報を Yahoo! クラウドソーシングを用いて収集した.1項目あたり最低 16 人(異なり 3,392 人)の研究協力者に,内省に基づいて「知っている」「書く」「読む」「話す」「聞く」の評定情報付与を依頼した.研究協力者の評定情報から単語親密度をベイジアン線形混合モデルにより推定した.また,推定された単語親密度と分類語彙表の語義情報との関連性について調査した.
著者
東中 竜一郎 荒木 雅弘 塚原 裕史 水上 雅博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.2, pp.443-466, 2022 (Released:2022-06-15)
参考文献数
43

本稿では,雑談対話システムにおける対話破綻を生じさせる発話の類型を提案する.対話破綻の類型に関して先行研究では,「理論に基づいた類型」と「データに基づいた類型」が提案されてきた.前者は,依拠している人どうしの対話についての理論が,雑談対話システムの対話破綻現象を捉えるのに適さないことが多いという問題点がある.後者は,データを取得したシステムの対話破綻にしか対応できないという限界がある.本稿では,これら二つの類型の問題点をそれぞれが補い合う形で統合し,雑談対話システムにおける対話破綻を生じさせる発話の類型を新しく作成した.対話破綻類型アノテーション実験の結果,この統合的な類型は以前に提案された類型と比較して,Fleiss の κ 値において高い一致率を達成し,安定したアノテーションが行えることがわかった.
著者
佐藤 志貴 赤間 怜奈 大内 啓樹 鈴木 潤 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.53-83, 2022 (Released:2022-03-15)
参考文献数
48

雑談対話応答生成システムの日々の改良が望ましい方向に効いているか継続的に評価するといった用途として,システムを低コストで評価できる自動評価の枠組みの確立が求められている.しかし,BLEU など,応答生成の自動評価に広く用いられている既存の指標は人間との相関が低いことが報告されている.これは,一つの対話履歴に対し適切な応答が複数存在するという対話の性質に起因する.この性質の影響を受けにくいシステムの評価方法の一つに対話応答選択が考えられる.対話応答選択は,対話履歴に対し適切な応答を応答候補から選ぶタスクである.このタスクではシステムの応答が候補内の発話に限られるため,前述した対話の性質の影響を回避した評価が可能である.一般に対話応答選択では,対話履歴に対する本来の応答(正例)に加え,誤り候補(負例)を無関係な対話データから無作為抽出し応答候補を構成する.しかし,この方法では,正例とかけ離れすぎていて応答として不適切と容易に判別できる発話や,応答として誤りとはいえない発話が負例として候補に混入し,評価の有効性が低下する可能性がある.本論文では,負例を厳選することで不適切な負例の混入を抑制した対話応答選択テストセットの構築方法を提案する.構築したテストセットを用いた対話応答選択によるシステム評価が,BLEU など既存の広く用いられている自動評価指標と比べ人手評価と強く相関することを報告する.
著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.2, pp.109-131, 2005-03-31 (Released:2011-03-01)
参考文献数
19
被引用文献数
8 6

本稿では, 格フレーム辞書を漸次的に自動構築する手法を提案する.カバレージの高い格フレーム辞書を構築するために, 大規模コーパスから徐々に確からしい情報を抽出する.まず, コーパスを構文解析し, 構文的曖昧性のない述語項構造のみを抽出・クラスタリングすることによって, 1次格フレーム辞書を得る.次に, 1次格フレーム辞書を用いてコーパスを格解析し, 新たに分かる確実な情報を抽出し, 2次格フレーム辞書を構築する.このように徐々に新たな情報を加えていくことによって, 高次格フレーム辞書を構築する.結果として得られた格フレーム辞書は, 二重主語構文, 連体修飾の外の関係, 格変化といった複雑な言語現象を解析することを可能にする.新聞記事26年分, 約2600万文のコーパスから格フレーム辞書を構築し2種類の評価を行った.1つは, 得られた格フレームを人手で評価するものであり, もう1つは得られた格フレーム辞書を用いた構文・格解析実験による評価である.これらの結果, 本手法の有効性が確かめられた.