著者
斉藤 いつみ 貞光 九月 浅野 久子 松尾 義博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.2, pp.297-314, 2017-03-15 (Released:2017-06-15)
参考文献数
16
被引用文献数
1

ソーシャルメディア等の崩れた日本語の解析においては,形態素解析辞書に存在しない語が多く出現するため解析誤りが新聞等のテキストに比べ増加する.辞書に存在しない未知語の中でも,既知の辞書語からの派生に関しては,正規形を考慮しながら解析するという表記正規化との同時解析の有効性が確認されている.本研究では,これまで焦点があてられていなかった,文字列の正規化パタン獲得に着目し,アノテーションデータから文字列の正規化パタンを統計的に抽出する.統計的に抽出した文字列正規化パタンと文字種正規化を用いて辞書語の候補を拡張し形態素解析を行った結果,従来法よりも再現率,精度ともに高い解析結果を得ることができた.
著者
小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.3, pp.203-222, 2005
被引用文献数
56

近年, web上に多数存在する掲示板などの文書から, 意見を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には, 評価を表す表現が重要な手がかりとなるが, それらの表現には「燃費がよい」「CGがきれい」といった領域依存の表現が多数存在するため, 人手で書き尽くすことは困難である.そこで, 我々は, 評価対象表現, 属性表現, 評価表現の共起情報を利用して, これら領域依存の表現を効率的に収集することを試みた.本稿では, 共起パタンに基づく属性・評価値表現の半自動的収集方法を提案し, 「コンピュータ」と「ゲーム」の2つの領域を対象に, 人手と提案手法で行なった収集効率実験の結果について報告する.
著者
大和田 裕亮 水野 淳太 岡崎 直観 乾 健太郎 石塚 満
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.423-459, 2013-06-14 (Released:2013-09-14)
参考文献数
18
被引用文献数
1

東日本大震災では安否確認や被災者支援のためにTwitterが活躍したが,一方で多種多様な情報が流通し,混乱を招いた.我々は,情報の信憑性や重要性を評価するには,ツイート空間の論述的な構造を解析・可視化し,情報の「裏」を取ることが大切だと考えている.本稿では,ツイートの返信および非公式リツイート(以下,両者をまとめて返信と略す)に着目し,ツイート間の論述的な関係を認識する手法を提案する.具体的には,返信ツイートによって,投稿者の「同意」「反論」「疑問」などの態度が表明されると考え,これらの態度を推定する分類器を教師有り学習で構築する.評価実験では,返信ツイートで表明される態度の推定性能を報告する.さらに,本手法が直接的に返信関係のないツイート間の論述的な関係の推定にも応用できることを示し,ツイート間の含意関係認識に基づくアプローチとの比較を行う.
著者
村脇 有吾 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.1, pp.1_55-1_75, 2010 (Released:2011-06-30)
参考文献数
21
被引用文献数
2 1 6

日本語の形態素解析における未知語問題を解決するために,オンライン未知語獲得という枠組みと,その具体的な実現手法を提案する.オンライン未知語獲得では,形態素解析器と協調して動作する未知語獲得器が,文が解析されるたびに未知語を検出し,その可能な解釈の候補を列挙し,最適な候補を選択する.このうち,列挙は日本語の持つ形態論的制約を利用し,選択は蓄積した複数用例の比較により行う.十分な用例の比較により曖昧性が解消されると,解析器の辞書を直接更新し,獲得された未知語が以降の解析に反映される.実験により,比較的少数の用例から高精度に未知語が獲得され,その結果形態素解析の精度が改善することが示された.
著者
土屋 誠司 鈴木 基之 任 福継 渡部 広一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.5, pp.367-379, 2012-12-14 (Released:2013-03-19)
参考文献数
21
被引用文献数
5 3

オノマトペとは,擬音語や擬態語の総称である.文章で物事を表現する際に,より印象深く,豊かで臨場感のあるものにするために利用される.このようなオノマトペによる表現は,その言語を母語としている人であれば非常に容易に理解することができるため,国語辞書などにあえて記載されることは稀なケースである.また,記載があったとしても,使用されているオノマトペをすべて網羅して記載していることはない.そのため,その言語を母語としない人にとっては学習し難い言語表現である.そこで本稿では,オノマトペが表現する印象を推定する手法を提案する.日本語を対象に,オノマトペを構成する文字の種類やパターン,音的な特徴などを手がかりに,そのオノマトペが表現している印象を自動推定する.これにより,日本語を母語としない人に対して,日本語で表現されたオノマトペの理解の支援に繋がると考えられる.結果として,オノマトペの表記内のモーラ系列間の類似度とオノマトペの表記全体の音象徴ベクトルによる類似度を用いた手法が最も良い推定結果となり,参考値である人間同士の一致率の8割程度にまで近づくことができた.
著者
小山 碧海 喜友名 朝視顕 小林 賢治 新井 美桜 三田 雅人 岡 照晃 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.2, pp.330-371, 2023 (Released:2023-06-15)
参考文献数
144

本稿では,日本語文法誤り訂正のための誤用タグ付き評価コーパスを構築する.評価コーパスはモデルの性能評価に欠かすことができない.英語文法誤り訂正では様々な評価コーパスの公開により,モデル間の精緻な比較が可能になりコミュニティが発展していった.しかし日本語文法誤り訂正では利用可能な評価コーパスが不足しており,コミュニティの発展を阻害している.本研究ではこの不足を解消するため,日本語文法誤り訂正のための評価コーパスを構築し,一般利用可能な形で公開する.我々は文法誤り訂正において代表的な学習者コーパス Lang-8 コーパスの日本語学習者文から評価コーパスを作成する.また文法誤り訂正分野の研究者や開発者が使いやすい評価コーパスとするため,評価コーパスの仕様を英語文法誤り訂正で代表的なコーパスやツールに寄せる.最後に作成した評価コーパスで代表的な文法誤り訂正モデルを評価し,今後の日本語文法誤り訂正においてベースラインとなるスコアを報告する.
著者
下岡 和也 徳久 良子 吉村 貴克 星野 博之 渡部 生聖
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.1, pp.3-47, 2017-02-15 (Released:2017-05-15)
参考文献数
56
被引用文献数
2 7

高齢者の認知症や孤独感の軽減に貢献できる対話ロボット開発のため,回想法に基づく傾聴を行う音声対話システムの開発を行った.本システムは,ユーザ発話の音声認識結果に基づき,相槌をうったり,ユーザ発話を繰り返したり,ユーザ発話中の述語の不足格を尋ねたりする応答を生成する.さらに,感情推定結果に基づき,ユーザ発話に対して共感する応答を生成する.本システムの特徴は,音声認識結果に誤りが含まれることを前提とし,音声認識信頼度を考慮して応答を生成する点である.110 名の一般被験者に対する評価実験の結果,「印象深い旅行」を話題とした場合で,45.5% の被験者が 2 分以上対話を継続できた.また,システムの応答を主観的に評価した結果,約 77% のユーザ発話に対して対話を破綻させることなく応答生成ができた.さらに,被験者へのアンケートの結果,特に高齢の被験者から肯定的な主観評価結果が得られた.
著者
鍋島 啓太 渡邉 研斗 水野 淳太 岡崎 直観 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.3, pp.461-484, 2013-06-14 (Released:2013-09-14)
参考文献数
14
被引用文献数
1

東日本大震災では,「コスモ石油の爆発で有害物質の雨が降る」などの誤情報の拡散が問題となった.本研究の目的は,東本日大震災後 1 週間の全ツイートから誤情報を網羅的に抽出し,誤情報の拡散と訂正の過程を分析することである.本稿では,誤情報を訂正する表現(以下,訂正パターン)に着目し,誤情報を認識する手法を提案する.具体的には,訂正パターンを人手で整備し,訂正パターンにマッチするツイートを抽出する.次に,収集したツイートを内容の類似性に基づいてクラスタリングし,最後に,その中から誤情報を過不足なく説明する1文を選択する.実験では,誤情報を人手でまとめたウェブサイトを正解データとして,評価を行った.また,誤情報とその訂正情報の拡散状況を,時系列で可視化するシステムを構築した.本システムにより,誤情報の出現・普及,訂正情報の出現・普及の過程を分析できる.
著者
木村 大翼 田中 久美子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.2, pp.119-137, 2011 (Released:2011-09-28)
参考文献数
17
被引用文献数
1 1

本稿では,文書量に不変な定数を考える.このような定数には,言語や文書の複雑さや冗長性を定量化して捉える計算言語学上の意義がある.これらの指標は既存研究でさまざまなものが提案されてきたが,ほとんどの場合英語を中心とする小規模な文書を対象としてきた.本研究では英語以外のさまざまな言語や,大規模な文書も対象として扱い,主に先行研究において値が文長に依らないとされる 3 つの指標 K, Z, VM と本研究で新たに試みた指標である H と r の 5 つの指標に対し,値が一定となるかどうかの実験を行った.結果,値が言語の種類や文長に依らずに一定となる指標は K と VM の 2 つの指標であった.なおかつこの 2 つの指標の値には自然言語とプログラミング言語の間で有意な差が見られ,言語の複雑さや冗長性をある観点で表した指標となっていると考えることができる.
著者
森 信介 中田 陽介 Neubig Graham 河原 達也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.4, pp.367-381, 2011 (Released:2011-12-28)
参考文献数
15
被引用文献数
3 6

本論文では,形態素解析の問題を単語分割と品詞推定に分解し,それぞれの処理で点予測を用いる手法を提案する.点予測とは,分類器の素性として,周囲の単語境界や品詞等の推定値を利用せずに,周囲の文字列の情報のみを利用する方法である.点予測を用いることで,柔軟に言語資源を利用することができる.特に分野適応において,低い人的コストで,高い分野適応性を実現できる.提案手法の評価として,言語資源が豊富な一般分野において,既存手法である条件付き確率場と形態素 n-gram モデルとの解析精度の比較を行い,同程度の精度を得た.さらに,提案手法の分野適応性を評価するための評価実験を行い,高い分野適応性を示す結果を得た.
著者
荻野 孝野 植田 禎子 小林 正博 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.4, pp.21-54, 2005-08-26 (Released:2011-03-01)
参考文献数
16
被引用文献数
1 1

係り受け関係のついた大量のコーパスを元にして作成されたデータを対象として, 動詞の結合価に関する検討を行った.これは, 係り受け関係まで付与された大量データからなるコーパスが存在してはじめて可能となった分析である.動詞の結合価に関する検討は, 各動詞の基本的な格パターンに着目して結合価を決定することを中心として検討されてきた.しかし, 省略を含め, 結合価が実際の言語データでどういう形で出現しているかについて, 全容を示すようなものは報告されていない.ここでは, 大量のコーパスデータから作成した結合価データを用い, 実際のデータで動詞にかかる格助詞がどういうパターンで出ているのかを調査し, 格助詞パターンの出現状況を把握するとともに, それらの格助詞パターンを用いて同音異表記がどの程度判定できるかを検討した.動詞約12, 400概念 (表記の異なりレベルで約9, 400単語) から作成した動詞の格助詞組み合わせパターンは, 延べパターン数で37, 237パターン, 異なりパターンで188パターンとなった.また, 同音異表記セットについて, これらのパターンを用い, 表記確定を試みたところ, 結合価のうち格助詞組み合わせパターンの異なりによる判定でも格助詞パターンの出現頻度などを判定基準に付加することによって約73%の判定が可能であることがわかった.