著者
笹田 鉄郎 森 信介 山肩 洋子 前田 浩邦 河原 達也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.2, pp.107-131, 2015-06-16 (Released:2015-09-16)
参考文献数
32
被引用文献数
2 5

自然言語処理において,単語認識(形態素解析や品詞推定など)の次に実用化可能な課題は,ある課題において重要な用語の認識であろう.この際の重要な用語は,一般に単語列であり,多くの応用においてそれらに種別がある.一般的な例は,新聞記事における情報抽出を主たる目的とした固有表現であり,人名や組織名,金額などの 7 つか 8 つの種別(固有表現クラス)が定義されている.この重要な用語の定義は,自然言語処理の課題に大きく依存する.我々はこの課題をレシピ(調理手順の文章)に対する用語抽出として,レシピ中に出現する重要な用語を定義し,実際にコーパスに対してアノテーションし,実用的な精度の自動認識器を構築する過程について述べる.その応用として,単純なキーワード照合を超える知的な検索や,映像と言語表現のマッチングによるシンボルグラウンディングを想定している.このような背景の下,本論文では,レシピ用語タグセットの定義と,実際に行ったアノテーションについて議論する.また,レシピ用語の自動認識の結果を提示し,必要となるアノテーション量の見通しを示す.
著者
叶内 晨 北川 善彬 荒牧 英治 岡崎 直観 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.363-395, 2015-12-14 (Released:2016-03-14)
参考文献数
49

ソーシャルメディアサービスの普及により,人々や社会の状況を調査する新しいアプローチが開拓された.ひとつの応用事例として,ソーシャルメディアの投稿から疾患・症状の流行を検出する公衆衛生サーベイランスがある.本研究では,自然言語処理技術を応用して,ソーシャルメディアの投稿から風邪やインフルエンザなどの罹患を検出するタスクに取り組んだ.最先端のシステムのエラー分析を通じて,事実性解析と主体解析という重要かつ一般性のあるサブタスクを見い出した.本研究では,これらのサブタスクへの取り組みを行い,罹患検出タスクへの貢献を実証した.
著者
永田 亮 河合 綾子 須田 幸次 掛川 淳一 森広 浩一郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.2, pp.2_51-2_65, 2010 (Released:2011-06-23)
参考文献数
22

自然言語処理や言語学においてコーパスは重要な役割を果たすが,従来のコーパスは大人の文章を集めたコーパスが中心であり,子供の文章を集めたコーパスは非常に少ない.その理由として,子供のコーパスに特有の様々な難しさが挙げられる.そこで,本論文では,子供のコーパスを構築する際に生じる難しさを整理,分類し,効率良く子供のコーパスを構築する方法を提案する.また,提案方法で実際に構築した「こどもコーパス」についても述べる.提案方法により,81人分(39,269形態素)のコーパスを構築することができ,提案方法の有効性を確認した.この規模は,公開されている日本語書き言葉子供コーパスとしては最大規模である.また,規模に加えて,「こどもコーパス」は作文履歴がトレース可能であるという特徴も有する.
著者
松浦 孝平 三村 正人 河原 達也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.3, pp.824-846, 2021 (Released:2021-09-15)
参考文献数
49

本稿では,アイヌ民話(ウウェペケㇾ)の音声認識に関する我々の取り組みについて述べる.まず,2 つの博物館から提供されたアイヌ語アーカイブのデータを元に,沙流方言を対象としたアイヌ語音声コーパスを構築した.次に,このコーパスを用いて注意機構モデルに基づく音声認識システムを構成し,音素・音節・ワードピース・単語の 4 つの認識単位について検討した.その結果,音節単位での音声認識精度が最も高くなることがわかり,話者クローズド条件と話者オープン条件のそれぞれについて,音素認識精度で 93.7% と 86.2%,単語認識精度で 78.3% と 61.4% を実現した.音声認識精度が話者オープン条件において大幅に低下する問題に対して,CycleGAN を用いた教師なし話者適応を提案した.これは,学習データ内の話者の音声から認識対象話者の音声への写像を CycleGAN に学習させ,学習データ内の音声を全て認識対象話者風の音声に変換するものである.本手法によって最大で相対 60.6% の音素誤り率の改善を得た.さらに,日本語とアイヌ語が混合した音声における言語識別についても検討を行い,音素認識と単語認識を用いた構成で一定の識別性能を達成できることを示した.
著者
松田 寛
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.3, pp.695-701, 2020-09-15 (Released:2020-12-15)
参考文献数
6
被引用文献数
1
著者
Srdanović Irena Hodošček Bor Bekeš Andrej 仁科 喜久子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.4, pp.4_29-4_46, 2009 (Released:2011-07-28)
参考文献数
23
被引用文献数
1

日本語におけるモダリティ形式および推量副詞と文末モダリティ形式との共起についての体系的な研究は自然言語処理の分野において不十分である.さらに,このような情報は日本語教育の分野においても十分カバーされていない.本稿では,コーパス検索ツール Sketch Engine (SkE) を利用した日本語の推量副詞とモダリティ形式の遠隔共起の抽出を可能にすることとその日本語教育,特に日本語学習辞典への応用の可能性を示すことを目的とする.そのためにまず,複数のコーパスを分析した結果として,モダリティ形式とそのバリエーションの網羅的なリストを作成した.このモダリティ形式は ChaSen でどのように形態素解析されているかを調査し,各モダリティ形式の様々な形態素を新しいモダリティのタグとしてまとめることによって,ChaSen で形態素解析されている JpWaC という大規模ウェブコーパスから抽出した 2 千万語のサンプルへタグの再付与を行った.最後に,新しくタグ付けされたコーパスをコーパス検索ツール SkE に載せ,「文法関係ファイル」の内容を変更することで,推量副詞と文末モダリティの共起の抽出を可能にした.抽出された共起の結果は 93% 以上の精度で高く評価された.得られた結果は言語資源を利用しての日本語教育への応用の一例として,日本語教育における辞書編集をはじめ様々な教育資源の作成のために,あるいは教室における直接的に利用可能となることを示した.
著者
三田 雅人 水本 智也 金子 正弘 永田 亮 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.1, pp.160-182, 2021 (Released:2021-03-15)
参考文献数
42
被引用文献数
1

文法誤り訂正の既存研究の多くはこれまで主に CoNLL-2014 評価データセットを用いた単一コーパス上で文法誤り訂正モデルを評価してきた.しかし,書き手の習熟度やエッセイのトピックなど様々なバリエーションのある入力文が想定される文法誤り訂正タスクにおいて,タスクの難易度は各条件下によって異なるため,単一コーパスによる評価では不十分であると考えられる.そこで本研究では,文法誤り訂正の評価の方法論として,単一コーパス評価は不十分であるという仮説に基づきコーパス横断評価の必要性について調査を行う.具体的には,4 種類の手法 (LSTM, CNN, Transformer, SMT) を 6 種類のコーパス (CoNLL-2014, CoNLL-2013, FCE, JFLEG, KJ, BEA-2019) で評価し,各コーパス間でモデル順位にばらつきが生じるかについて検証を行った.評価実験の結果,モデル順位は各コーパスによって大きく変動したため,既存の単一コーパス評価では不十分であることがわかった.また,横断評価はメタ評価方法としてだけではなく,実応用を見据えた場合においても有用であると考えられる.そこで,横断評価の有用性のケーススタディとして,文法誤り訂正の入力に想定される代表的な条件の一つである,書き手の習熟度を評価セグメントとした場合の横断評価について調査を行った.その結果,書き手の習熟度が初中級レベルと上級レベル間ではモデルの性能評価に関して大きな乖離があることがわかった.
著者
Lu Yujie Sakamoto Kotaro Shibuki Hideyuki Mori Tatsunori
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.2, pp.205-265, 2017
被引用文献数
2

<p>The surge of social media use, such as Twitter, introduces new opportunities for understanding and gauging public mood across different cultures. However, the diversity of expression in social media presents a considerable challenge to this task of opinion mining, given the limited accuracy of sentiment classification and a lack of intercultural comparisons. Previous Twitter sentiment corpora have only global polarities attached to them, which prevents deeper investigation of the mechanism underlying the expression of feelings in social media, especially the role and influence of rhetorical phenomena. To this end, we construct an annotated corpus for multilingual Twitter sentiment understanding that encompasses three languages (English, Japanese, and Chinese) and four international topics (iPhone 6, Windows 8, Vladimir Putin, and Scottish Independence); our corpus incorporates 5,422 tweets. Further, we propose a novel annotation scheme that embodies the idea of separating emotional signals and rhetorical context, which, in addition to global polarity, identifies rhetoric devices, emotional signals, degree modifiers, and subtopics. Next, to address low inter-annotator agreement in previous corpora, we propose a pivot dataset comparison method to effectively improve the agreement rate. With manually annotated rich information, our corpus can serve as a valuable resource for the development and evaluation of automated sentiment classification, intercultural comparison, rhetoric detection, etc. Finally, based on observations and our analysis of our corpus, we present three key conclusions. First, languages differ in terms of emotional signals and rhetoric devices, and the idea that cultures have different opinions regarding the same objects is reconfirmed. Second, each rhetoric device maintains its own characteristics, influences global polarity in its own way, and has an inherent structure that helps to model the sentiment that it represents. Third, the models of the expression of feelings in different languages are rather similar, suggesting the possibility of unifying multilingual opinion mining at the sentiment level.</p>
著者
小西 光 浅原 正幸 前川 喜久雄
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.201-221, 2013-06-14 (Released:2013-09-14)
参考文献数
18
被引用文献数
2 1

時間情報表現は,テキスト中に記述される事象の生起時刻を推定するための重要な手がかりである.時間情報表現を含む数値表現の抽出は,固有表現抽出の部分問題として解かれてきた.英語においては,評価型国際会議が開かれ,時間情報表現のテキストからの切り出しだけではなく,曖昧性解消・正規化のための様々な手法が提案されている.さらに,時間情報と事象とを関連づけるアノテーション(タグづけ)基準 TimeML の定義や新聞記事にアノテーションを行ったコーパス TimeBank の整備が進んでいる.一方,日本語においては時間情報処理に必要なアノテーション基準の定義及びコーパスの整備が進んでいない.本稿では,TimeML の時間情報表現を表す 〈TIMEX3〉 タグに基づいた時間情報のアノテーション基準を日本語向けに再定義し,『現代日本語書き言葉均衡コーパス』(BCCWJ) コアデータの一部にアノテーションを行った.問題点を検討し,今後事象の生起時刻を推定するために必要な課題を考察する.
著者
新森 昭宏 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.12, no.3, pp.111-128, 2005-07-10
参考文献数
16
被引用文献数
2 4

特許明細書には, 特許請求項と「発明の詳細な説明」が記述される.特許請求項は特許明細書において最も重要な部分であるが, 構成的または結合的に記述されるため, 可読性が低い.「発明の詳細な説明」と, 特許請求項を対応付けることにより, (1) 特許請求項に対する作用 (機能) と効果を明確化する, (2) 特許請求項の重要箇所を明確化する, (3) 特許請求項で使われている表現に関する言い換えを取得する, 等の効果が得られ, 特許請求項の読解支援につながる.本稿では, 特許請求項を構造解析し, その結果を用いて, 「用言文節を起点としたローカルアラインメント」を行うことにより, 「発明の詳細な説明」との対応付けを行う手法を提案する.NTCIR3の特許データコルクションからランダムに抽出した100件のうち88件の特許明細書を対象として評価を行い, その有効性を確認した.
著者
吉村 綾馬 金子 正弘 梶原 智之 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.2, pp.404-427, 2021 (Released:2021-06-15)
参考文献数
35

信頼できる文法誤り訂正の自動評価手法の構築は,文法誤り訂正の研究および開発の発展に有用である.可能な参照文を網羅することが難しいため,先行研究では参照文を用いない自動評価手法が提案されてきた.そのうちの一つは,文法性・流暢性・意味保存性を評価する 3 つの評価モデルを用いることで,参照文を用いる手法よりも人手評価との高い相関を達成した.しかし,各項目の評価モデルは人手評価には最適化されておらず,改善の余地が残されていた.本研究では,より適切な評価を行える自動評価手法の構築を目的として,各項目の評価モデルを事前学習された文符号化器を用いて人手評価に対して最適化する手法を提案する.また,最適化に理想的である,訂正システムの出力文に対して人手評価が付与されたデータセットの作成を行う.実験の結果,項目ごとの評価モデルおよびそれらを組み合わせた手法の両方で,従来手法と比べて人手評価との相関が向上し,事前学習された文符号化器を用いることおよび訂正文の人手評価に最適化することの両方が貢献していることがわかった.分析の結果,提案手法は従来手法に比べて多くのエラータイプの訂正を正しく評価できていることがわかった.
著者
山本 和英 隅田 英一郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.1, pp.3-28, 1999
被引用文献数
2

機械翻訳では目的言語で必須格となる格の人称と数を補う必要がある。本論文では、省略補完知識の決定木による表現、及び帰納的に機械学習することによって日本語対話文の格要素省略を補完する手法を提案する。本研究では形態素分割され、品詞、省略情報が付与された任意のコーパスとシソーラスのみを用いて行なう。決定木学習には、内容語の意味属性、機能語の出現、言語外情報の3種類の属性を使用する。未学習文に対してテストを行なった結果、ガ、ヲ、ニの三つの格で照応的な省略の補完を十分な精度で行なうことができた。またガ格と二格に対しては人称と数の補完にも有効であることを確認した。ガ格に関して、処理の有効性を学習量、話題依存性、使用属性との関係の三点から実験し、以下の知見が得られた。 (1) 当該問題に対する決定木学習量は全体として10<SUP>4</SUP>~10<SUP>5</SUP>事例で十分である。この時の補完精度の上限は80%~85%と予想される。 (2) 対話の話題が既知もしくは予測可能な時は、その話題のみのコーパスによる学習が最善である。話題が未知の場合は、可能な限り広範な話題に対して学習するのが最も効果的である。 (3) 学習量増加に伴い、決定木には機能語などの話題に依存しない属性が多く採用される。
著者
加藤 祥 菊地 礼 浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.4, pp.853-887, 2020-12-15 (Released:2021-03-15)
参考文献数
41

日本語の比喩表現の実態把握を目的として,『現代日本語書き言葉均衡コーパス』に基づく指標比喩データベースを構築した.『比喩表現の理論と分類』に掲載されている 359 種類の比喩指標要素を手掛かりとし,『分類語彙表』に基づいて類義用例を確認しながら指標比喩表現候補を展開し,コアデータ6レジスタ(Yahoo! 知恵袋・白書・Yahoo! ブログ・書籍・雑誌・新聞)1,290,060 語から人手で 822 件抽出した.抽出した比喩用例には,喩辞・被喩辞の情報と,その分類語彙表番号を付与したほか,擬人化・擬物化・擬生化・具象化などの種別情報も付与した.さらに提喩・換喩・文脈比喩・慣用表現などの情報も付与した.上記作業は言語学者によったが,非専門家が比喩表現をどのように捉えるかを評価するために,比喩性・新奇性・わかりやすさ・擬人化・具体化(具象化)の 5 つの観点について,1事例あたり 22–77 人分(平均 33 人分)の評定値を付与した.レジスタ毎の相対度数や評定値の分布により,現代日本語の指標比喩表現の使用傾向を確認した.
著者
青木 竜哉 笹野 遼平 高村 大也 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.381-406, 2019-06-15 (Released:2019-09-15)
参考文献数
35

ソーシャルメディアにおいては,辞書に掲載されているような用法とは全く異なる使われ方がされている単語が存在する.本論文では,ソーシャルメディアにおける単語の一般的ではない用法を検出する手法を提案する.提案手法では,ある単語が一般的ではない使われ方がされていた場合,その周辺単語は一般的な用法として使われた場合の周辺単語と異なるという仮説に基づいて,着目単語とその周辺単語の単語ベクトルを利用し,注目している単語の周辺単語が均衡コーパスにおける一般的な用法の場合の周辺単語とどの程度異なっているかを評価することにより,一般的ではない用法の検出を行う.ソーシャルメディアにおいて一般的ではない用法を持つ40単語を対象に行った実験の結果,均衡コーパスと周辺単語ベクトルを用いる提案手法の有効性を確認できた.また,一般的でない用法の検出においては,単語ベクトルの学習手法,学習された単語ベクトルの扱い方,学習コーパスを適切に選択することが重要であることがわかった.
著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10 (Released:2011-03-01)
参考文献数
10

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
村上 聡一朗 渡邉 亮彦 宮澤 彬 五島 圭一 柳瀬 利彦 高村 大也 宮尾 祐介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.2, pp.299-328, 2020-06-15 (Released:2020-09-15)
参考文献数
54

本稿では,日経平均株価の市況コメントを生成するタスクを例として,時系列数値データの多様な特徴を抽出してテキスト化する手法を提案する.日経平均株価の市況コメントでは価格の変動の特徴だけが表出されるわけではなく,価格の履歴を参照する表現,時系列データの変化を示す表現,テキストが書かれる時間帯に依存する表現が見られる.また,数値に言及する場合は,価格が直接言及されることもあれば,前日からの増減幅や それらを切り上げ・切り捨てした値などが用いられることもある.本研究では,エンコーダ・デコーダモデルをベースラインとし,上記のような多様な特徴を自動抽出してテキスト化するためのエンコード/デコード手法を探求する.まず,株価の短期的・長期的な変化を捉えるために,エンコーダへの入力として短期的および長期的な時系列株価データを与える.デコード時には,テキストが書かれる時間帯に依存する表現を生成するために,時間帯情報を導入する.また,デコーダが数値に言及する際,数値の演算操作を推定して計算することで株価の数値表現を生成する.実験では,自動評価および情報性・流暢性に関する人手評価を行い, 提案手法によって上記の特徴を捉えた質の高い株価の市況コメントの生成が可能になることを示した.
著者
乾 健太郎 藤田 篤
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.5, pp.151-198, 2004-10-10 (Released:2011-03-01)
参考文献数
183
被引用文献数
4 7

意味が近似的に等価な言語表現の異形を言い換えと言う. 言い換え技術とは, 所与の言語表現からその言い換えを生成する言い換え生成技術, および所与の言語表現対が言い換え関係にあるか否かを判定する言い換え認識技術の総称である. これらの技術は, 機械翻訳の前編集や読解支援のための文章簡単化, 質問応答や複数文書要約など, 様々な応用に貢献する応用横断的なミドルウェア技術になると期待されており, 近年研究者の関心を集めてきた.本論文では, こうした言い換え技術について, 工学的研究を中心に近年の動向を紹介する. 具体的には, 言い換えの定義や言い換え技術の応用可能性について論じた後, 構造変換による言い換え生成, 質問応答・複数文書要約のための言い換え認識に関する研究を概観し, 最後に言い換え知識の自動獲得に関する最新の研究動向を紹介する.
著者
嶋中 宏希 梶原 智之 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.3, pp.613-634, 2019-09-15 (Released:2019-12-15)
参考文献数
34
被引用文献数
2

本稿では,参照文を用いた文単位での機械翻訳自動評価手法について述べる.現在のデファクトスタンダードである BLEU をはじめとして,多くの従来手法は文字や単語の N-gram に基づく素性に頼っており,文単位での評価にとっては限定的な情報しか扱えていない.そこで本研究では,文全体の大域的な情報を考慮するために,事前学習された文の分散表現を用いる機械翻訳自動評価手法を提案する.提案手法では,大規模コーパスによって事前学習された文の符号化器を用いて,翻訳文と参照文の分散表現を得る.そして,翻訳文と参照文の分散表現を入力とする回帰モデルによって,人手でラベル付けされた翻訳品質を推定する.WMT-2017 Metrics Shared Task における翻訳品質のラベル付きデータセットを用いた実験の結果,我々の提案手法は文単位の全ての to-English 言語対において最高性能を達成した.
著者
新納 浩幸 佐々木 稔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.5, pp.707-726, 2013-12-13 (Released:2014-03-13)
参考文献数
29
被引用文献数
3 4

本論文では語義曖昧性解消 (Word Sense Disambiguation, WSD) の領域適応に対する手法を提案する.WSD の領域適応の問題は,2 つの問題に要約できる.1 つは領域間で語義の分布が異なる問題,もう 1 つは領域の変化によりデータスパースネスが生じる問題である.本論文では上記の点を論じ,前者の問題の対策として学習手法に k 近傍法を補助的に用いること,後者の問題の対策としてトピックモデルを用いることを提案する.具体的にはターゲット領域から構築できるトピックモデルによって,ソース領域の訓練データとターゲット領域のテストデータにトピック素性を追加する.拡張された素性ベクトルから SVM を用いて語義識別を行うが,識別の信頼性が低いものには k 近傍法の識別結果を用いる.BCCWJ コーパスの 2 つの領域 PB(書籍)と OC(Yahoo! 知恵袋)から共に頻度が 50 以上の多義語 17 単語を対象にして,WSD の領域適応の実験を行い,提案手法の有効性を示す.別種の領域間における本手法の有効性の確認,領域の一般性を考慮したトピックモデルを WSD に利用する方法,および WSD の領域適応に有効なアンサンブル手法を考案することを今後の課題とする.