著者
Arseny Tolmachev Daisuke Kawahara Sadao Kurohashi
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.1, pp.89-132, 2020-03-15 (Released:2020-06-15)
参考文献数
34
被引用文献数
2 3

An NLP tool is practical when it is fast in addition to having high accuracy. We describe the architecture and the used methods to achieve 250× analysis speed improvement on the Juman++ morphological analyzer together with slight accuracy improvements. This information should be useful for implementors of high-performance NLP and machine-learning based software.
著者
Yui Oka Katsuhito Sudoh Satoshi Nakamura
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.3, pp.778-801, 2021 (Released:2021-09-15)
参考文献数
25

Neural machine translation often suffers from an under-translation problem owing to its limited modeling of the output sequence lengths. In this study, we propose a novel approach to training a Transformer model using length constraints based on length-aware positional encoding (PE). Because length constraints with exact target sentence lengths degrade the translation performance, we add a random perturbation with a uniform distribution within a certain range to the length constraints in the PE during the training. In the inference step, we predicted the output lengths from the input sequences using a length prediction model based on a large-scale pre-trained language model. In Japanese-to-English and English-to-Japanese translation, experimental results show that the proposed perturbation injection improves the robustness of the length prediction errors, particularly within a certain range.
著者
Lu Yujie Sakamoto Kotaro Shibuki Hideyuki Mori Tatsunori
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.24, no.2, pp.205-265, 2017
被引用文献数
2

<p>The surge of social media use, such as Twitter, introduces new opportunities for understanding and gauging public mood across different cultures. However, the diversity of expression in social media presents a considerable challenge to this task of opinion mining, given the limited accuracy of sentiment classification and a lack of intercultural comparisons. Previous Twitter sentiment corpora have only global polarities attached to them, which prevents deeper investigation of the mechanism underlying the expression of feelings in social media, especially the role and influence of rhetorical phenomena. To this end, we construct an annotated corpus for multilingual Twitter sentiment understanding that encompasses three languages (English, Japanese, and Chinese) and four international topics (iPhone 6, Windows 8, Vladimir Putin, and Scottish Independence); our corpus incorporates 5,422 tweets. Further, we propose a novel annotation scheme that embodies the idea of separating emotional signals and rhetorical context, which, in addition to global polarity, identifies rhetoric devices, emotional signals, degree modifiers, and subtopics. Next, to address low inter-annotator agreement in previous corpora, we propose a pivot dataset comparison method to effectively improve the agreement rate. With manually annotated rich information, our corpus can serve as a valuable resource for the development and evaluation of automated sentiment classification, intercultural comparison, rhetoric detection, etc. Finally, based on observations and our analysis of our corpus, we present three key conclusions. First, languages differ in terms of emotional signals and rhetoric devices, and the idea that cultures have different opinions regarding the same objects is reconfirmed. Second, each rhetoric device maintains its own characteristics, influences global polarity in its own way, and has an inherent structure that helps to model the sentiment that it represents. Third, the models of the expression of feelings in different languages are rather similar, suggesting the possibility of unifying multilingual opinion mining at the sentiment level.</p>
著者
小西 光 浅原 正幸 前川 喜久雄
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.2, pp.201-221, 2013-06-14 (Released:2013-09-14)
参考文献数
18
被引用文献数
2 1

時間情報表現は,テキスト中に記述される事象の生起時刻を推定するための重要な手がかりである.時間情報表現を含む数値表現の抽出は,固有表現抽出の部分問題として解かれてきた.英語においては,評価型国際会議が開かれ,時間情報表現のテキストからの切り出しだけではなく,曖昧性解消・正規化のための様々な手法が提案されている.さらに,時間情報と事象とを関連づけるアノテーション(タグづけ)基準 TimeML の定義や新聞記事にアノテーションを行ったコーパス TimeBank の整備が進んでいる.一方,日本語においては時間情報処理に必要なアノテーション基準の定義及びコーパスの整備が進んでいない.本稿では,TimeML の時間情報表現を表す 〈TIMEX3〉 タグに基づいた時間情報のアノテーション基準を日本語向けに再定義し,『現代日本語書き言葉均衡コーパス』(BCCWJ) コアデータの一部にアノテーションを行った.問題点を検討し,今後事象の生起時刻を推定するために必要な課題を考察する.
著者
新森 昭宏 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 = Journal of natural language processing (ISSN:13407619)
巻号頁・発行日
vol.12, no.3, pp.111-128, 2005-07-10
参考文献数
16
被引用文献数
2 4

特許明細書には, 特許請求項と「発明の詳細な説明」が記述される.特許請求項は特許明細書において最も重要な部分であるが, 構成的または結合的に記述されるため, 可読性が低い.「発明の詳細な説明」と, 特許請求項を対応付けることにより, (1) 特許請求項に対する作用 (機能) と効果を明確化する, (2) 特許請求項の重要箇所を明確化する, (3) 特許請求項で使われている表現に関する言い換えを取得する, 等の効果が得られ, 特許請求項の読解支援につながる.本稿では, 特許請求項を構造解析し, その結果を用いて, 「用言文節を起点としたローカルアラインメント」を行うことにより, 「発明の詳細な説明」との対応付けを行う手法を提案する.NTCIR3の特許データコルクションからランダムに抽出した100件のうち88件の特許明細書を対象として評価を行い, その有効性を確認した.
著者
吉村 綾馬 金子 正弘 梶原 智之 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.2, pp.404-427, 2021 (Released:2021-06-15)
参考文献数
35

信頼できる文法誤り訂正の自動評価手法の構築は,文法誤り訂正の研究および開発の発展に有用である.可能な参照文を網羅することが難しいため,先行研究では参照文を用いない自動評価手法が提案されてきた.そのうちの一つは,文法性・流暢性・意味保存性を評価する 3 つの評価モデルを用いることで,参照文を用いる手法よりも人手評価との高い相関を達成した.しかし,各項目の評価モデルは人手評価には最適化されておらず,改善の余地が残されていた.本研究では,より適切な評価を行える自動評価手法の構築を目的として,各項目の評価モデルを事前学習された文符号化器を用いて人手評価に対して最適化する手法を提案する.また,最適化に理想的である,訂正システムの出力文に対して人手評価が付与されたデータセットの作成を行う.実験の結果,項目ごとの評価モデルおよびそれらを組み合わせた手法の両方で,従来手法と比べて人手評価との相関が向上し,事前学習された文符号化器を用いることおよび訂正文の人手評価に最適化することの両方が貢献していることがわかった.分析の結果,提案手法は従来手法に比べて多くのエラータイプの訂正を正しく評価できていることがわかった.
著者
山本 和英 隅田 英一郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.1, pp.3-28, 1999
被引用文献数
2

機械翻訳では目的言語で必須格となる格の人称と数を補う必要がある。本論文では、省略補完知識の決定木による表現、及び帰納的に機械学習することによって日本語対話文の格要素省略を補完する手法を提案する。本研究では形態素分割され、品詞、省略情報が付与された任意のコーパスとシソーラスのみを用いて行なう。決定木学習には、内容語の意味属性、機能語の出現、言語外情報の3種類の属性を使用する。未学習文に対してテストを行なった結果、ガ、ヲ、ニの三つの格で照応的な省略の補完を十分な精度で行なうことができた。またガ格と二格に対しては人称と数の補完にも有効であることを確認した。ガ格に関して、処理の有効性を学習量、話題依存性、使用属性との関係の三点から実験し、以下の知見が得られた。 (1) 当該問題に対する決定木学習量は全体として10<SUP>4</SUP>~10<SUP>5</SUP>事例で十分である。この時の補完精度の上限は80%~85%と予想される。 (2) 対話の話題が既知もしくは予測可能な時は、その話題のみのコーパスによる学習が最善である。話題が未知の場合は、可能な限り広範な話題に対して学習するのが最も効果的である。 (3) 学習量増加に伴い、決定木には機能語などの話題に依存しない属性が多く採用される。
著者
加藤 祥 菊地 礼 浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.4, pp.853-887, 2020-12-15 (Released:2021-03-15)
参考文献数
41

日本語の比喩表現の実態把握を目的として,『現代日本語書き言葉均衡コーパス』に基づく指標比喩データベースを構築した.『比喩表現の理論と分類』に掲載されている 359 種類の比喩指標要素を手掛かりとし,『分類語彙表』に基づいて類義用例を確認しながら指標比喩表現候補を展開し,コアデータ6レジスタ(Yahoo! 知恵袋・白書・Yahoo! ブログ・書籍・雑誌・新聞)1,290,060 語から人手で 822 件抽出した.抽出した比喩用例には,喩辞・被喩辞の情報と,その分類語彙表番号を付与したほか,擬人化・擬物化・擬生化・具象化などの種別情報も付与した.さらに提喩・換喩・文脈比喩・慣用表現などの情報も付与した.上記作業は言語学者によったが,非専門家が比喩表現をどのように捉えるかを評価するために,比喩性・新奇性・わかりやすさ・擬人化・具体化(具象化)の 5 つの観点について,1事例あたり 22–77 人分(平均 33 人分)の評定値を付与した.レジスタ毎の相対度数や評定値の分布により,現代日本語の指標比喩表現の使用傾向を確認した.
著者
青木 竜哉 笹野 遼平 高村 大也 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.2, pp.381-406, 2019-06-15 (Released:2019-09-15)
参考文献数
35

ソーシャルメディアにおいては,辞書に掲載されているような用法とは全く異なる使われ方がされている単語が存在する.本論文では,ソーシャルメディアにおける単語の一般的ではない用法を検出する手法を提案する.提案手法では,ある単語が一般的ではない使われ方がされていた場合,その周辺単語は一般的な用法として使われた場合の周辺単語と異なるという仮説に基づいて,着目単語とその周辺単語の単語ベクトルを利用し,注目している単語の周辺単語が均衡コーパスにおける一般的な用法の場合の周辺単語とどの程度異なっているかを評価することにより,一般的ではない用法の検出を行う.ソーシャルメディアにおいて一般的ではない用法を持つ40単語を対象に行った実験の結果,均衡コーパスと周辺単語ベクトルを用いる提案手法の有効性を確認できた.また,一般的でない用法の検出においては,単語ベクトルの学習手法,学習された単語ベクトルの扱い方,学習コーパスを適切に選択することが重要であることがわかった.
著者
村田 真樹 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.6, no.7, pp.61-71, 1999-10-10 (Released:2011-03-01)
参考文献数
10

George A. Millerは人間の短期記憶の容量は7±2程度のスロットしかないことを提唱している. 本研究では, 京大コーパスを用いて日本語文の各部分において係り先が未決定な文節の個数を数えあげ, その個数がおおよそ7±2の上限9程度でおさえられていたことを報告した. また, 英語文でも同様な調査を行ないNP程度のものをまとめて認識すると仮定した場合7±2の上限9程度でおさえられていたことを確認した. これらのことは, 文理解における情報の認知単位として日本語で文節, 英語ではNP程度のものを仮定すると, Millerの7±2の理論と, 言語解析・生成において短期記憶するものは7±2程度ですむというYngveの主張を整合性よく説明できることを意味する.
著者
村上 聡一朗 渡邉 亮彦 宮澤 彬 五島 圭一 柳瀬 利彦 高村 大也 宮尾 祐介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.2, pp.299-328, 2020-06-15 (Released:2020-09-15)
参考文献数
54

本稿では,日経平均株価の市況コメントを生成するタスクを例として,時系列数値データの多様な特徴を抽出してテキスト化する手法を提案する.日経平均株価の市況コメントでは価格の変動の特徴だけが表出されるわけではなく,価格の履歴を参照する表現,時系列データの変化を示す表現,テキストが書かれる時間帯に依存する表現が見られる.また,数値に言及する場合は,価格が直接言及されることもあれば,前日からの増減幅や それらを切り上げ・切り捨てした値などが用いられることもある.本研究では,エンコーダ・デコーダモデルをベースラインとし,上記のような多様な特徴を自動抽出してテキスト化するためのエンコード/デコード手法を探求する.まず,株価の短期的・長期的な変化を捉えるために,エンコーダへの入力として短期的および長期的な時系列株価データを与える.デコード時には,テキストが書かれる時間帯に依存する表現を生成するために,時間帯情報を導入する.また,デコーダが数値に言及する際,数値の演算操作を推定して計算することで株価の数値表現を生成する.実験では,自動評価および情報性・流暢性に関する人手評価を行い, 提案手法によって上記の特徴を捉えた質の高い株価の市況コメントの生成が可能になることを示した.
著者
乾 健太郎 藤田 篤
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.11, no.5, pp.151-198, 2004-10-10 (Released:2011-03-01)
参考文献数
183
被引用文献数
4 7

意味が近似的に等価な言語表現の異形を言い換えと言う. 言い換え技術とは, 所与の言語表現からその言い換えを生成する言い換え生成技術, および所与の言語表現対が言い換え関係にあるか否かを判定する言い換え認識技術の総称である. これらの技術は, 機械翻訳の前編集や読解支援のための文章簡単化, 質問応答や複数文書要約など, 様々な応用に貢献する応用横断的なミドルウェア技術になると期待されており, 近年研究者の関心を集めてきた.本論文では, こうした言い換え技術について, 工学的研究を中心に近年の動向を紹介する. 具体的には, 言い換えの定義や言い換え技術の応用可能性について論じた後, 構造変換による言い換え生成, 質問応答・複数文書要約のための言い換え認識に関する研究を概観し, 最後に言い換え知識の自動獲得に関する最新の研究動向を紹介する.
著者
嶋中 宏希 梶原 智之 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.3, pp.613-634, 2019-09-15 (Released:2019-12-15)
参考文献数
34
被引用文献数
2

本稿では,参照文を用いた文単位での機械翻訳自動評価手法について述べる.現在のデファクトスタンダードである BLEU をはじめとして,多くの従来手法は文字や単語の N-gram に基づく素性に頼っており,文単位での評価にとっては限定的な情報しか扱えていない.そこで本研究では,文全体の大域的な情報を考慮するために,事前学習された文の分散表現を用いる機械翻訳自動評価手法を提案する.提案手法では,大規模コーパスによって事前学習された文の符号化器を用いて,翻訳文と参照文の分散表現を得る.そして,翻訳文と参照文の分散表現を入力とする回帰モデルによって,人手でラベル付けされた翻訳品質を推定する.WMT-2017 Metrics Shared Task における翻訳品質のラベル付きデータセットを用いた実験の結果,我々の提案手法は文単位の全ての to-English 言語対において最高性能を達成した.
著者
新納 浩幸 佐々木 稔
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.5, pp.707-726, 2013-12-13 (Released:2014-03-13)
参考文献数
29
被引用文献数
3 4

本論文では語義曖昧性解消 (Word Sense Disambiguation, WSD) の領域適応に対する手法を提案する.WSD の領域適応の問題は,2 つの問題に要約できる.1 つは領域間で語義の分布が異なる問題,もう 1 つは領域の変化によりデータスパースネスが生じる問題である.本論文では上記の点を論じ,前者の問題の対策として学習手法に k 近傍法を補助的に用いること,後者の問題の対策としてトピックモデルを用いることを提案する.具体的にはターゲット領域から構築できるトピックモデルによって,ソース領域の訓練データとターゲット領域のテストデータにトピック素性を追加する.拡張された素性ベクトルから SVM を用いて語義識別を行うが,識別の信頼性が低いものには k 近傍法の識別結果を用いる.BCCWJ コーパスの 2 つの領域 PB(書籍)と OC(Yahoo! 知恵袋)から共に頻度が 50 以上の多義語 17 単語を対象にして,WSD の領域適応の実験を行い,提案手法の有効性を示す.別種の領域間における本手法の有効性の確認,領域の一般性を考慮したトピックモデルを WSD に利用する方法,および WSD の領域適応に有効なアンサンブル手法を考案することを今後の課題とする.
著者
大矢 康介 阪本 浩太郎 渋木 英潔 森 辰則
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.1, pp.31-63, 2020-03-15 (Released:2020-06-15)
参考文献数
23

本稿では,世界史に関する大学入試論述問題に対して自動要約手法に基づき解答を自動生成する際の知識源の一つとして世界史用語集に注目し,見出し語と語釈部に分かれている文書データから解答となる文章を作成するために,語釈文における見出し語に照応するゼロ代名詞とその表層格を推定する手法を提案する.本稿の扱うタスクは,先行詞候補が見出し語に限られている一方でそれに照応するゼロ代名詞を複数の候補から一つ選ぶという点,および先行詞である見出し語が文中に存在しないため,照応解析において有効な手掛かりとなる先行詞の文脈情報が全く使えないという点で,従来のゼロ代名詞照応解析とは異なる.世界史用語集を対象とした評価実験を行った結果,KNP を用いた既存のゼロ照応解析を使用した手法に比べ,提案手法が有効であることが確認された.さらに,出現頻度の低い表層格で埋め込まれる場合の精度低下が観察されたため,通常の文から擬似訓練事例を生成する手法を検討した.同事例を使用した結果,ヲ格,ニ格の推定の F 値を改善できることが確認された.
著者
河原 大輔 黒橋 禎夫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.4, pp.67-81, 2007-07-10 (Released:2011-03-01)
参考文献数
11
被引用文献数
1 2

本稿では, 格フレームに基づき構文・格解析を統合的に行う確率モデルを提案する.格フレームは, ウェブテキスト約5億文から自動的に構築した大規模なものを用いる.確率モデルは, 述語項構造を基本単位とし, それを生成する確率であり, 格フレームによる語彙的な選好を利用するものである.ウェブのテキストを用いて実験を行い, 特に述語項構造に関連する係り受けの精度が向上することを確認した.また, 語彙的選好がどの程度用いられているかを調査したところ, 60.7%という高い割合で使われていることがわかり, カバレージの高さを確認することができた.
著者
新納 浩幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.4, pp.329-330, 2018-09-15 (Released:2018-12-15)
著者
浅原 正幸
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.26, no.3, pp.635-652, 2019-09-15 (Released:2019-12-15)
参考文献数
30

ヒトの文処理のモデル化として Hale によりサプライザルが提案されている.サプライザルは文処理の負荷に対する情報量基準に基づいた指標で,当該単語の文脈中の負の対数確率が文処理の困難さをモデル化するとしている.日本語において眼球運動測定を用いて文処理の負荷をモデル化する際に,統語における基本単位である文節単位の読み時間を集計する.一方,単語の文脈中の生起確率は形態素や単語といった単位で評価し,この齟齬が直接的なサプライザルのモデル化を難しくしていた.本論文では,この問題を解決するために単語埋め込みを用いる.skip-gram の単語埋め込みの加法構成性に基づき,文節構成語のベクトルから文節のベクトルを構成し,隣接文節間のベクトルのコサイン類似度を用いて,文脈中の隣接尤度をモデル化できることを確認した.さらに,skip-gram の単語埋め込みに基づいて構成した文節のベクトルのノルムが,日本語の読み時間のモデル化に寄与することを発見した.
著者
有本 泰子 大野 澄雄 飯田 仁
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.147-163, 2007-04-10 (Released:2011-03-01)
参考文献数
19
被引用文献数
2 5

音声認識の精度の向上にともなって, コールセンターなどへの自動音声応答システムの導入の要求が高まり, 人間がコンピュータと対話する機会も増加する傾向にある.これまでの対話システムは言語情報のみを扱い, そのパラ言語情報を扱うことは少ないため, 人間同士の対話と比較すると, コンピュータとの対話ではコンピュータが得る人間の情報は小さい.本研究では音声の音響的特徴と言語表現の特徴から推定可能な「怒り」の感情を検出するために, 感情の程度による音響的・言語的変化を分析し, コンピュータと人間とのインタラクションにおける人間の感情を捉えることを目指す.非対面の擬似対話により, 認識性能に対する不満からくる「苛立ち」や, クレーム対応時におけるユーザの「腹立ち」の内的感情を表現した怒りの音声を収録し, 主観評価により感情の程度を付与した音声データを作成した.本論では, 怒りの感情を含むと判定された発話について, つぎの3種の特性, 声の高さや強さ等の音響的特徴, 言語形態上の語彙使用の特徴, 語用論的な特徴である文末表現の特徴に着目し, 発話者の感情表現とその言語表現・音響的特徴との定量的な関係を分析し, 怒り表現の音声言語の特徴付けを試みた.とくに, 接続助詞「けど」, 「ので」の主節が現れずに発話が中止する接続助詞中止型において, 怒りの程度が高いことを明らかにした.