著者
荒牧 英治 若宮 翔子 矢野 憲 永井 宥之 岡久 太郎 伊藤 薫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.1, pp.119-152, 2018-02-15 (Released:2018-05-15)
参考文献数
15
被引用文献数
3 9

高度な人工知能研究のためには,その材料となるデータが必須となる.医療,特に臨床に関わる分野において,人工知能研究の材料となるデータは主に自然言語文を含む電子カルテである.このようなデータを最大限に利用するには,自然言語処理による情報抽出が必須であり,同時に,情報抽出技術を開発するためのコーパスが必要となる.本コーパスの特徴は,45,000 テキストという我々の知る限りもっとも大規模なデータを構築した点と,単に用語のアノテーションや用語の標準化を行っただけでなく,当該の疾患が実際に患者に生じたかどうかという事実性をアノテーションした点の 2 点である.本稿では病名や症状のアノテーションを対象に,この医療コーパス開発についてその詳細を述べる.人工知能研究のための医療コーパス開発について病名や症状のアノテーションを中心にその詳細を述べる.本稿の構成は以下の通りである.まず,アノテーションの基準について,例を交えながら,概念の定義について述べる.次に,実際にアノテーターが作業した際の一致率などの指標を算出し,アノテーションのフィージビリティについて述べる.最後に,構築したコーパスを用いた病名抽出システムについて報告する.本稿のアノテーション仕様は,様々な医療テキストや医療表現をアノテーションする際の参考となるであろう.
著者
村田 真樹 神崎 享子 内元 清貴 馬 青 井佐原 均
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.7, no.1, pp.51-66, 2000-01-10 (Released:2011-03-01)
参考文献数
15

本稿では単語の羅列を意味でソートするといろいろなときに便利であるということについて記述する. また, この単語を意味でソートするという考え方を示すと同時に, この考え方と辞書, 階層シソーラスとの関係, さらには多観点シソーラスについても論じる. そこでは単語を複数の属性で表現するという考え方も示し, 今後の言語処理のためにその考え方に基づく辞書が必要であることについても述べている. また, 単語を意味でソートすると便利になるであろう主要な三つの例についても述べる.
著者
磯 颯
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.264-269, 2022 (Released:2022-03-15)
参考文献数
8
被引用文献数
1
著者
Yiran Wang Hiroyuki Shindo Yuji Matsumoto Taro Watanabe
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.23-52, 2022 (Released:2022-03-15)
参考文献数
44
被引用文献数
2

This paper presents a novel method for nested named entity recognition. As a layered method, our method extends the prior second-best path recognition method by explicitly excluding the influence of the best path. Our method maintains a set of hidden states at each time step and selectively leverages them to build a different potential function for recognition at each level. In addition, we demonstrate that recognizing innermost entities first results in better performance than the conventional outermost entities first scheme. We provide extensive experimental results on ACE2004, ACE2005, GENIA, and NNE datasets to show the effectiveness and efficiency of our proposed method.
著者
山本 和英 増山 繁 内藤 昭三
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.2, no.1, pp.39-55, 1995-01-10 (Released:2011-03-01)
参考文献数
8
被引用文献数
1 2

日本語文章要約システムGREENについて報告する. 一般に, 質の良い文章要約を行うためには, ある一つの言語現象だけをとらえた談話解析だけでは不十分である. なぜなら, 談話に関わる言語現象は相互に関連しているからである. 本研究ではこの観点から, 日本語での様々な表層的特徴をできるだけ多く利用して, 日本語文章の要約を試みる. 本稿では実際に計算機上で試作した論説文要約システムGREENに関して, これで用いられている論説文要約の手法の紹介と, これによって出力された文章の評価を行う.
著者
梶原 智之 西原 大貴 小平 知範 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.4, pp.801-824, 2020-12-15 (Released:2021-03-15)
参考文献数
50
被引用文献数
1

本研究では,日本語の語彙平易化のために,評価用データセット・辞書・実装や評価を支援するツールキットの 3 種類の言語資源を整備する.我々は既存の小規模な単語難易度辞書をもとに単語難易度の推定器を訓練し,大規模な日本語の単語難易度辞書および難解な単語から平易な単語への言い換え辞書を自動構築する.本研究で構築する評価用データセットを用いた評価実験によって,この辞書に基づく語彙平易化システムが高い性能を達成することを示す.我々のツールキットは,辞書の他,語彙平易化パイプラインにおける主要な手法を実装しており,これらの手法を組み合わせたシステムの構築および構築したシステムの自動評価の機能を提供する.
著者
後藤 功雄 田中 英輝
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.5, pp.577-597, 2018-12-15 (Released:2019-03-15)
参考文献数
21

ニューラル機械翻訳 (NMT) は入力文の内容の一部が翻訳されない場合があるという問題があるため,NMT の実用には訳出されていない内容を検出できることが重要である.著者らはアテンションの累積確率と出力した目的言語文から入力文を生成する逆翻訳の確率という 2 種類の確率による,入力文の内容の欠落に対する検出効果を調査した.日英の特許翻訳での訳抜けした内容の検出実験を実施し,アテンションの累積確率と逆翻訳の確率はいずれも効果があり,逆翻訳はアテンションより効果が高く,これらを組み合わせるとさらに検出性能が向上することを確認した.また,訳抜けの検出を機械翻訳結果の人手修正のための文選択に応用した場合に効果があることが分かった.
著者
亀甲 博貴 松吉 俊 John Richardson 牛久 敦 笹田 鉄郎 村脇 有吾 鶴岡 慶雅 森 信介
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.3, pp.847-873, 2021 (Released:2021-09-15)
参考文献数
40

近年,シンボルグラウンディングや言語生成,自然言語による非言語データの検索など,実世界に紐づいた自然言語処理への注目が高まっている.我々は,将棋のゲーム局面に付随する解説文がこれらの課題の興味深いテストベッドになると考えている.解説者は現在の局面だけでなく過去や未来の指し手に言及しており,これらはゲーム木にグラウンディングされることから,ゲーム木探索アルゴリズムを活用した実世界対応の研究が期待できる.本論文では,我々が構築した,人手による単語分割・固有表現・モダリティ表現・事象の事実性のアノテーションを行った将棋解説文コーパスを説明する.
著者
笹野 遼平 黒橋 禎夫 奥村 学
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.21, no.6, pp.1183-1205, 2014
被引用文献数
3

本論文では,形態素解析で使用する辞書に含まれる語から派生した表記,および,未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する.提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う.Web から収集した 10 万文を対象とした実験の結果,既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し,解析が悪化する箇所は 80 箇所程度,速度低下は 6% のみであることを確認した.

1 0 0 0 OA R. B. について

著者
二宮 崇
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.4, pp.936-937, 2021 (Released:2021-12-15)
著者
Manabu Okumura Kiyoaki Shirai Kanako Komiya Hikaru Yokono
出版者
The Association for Natural Language Processing
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.18, no.3, pp.293-307, 2011 (Released:2011-10-04)
参考文献数
12
被引用文献数
4 4

An overview of the SemEval-2 Japanese WSD task is presented. The new characteristics of our task are (1) the task will use the first balanced Japanese sense-tagged corpus, and (2) the task will take into account not only the instances that have a sense in the given set but also the instances that have a sense that cannot be found in the set. It is a lexical sample task, and word senses are defined according to a Japanese dictionary, the Iwanami Kokugo Jiten. This dictionary and a training corpus were distributed to participants. The number of target words was 50, with 22 nouns, 23 verbs, and 5 adjectives. Fifty instances of each target word were provided, consisting of a total of 2,500 instances for the evaluation. Nine systems from four organizations participated in the task.
著者
笹田 鉄郎 森 信介 山肩 洋子 前田 浩邦 河原 達也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.2, pp.107-131, 2015-06-16 (Released:2015-09-16)
参考文献数
32
被引用文献数
2 5

自然言語処理において,単語認識(形態素解析や品詞推定など)の次に実用化可能な課題は,ある課題において重要な用語の認識であろう.この際の重要な用語は,一般に単語列であり,多くの応用においてそれらに種別がある.一般的な例は,新聞記事における情報抽出を主たる目的とした固有表現であり,人名や組織名,金額などの 7 つか 8 つの種別(固有表現クラス)が定義されている.この重要な用語の定義は,自然言語処理の課題に大きく依存する.我々はこの課題をレシピ(調理手順の文章)に対する用語抽出として,レシピ中に出現する重要な用語を定義し,実際にコーパスに対してアノテーションし,実用的な精度の自動認識器を構築する過程について述べる.その応用として,単純なキーワード照合を超える知的な検索や,映像と言語表現のマッチングによるシンボルグラウンディングを想定している.このような背景の下,本論文では,レシピ用語タグセットの定義と,実際に行ったアノテーションについて議論する.また,レシピ用語の自動認識の結果を提示し,必要となるアノテーション量の見通しを示す.
著者
叶内 晨 北川 善彬 荒牧 英治 岡崎 直観 小町 守
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.363-395, 2015-12-14 (Released:2016-03-14)
参考文献数
49

ソーシャルメディアサービスの普及により,人々や社会の状況を調査する新しいアプローチが開拓された.ひとつの応用事例として,ソーシャルメディアの投稿から疾患・症状の流行を検出する公衆衛生サーベイランスがある.本研究では,自然言語処理技術を応用して,ソーシャルメディアの投稿から風邪やインフルエンザなどの罹患を検出するタスクに取り組んだ.最先端のシステムのエラー分析を通じて,事実性解析と主体解析という重要かつ一般性のあるサブタスクを見い出した.本研究では,これらのサブタスクへの取り組みを行い,罹患検出タスクへの貢献を実証した.
著者
永田 亮 河合 綾子 須田 幸次 掛川 淳一 森広 浩一郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.17, no.2, pp.2_51-2_65, 2010 (Released:2011-06-23)
参考文献数
22

自然言語処理や言語学においてコーパスは重要な役割を果たすが,従来のコーパスは大人の文章を集めたコーパスが中心であり,子供の文章を集めたコーパスは非常に少ない.その理由として,子供のコーパスに特有の様々な難しさが挙げられる.そこで,本論文では,子供のコーパスを構築する際に生じる難しさを整理,分類し,効率良く子供のコーパスを構築する方法を提案する.また,提案方法で実際に構築した「こどもコーパス」についても述べる.提案方法により,81人分(39,269形態素)のコーパスを構築することができ,提案方法の有効性を確認した.この規模は,公開されている日本語書き言葉子供コーパスとしては最大規模である.また,規模に加えて,「こどもコーパス」は作文履歴がトレース可能であるという特徴も有する.
著者
松浦 孝平 三村 正人 河原 達也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.3, pp.824-846, 2021 (Released:2021-09-15)
参考文献数
49

本稿では,アイヌ民話(ウウェペケㇾ)の音声認識に関する我々の取り組みについて述べる.まず,2 つの博物館から提供されたアイヌ語アーカイブのデータを元に,沙流方言を対象としたアイヌ語音声コーパスを構築した.次に,このコーパスを用いて注意機構モデルに基づく音声認識システムを構成し,音素・音節・ワードピース・単語の 4 つの認識単位について検討した.その結果,音節単位での音声認識精度が最も高くなることがわかり,話者クローズド条件と話者オープン条件のそれぞれについて,音素認識精度で 93.7% と 86.2%,単語認識精度で 78.3% と 61.4% を実現した.音声認識精度が話者オープン条件において大幅に低下する問題に対して,CycleGAN を用いた教師なし話者適応を提案した.これは,学習データ内の話者の音声から認識対象話者の音声への写像を CycleGAN に学習させ,学習データ内の音声を全て認識対象話者風の音声に変換するものである.本手法によって最大で相対 60.6% の音素誤り率の改善を得た.さらに,日本語とアイヌ語が混合した音声における言語識別についても検討を行い,音素認識と単語認識を用いた構成で一定の識別性能を達成できることを示した.
著者
松田 寛
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.27, no.3, pp.695-701, 2020-09-15 (Released:2020-12-15)
参考文献数
6
被引用文献数
1
著者
Srdanović Irena Hodošček Bor Bekeš Andrej 仁科 喜久子
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.4, pp.4_29-4_46, 2009 (Released:2011-07-28)
参考文献数
23
被引用文献数
1

日本語におけるモダリティ形式および推量副詞と文末モダリティ形式との共起についての体系的な研究は自然言語処理の分野において不十分である.さらに,このような情報は日本語教育の分野においても十分カバーされていない.本稿では,コーパス検索ツール Sketch Engine (SkE) を利用した日本語の推量副詞とモダリティ形式の遠隔共起の抽出を可能にすることとその日本語教育,特に日本語学習辞典への応用の可能性を示すことを目的とする.そのためにまず,複数のコーパスを分析した結果として,モダリティ形式とそのバリエーションの網羅的なリストを作成した.このモダリティ形式は ChaSen でどのように形態素解析されているかを調査し,各モダリティ形式の様々な形態素を新しいモダリティのタグとしてまとめることによって,ChaSen で形態素解析されている JpWaC という大規模ウェブコーパスから抽出した 2 千万語のサンプルへタグの再付与を行った.最後に,新しくタグ付けされたコーパスをコーパス検索ツール SkE に載せ,「文法関係ファイル」の内容を変更することで,推量副詞と文末モダリティの共起の抽出を可能にした.抽出された共起の結果は 93% 以上の精度で高く評価された.得られた結果は言語資源を利用しての日本語教育への応用の一例として,日本語教育における辞書編集をはじめ様々な教育資源の作成のために,あるいは教室における直接的に利用可能となることを示した.
著者
三田 雅人 水本 智也 金子 正弘 永田 亮 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.1, pp.160-182, 2021 (Released:2021-03-15)
参考文献数
42
被引用文献数
1

文法誤り訂正の既存研究の多くはこれまで主に CoNLL-2014 評価データセットを用いた単一コーパス上で文法誤り訂正モデルを評価してきた.しかし,書き手の習熟度やエッセイのトピックなど様々なバリエーションのある入力文が想定される文法誤り訂正タスクにおいて,タスクの難易度は各条件下によって異なるため,単一コーパスによる評価では不十分であると考えられる.そこで本研究では,文法誤り訂正の評価の方法論として,単一コーパス評価は不十分であるという仮説に基づきコーパス横断評価の必要性について調査を行う.具体的には,4 種類の手法 (LSTM, CNN, Transformer, SMT) を 6 種類のコーパス (CoNLL-2014, CoNLL-2013, FCE, JFLEG, KJ, BEA-2019) で評価し,各コーパス間でモデル順位にばらつきが生じるかについて検証を行った.評価実験の結果,モデル順位は各コーパスによって大きく変動したため,既存の単一コーパス評価では不十分であることがわかった.また,横断評価はメタ評価方法としてだけではなく,実応用を見据えた場合においても有用であると考えられる.そこで,横断評価の有用性のケーススタディとして,文法誤り訂正の入力に想定される代表的な条件の一つである,書き手の習熟度を評価セグメントとした場合の横断評価について調査を行った.その結果,書き手の習熟度が初中級レベルと上級レベル間ではモデルの性能評価に関して大きな乖離があることがわかった.