著者
荒牧 英治 若宮 翔子 矢野 憲 永井 宥之 岡久 太郎 伊藤 薫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.1, pp.119-152, 2018-02-15 (Released:2018-05-15)
参考文献数
15
被引用文献数
3 9

高度な人工知能研究のためには,その材料となるデータが必須となる.医療,特に臨床に関わる分野において,人工知能研究の材料となるデータは主に自然言語文を含む電子カルテである.このようなデータを最大限に利用するには,自然言語処理による情報抽出が必須であり,同時に,情報抽出技術を開発するためのコーパスが必要となる.本コーパスの特徴は,45,000 テキストという我々の知る限りもっとも大規模なデータを構築した点と,単に用語のアノテーションや用語の標準化を行っただけでなく,当該の疾患が実際に患者に生じたかどうかという事実性をアノテーションした点の 2 点である.本稿では病名や症状のアノテーションを対象に,この医療コーパス開発についてその詳細を述べる.人工知能研究のための医療コーパス開発について病名や症状のアノテーションを中心にその詳細を述べる.本稿の構成は以下の通りである.まず,アノテーションの基準について,例を交えながら,概念の定義について述べる.次に,実際にアノテーターが作業した際の一致率などの指標を算出し,アノテーションのフィージビリティについて述べる.最後に,構築したコーパスを用いた病名抽出システムについて報告する.本稿のアノテーション仕様は,様々な医療テキストや医療表現をアノテーションする際の参考となるであろう.
著者
永井 宥之
出版者
京都大学大学院人間・環境学研究科言語科学講座
雑誌
言語科学論集 = Papers in linguistic science
巻号頁・発行日
vol.23, pp.1-18, 2017-12

話し手が何を根拠に文を述べるかということは、言語表現に反映されることがある。話し手が文を述べる際の情報源は、知覚を通じて得られた情報もあれば、話し手の記憶に基づく場合もある。話し手がある文を述べる際にどのような情報を根拠に述べているかということを示す機能をもつ文法カテゴリーは、エビデンシャリティ(evidentiality) と呼ばれる。また、話し手が依拠する情報源を表すための、個別の言語形式はエビデンシャル (evidential) と呼ばれる。エビデンシャリティは通言語的な概念であり、さまざまな言語で記述が進められている(cf. Chafe and Nichols 1986, Aikhenvald 2004, Diewald and Smirnova 2010c)。しかしながら、日本語のエビデンシャリティの記述は、質・量ともに充実しているとはいい難い。本論文の目的は、これまでアスペクト形式として分析されてきた「-ている」のエビデンシャリティ的側面を分析することにより、日本語におけるテンス・アスペクトとエビデンシャリティの不可分性を示し、今後の日本語エビデンシャリティ研究の方向性を示すことである。まず、2節では、エビデンシャリティの概念について導入するとともに、日本語のエビデンシャリティについての研究を概観し、その記述の問題点を指摘する。これによって、日本語エビデンシャリティの記述において考慮すべき点を明らかにする。3節では、事例研究として、従来テンス・アスペクトの標識として分析されてきた「-ている」を取り上げ、そのエビデンシャリティ的側面を観察する。これによって、従来テンス・アスペクトの標識として分析されてきた表現が、エビデンシャルとして分析可能であることを示す。4 節では本論文での議論をまとめ、今後の展望を述べる。