著者
矢野 憲 伊藤 薫 若宮 翔子 荒牧 英治
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

医療テキストには,非文法的かつ断片化した表現が多く含まれるため利活用が進んで行われてこなかった.本研究では,文字ベースBi-LSTM-CRFにより,医療テキストから病名,症状名を抽出する事象認識器を提案し,その性能評価を行った.提案手法は事象認識(ER)と事実性判定(P/N分類)を同時に処理することで,医療テキストに記述される陽性,陰性の所見を独立した事象として抽出を行う.
著者
荒牧 英治 若宮 翔子 矢野 憲 永井 宥之 岡久 太郎 伊藤 薫
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.25, no.1, pp.119-152, 2018-02-15 (Released:2018-05-15)
参考文献数
15
被引用文献数
3 9

高度な人工知能研究のためには,その材料となるデータが必須となる.医療,特に臨床に関わる分野において,人工知能研究の材料となるデータは主に自然言語文を含む電子カルテである.このようなデータを最大限に利用するには,自然言語処理による情報抽出が必須であり,同時に,情報抽出技術を開発するためのコーパスが必要となる.本コーパスの特徴は,45,000 テキストという我々の知る限りもっとも大規模なデータを構築した点と,単に用語のアノテーションや用語の標準化を行っただけでなく,当該の疾患が実際に患者に生じたかどうかという事実性をアノテーションした点の 2 点である.本稿では病名や症状のアノテーションを対象に,この医療コーパス開発についてその詳細を述べる.人工知能研究のための医療コーパス開発について病名や症状のアノテーションを中心にその詳細を述べる.本稿の構成は以下の通りである.まず,アノテーションの基準について,例を交えながら,概念の定義について述べる.次に,実際にアノテーターが作業した際の一致率などの指標を算出し,アノテーションのフィージビリティについて述べる.最後に,構築したコーパスを用いた病名抽出システムについて報告する.本稿のアノテーション仕様は,様々な医療テキストや医療表現をアノテーションする際の参考となるであろう.