著者
木村 泰知 近藤 隆史 門脇 一真 加藤 誠
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会第二種研究会資料 (ISSN:24365556)
巻号頁・発行日
vol.2022, no.FIN-029, pp.32-38, 2022-10-08 (Released:2022-10-01)

This paper proposes an Understanding of non-Financial Objects in Financial Reports (UFO) task. The UFO task aims to develop techniques for extracting structured information from tabular data and documents, focusing on annual securities reports. We will provide a dataset based on annual securities reports and organize an evaluation-based workshop for participants. The UFO task consists of two subtasks: table data extraction (TDE) and text-to-table relationship extraction (TTRE). The table data extraction subtask aims to extract the correct entries and values in the tables of the annual securities reports. The text-to-table relationship extraction subtask aims to link the values contained in the tables with the relevant statements in the text. In this paper, we describe an overview of the UFO task.
著者
門脇 一真 木村 泰知 加藤 誠 近藤 隆史 乙武 北斗
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会第二種研究会資料 (ISSN:24365556)
巻号頁・発行日
vol.2023, no.FIN-030, pp.100-105, 2023-03-04 (Released:2023-03-04)

我々は,有価証券報告書(有報)に含まれるさまざまなタイプの表の理解を目的に,表構造解析を行うタスクを計画している.有報にはタクソノミがテキストブロックとして定義された箇所があり,特に非財務情報を表現する表には様々なタイプが含まれる.既存研究を参考に有報の表の各セルをヘッダ,属性,データといったクラスに分類した結果,既存研究で分類された関係表,エンティティ表,行列表などのいずれのパターンにも分類されない複雑な構造の表が見られ,さらにそれらの構造がいくつかのパターンに分類できた.本稿ではまず,各セルの分類方法と,その結果発見された表構造のパターンについて報告する.これらのうちセルが正しく分類できた表については,NTCIR-17 UFOタスクの表データ抽出(TDE)サブタスクでアノテーションデータを公開し,評価型ワークショップとして取り組めるようにする予定である.本稿ではこのタスクのデータ形式,評価方法についても取り上げる.