著者
田中 るみ子 中山 伸一
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
ケモインフォマティクス討論会予稿集 第41回ケモインフォマティクス討論会 熊本
巻号頁・発行日
pp.1A04, 2018 (Released:2018-10-26)
参考文献数
9

特許公開公報に記載されている化学物質名は、多様であり、記載法も書き手に委ねられているため共有化を妨げている。化学物質名を自動抽出できれば、共有化に役立つ。日本語の化学物質名を抽出するために、化学物質名をタグ付けしたコーパスの作成を行い、文章から単語の切り出し、切り出した単語の連結、連結した単語群から化学物質名を取り出す方法を検討した。化学物質名と間違えやすい官能基名との選別比較も行った。
著者
田中 るみ子 中山 伸一
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
ケモインフォマティクス討論会予稿集 第40回ケモインフォマティクス討論会 山口
巻号頁・発行日
pp.P5, 2017 (Released:2017-10-19)
参考文献数
2

特許公開公報に記載されている化学物質名は、多様であり、記載法も書き手に委ねられているため共有化を妨げている。化学物質名を自動抽出できれば、共有化に役立つ。現状を把握するために特許公開公報(化学分野)において、化学物質名の出現頻度、記載法を調査、分析した。化学物質を単一物質、混合物、高分子など種類別にタグ付けを行い、各文書における種類別の化学物質名の頻度を比較した。化学物質名を抽出する試みとして、まず形態素解析を用いた化学物質名の単離と、化学物質名に特有な文字に着目した化学物質名の選出結果を示した。