著者
小谷 亮太 綱川 隆司 西田 昌史 西村 雅史
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.306-314, 2018-02-15

本稿では,日本語文書中の語句に,Wikipedia記事へのリンクを付与するwikificationタスクにおいて,リンク付与に値する重要な語句等を選択するアンカー抽出器について検討を行う.本研究ではWikipediaにおけるリンクのガイドラインに準じたアンカー抽出基準をベースに,文書に適度にリンクを付与してWikipedia記事と結び付けることにより,文書の理解の可能性を高めることをねらいとする.日本語におけるアンカー抽出に有効と考えられる素性として,アンカーの前接語・後接語との関係をとらえた素性,および共起するアンカーの条件付きkeyphraseness素性の利用を提案する.また,一般的な日本語文書に対するアンカー抽出器の性能評価を行うため,日本語Wikificationコーパスに対して本研究で定めたアンカー抽出基準に従ってアンカー抽出作業を行い,評価用コーパスを構築した.評価実験により,提案した素性を既存手法に加えることで性能が改善することが示された.また,評価用コーパスを用いた実験では,正解率においてアンカー抽出作業者の2者間一致率の平均と同程度の性能が得られていることを確認した.