著者
安部 文紀
出版者
電気通信大学
巻号頁・発行日
2018-03-23

学術論文の投稿や検索に特化した Web サービスの台頭によって, 論文を大量に入手できるようになった. これに伴い, 「論文を読むべきかどうか判断する機会」と, 概要を思い出すために「論文を読み返す機会」が増えた. 一般的にこのような機会には論文のタイトルやアブストラクトが読まれるが, タイトルとアブストラクトよりも短く, かつ印象に残りやすい文章が論文に付与されていれば, 「論文を読むべきか判断する手間」と「概要を思い出す手間」が軽減することが期待される. そこで本研究では, 論文をタイトルとアブストラクトよりも少ない文章量で, かつ印象に残りやすく要約するために, 古来より親しまれてきた俳句や川柳のような 575 の持つ音韻的読みやすさを付与した要約文が望ましいと考え, 学術論文の新たな要約手段として 575 形式のキャッチフレーズで論文を表現する「575 自動生成手法」を提案する. 575 自動生成手法は, 「特徴語抽出」と「575 候補生成」, 候補絞り込みのための「合議制スコアリング」の 3 つのモジュールから構成される. 特徴語抽出では, 入力する論文における単語の出現頻度に加えて, 論文の持つ意味を加味した単語スコアリングによって特徴語を決定する. 575 候補生成では, ソフトウェア工学関連の学会論文集から人手で作成した 575 を基に, 575 テンプレートを作成し, 特徴語を当てはめることで 575 候補を生成する. 合議制スコアリングでは, 人手で 575 を作成する工程で得た知見を反映させた評価指標によって 575 候補をスコアリングし, 最終的な出力を決定する. 評価実験では, 575 自動生成手法を学術論文に適用したときに自動生成された 575 (論文 575) を用いて, 論文タイトルと比較するユーザスタディを行った結果, タイトルよりも少ない文章量で論文概要を表現できることを確認した. また, 論文 575 から受ける印象を人手生成の 575 と比較したところ, 手製のものより劣る結果となった. そのため, 人間の印象に残りやすい論文 575 を生成する手法の探求を今後の課題とする.