著者
笹田 鉄郎 森 信介 山肩 洋子 前田 浩邦 河原 達也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.2, pp.107-131, 2015-06-16 (Released:2015-09-16)
参考文献数
32
被引用文献数
2 5

自然言語処理において,単語認識(形態素解析や品詞推定など)の次に実用化可能な課題は,ある課題において重要な用語の認識であろう.この際の重要な用語は,一般に単語列であり,多くの応用においてそれらに種別がある.一般的な例は,新聞記事における情報抽出を主たる目的とした固有表現であり,人名や組織名,金額などの 7 つか 8 つの種別(固有表現クラス)が定義されている.この重要な用語の定義は,自然言語処理の課題に大きく依存する.我々はこの課題をレシピ(調理手順の文章)に対する用語抽出として,レシピ中に出現する重要な用語を定義し,実際にコーパスに対してアノテーションし,実用的な精度の自動認識器を構築する過程について述べる.その応用として,単純なキーワード照合を超える知的な検索や,映像と言語表現のマッチングによるシンボルグラウンディングを想定している.このような背景の下,本論文では,レシピ用語タグセットの定義と,実際に行ったアノテーションについて議論する.また,レシピ用語の自動認識の結果を提示し,必要となるアノテーション量の見通しを示す.
著者
前田 浩邦 山肩 洋子 森 信介
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.113, no.214, pp.37-42, 2013-09-12

料理は複数の材料に対しそれぞれ加工を加えたり,混ぜ合わせたりしながら,一つの料理を作り出していく流れ作業である.よってこれまでも,レシピの表現形式のひとつとして,作業フローグラフが用いられてきた.従来も,レシピテキストを半自動でフローグラフに変換する研究が行われていたが,これらの研究で対象としていたレシピは,プロの料理人や編集者により製作されたものであり,すでに規格がある程度統一されているため,ルールを適応することが比較的容易であったと考えられる.一方,Web上で最も多いのはCOOKPADや楽天レシピに掲載されているようなユーザ投稿型のレシピであるが,これらのレシピは表現の自由度が高く,従来型のルールにあてはめることが困難である.そこで本研究では,投稿型のレシピテキストをフローグラフに変換する際のデータフォーマットを提案する.さらに,特徴的であった事例を複数紹介する.