- 著者
-
山肩 洋子
今堀 慎治
森 信介
- 出版者
- 東京大学
- 雑誌
- 基盤研究(B)
- 巻号頁・発行日
- 2014-04-01
本研究の目的は,Webにある膨大な数のレシピの集合が本質的にどの程度の多様性を持っているのか,足りないのか十分なのか,何が足りないのかを明らかにすることである.そこで本研究では,(i)自然言語処理技術によりレシピ記述から手順構造を抽出し,(ii)手順と記述の観点からレシピ間の関係を解析するとともに,(iii)全体の知識を使って補完可能な欠損を補完することで,レシピ集合が持つ本質的な多様性を解析する機構を構築する.今年度は以下の2点を行った.(1) 国際化に向けた英語対応:Webレシピの急増は日本だけでなく世界で起こっている現象である.米国最大手のAllrecipesの月間ページビューは推定2,000万件で,クックパッドの実に3倍以上である.さらに料理レシピが世界の情報処理の研究対象として国際的に認知されつつある.そこで,平成28年度,英文係り受け解析器RASPの開発で著名なJohn Carroll氏の協力を得て,英文レシピのフローグラフコーパスを開発した.今年度はこれを我々が開発した手法で実装することで,固有表現認識精度が84.8%,固有表現が正しく認識されているときの依存関係推定精度74.1%を達成した.また,和文と英文のレシピの構造的な相違を統計分析により明らかにした.(2) レシピテキストの記述粒度の自動変換:肉じゃがやハンバーグのような代表的な和食は数千からときに数万のレシピが見つかる.同じ料理名をもつレシピのうち,その主たる調理方法が似通っているとき,それらは似た調理手順を説明した異なる記述であると考える.ここで,片方のレシピがもち,もう片方のレシピが持っていない説明は,その手順の詳細説明であると考えられることから,この関係を用いて詳細記述を生成した.また,双方が持つノードはその手法の主幹であることから,それらを取り出したフローを簡略な表現と位置付けた.