著者
山田 洋志 竹元 義美
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.281-282, 1996-03-06

コンピュータ上で作成される文章の量は年々増加している。文章の作り方も,以前の推敲済みの文章の清書用としての使われ方から,下書き・推敲段階を含めた使い方に変わってきている。それに伴い,文章の誤りを自動的に見つけ出し,あるいは,文章の読みやすさについて助言する校正支援システムの有用性も増している。現在,多くの校正支援システムでは文書中の誤りを検出するために,大量の校正知識(用例や誤り例)を利用している。こういった大量の知識の収集や選別には,大きなコストがかかる。しかし,ユーザや文書内容などによって対象を限定すれば,はるかに少ないデータで効果をあげられるはずである。われわれは,個人あるいは共同作業をするグループの文書作成支援について研究を行っており,その一環として,文字の抜け,カタカナ語表記や同音語選択の誤りなどの表層の誤り検出を目的とした校正支援機能の開発を行っている。本報告では,誤り検出のために,入力されたテキストと過去に作成されたテキストとを比較し,差分が小さい場合に検出対象とする方式について述べる。
著者
山田 洋志 福島 俊一 松田 勝志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.29, pp.143-150, 2000-03-21
参考文献数
4
被引用文献数
6

ユーザの目的に応じた情報検索・情報提供を実現するために,ページタイプ分類を利用した情報抽出・分類方式を提案し,試作システムで精度を評価した.本方式では,ページタイプ分類を使用することで,それぞれのページタイプに適した抽出・分類処理を行える.そのため,多くの種類の文書が混在するWebページに対しても必要な情報だけを高い精度で抽出することができる.また,分類結果を表や図を用いてユーザに提示することで特定の目的に応じた情報を提供するサービスを実現できる.試作システムによる求人情報とイベント情報の抽出精度の評価では,記述が比較的一定している勤務地や開催日時などの情報で適合率90%以上を達成した.記述の自由度が高い,求人の応募資格やイベント名では65?75%にとどまっている.検索誤りの主な原因は,情報を判別するキーワードのミスマッチと,表や箇条書きの前後からの抽出の誤りであった.抽出もれの原因としては,表や箇条書きのパターンや情報判別用のキーワードのの不足が主なものであった.This paper describes a novel information extraction method which realizes task oriented information retrieval. This method uses page-type classification method which judges type of Web pages. Introducing the page-type concept, extraction systems can select appropriate algorithm or rules for the target page-type. Hence, extraction performances will be increased. This paper also demonstrates accuracy of extraction. Extraction precisions of work place at help-wanted advertisement and date at event information are 90% and over, since these information are relatively set. Precisions of requirement at help-wanted advertisement and event name at event information are unfortunately between 65% and 75%, because there are many description styles of these information. The causes of the extraction errors is mismatches of keywords and extracting errors from table captions. The extraction omissions are caused by lack of pattern, namely, table, article, keyword and so on.
著者
山田洋志 白石展久 有熊威 亀井真一郎 河又恒久
雑誌
第73回全国大会講演論文集
巻号頁・発行日
vol.2011, no.1, pp.551-552, 2011-03-02

各種のセンサで収集したデータを解析エンジンで解析した結果を効率的かつ<br />低コストで利用するためのアーキテクチャを提案する.解析エンジンとアプ<br />リケーションとの間に解析結果を管理し,蓄積・検索機能を提供する中間層<br />を用意し,アクセスのためのインターフェースを定義する.これによって解<br />析結果を利用するアプリケーションの構築を容易にし,また,解析エンジン<br />のシステムでの利用を簡易にする.
著者
福島 俊一 山田 洋志
雑誌
全国大会講演論文集
巻号頁・発行日
vol.49, pp.259-260, 1994-09-20
被引用文献数
1

近年、ペンを用いて文字の入力やコンピュータの操作を行なうペンコンピューティングヘの期待が、急速に高まってきている。キーボードと比べたペンコンピューティングの利点は、(a)小型化が可能であることや、(b)初心者にもなじみやすいことである。携帯端末では(a)の利点が活かされ、ペンワープロでは(b)の利点が活かされている。しかし、ペンによる手書き操作で日本語入力を行なうと、現状では、誤認識の発生や漢字の画数の多さなどからキーボードよりも入力効率が大きく劣る。この欠点は、ペンワープロのような文書作成の用途で特に問題になる。ペンベース文書作成より快適なものにするには、ペンによる日本語入力の効率改善が必要である。この改善のために、従来、オンライン文字認識の性能向上だけでなく、文字認識後処理や交ぜ書き漢字変換なども取り入れられてきた。さらに筆者らは、効率をいっそう高める新手法として予測ペン入力インタフェースを提案している。本稿では、その予測実現方式と手書き操作の削減効果について報告する。
著者
竹元 義美 福島 俊一 山田 洋志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.6, pp.1580-1591, 2001-06-15
被引用文献数
5

日本語テキストからの情報抽出の基盤技術として,組織名・人名・地名・固有物名・日付・時刻・金額・割合表現を高精度で分類抽出する,固有表現抽出システムを開発した.本システムは,形態素解析を利用して入力文を単語分割し,固有表現辞書とパターンマッチルールとを適用することでテキスト中の固有表現を判定するというベーシックなアプローチをとっている.辞書の充実とルールの整備を基本方針として抽出精度の改善を進め,辞書の増強と辞書情報の詳細化,人手によるルール作成を行った.また,辞書を充実させても生じる課題として,複合語の一部となる固有名詞判定と未知語・多義語の固有名詞判定とに工夫を加えた.前者は,複合語を分割して複合語中の固有名詞を判定することにより,固有名詞の抽出洩れを救済する.後者は,ルールで判定した固有名詞で信頼度の高いものをもとに,未知語・多義語となった固有名詞の省略表現を判定する.IREX-NEコーパス(トピックを限定しない一般的な内容の記事)を用いた精度評価を実施し,F値で83.86という精度を得た.また,導入したルール・処理の効果も分析し,有効性を確認した.We have developed a Named Entity extraction system from Japanese text.``Named Entities'', i.e.,proper names and temporal/numerical expressions are considered as the essential elements for extracting information.The system employs a conventional method that it divides input Japanese text into words and parts of speech by morphological analysis and extracts each Named Entity by referencing dictionaries and applying pattern-matching rules.In order to improve the system's accuracy,we aim to build a large-scale and high-quality dictionary and rules.Both the dictionary and rules have been produced manually,because we believe that a hand-made dictionary or rules have better quality than those that are made automatically.We also focused our attention on two points for cases that cannot be covered by the dictionary.One is to extract proper names from compound words,and the other is to designate unknown or vague words as proper names.For the first point, our system divides compound words and determines proper names within them.Thus, omissions of proper names in compound words can be eliminated.For the second point, our system recognizes abbreviations of proper names,which tend to be unknown or vague, using reliable proper names.For the IREX-NE corpus, our system has accomplished 83.86 as F-measure score.