著者
福島 俊一 藤巻 遼平 岡野原 大輔 杉山 将
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.60, no.8, pp.543-554, 2017-11-01 (Released:2017-11-01)
参考文献数
30
被引用文献数
3

機械学習技術を用いることで,過去の事例・観測データからの学習に基づく,モノやコトの判別・分類,予測,異常検知等の知的な判断をコンピューターで実現可能になる。ビッグデータの活用と相まって,さまざまな問題解決に機械学習技術の適用が広がっている。本稿では,問題解決への適用という視点から重要と考える技術的チャレンジの方向性として,(1)学習結果の解釈性の確保,(2)機械学習から意思決定まで通した解法の実現,(3)深層学習の高速化・高効率化,(4)機械学習型システム開発方法論の確立,という4点について述べる。
著者
小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.12, no.3, pp.203-222, 2005
被引用文献数
57

近年, web上に多数存在する掲示板などの文書から, 意見を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には, 評価を表す表現が重要な手がかりとなるが, それらの表現には「燃費がよい」「CGがきれい」といった領域依存の表現が多数存在するため, 人手で書き尽くすことは困難である.そこで, 我々は, 評価対象表現, 属性表現, 評価表現の共起情報を利用して, これら領域依存の表現を効率的に収集することを試みた.本稿では, 共起パタンに基づく属性・評価値表現の半自動的収集方法を提案し, 「コンピュータ」と「ゲーム」の2つの領域を対象に, 人手と提案手法で行なった収集効率実験の結果について報告する.
著者
竹元 義美 福島 俊一
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.77(1994-NL-103), pp.105-112, 1994-09-15

日本語文章の口語的表現に対応した形態素解析手法を提案し、その評価結果を報告する。広い分野のテキスト処理を想定した場合に口語的表現の形態素解析は重要であるものの、その精度は十分とは言えなかった。本稿では、口語的表現を正しく形態素解析するために2つの手法を示す。1つは、口語特有の言い回しを辞書登録すること、もう1つは、通常は平仮名表記する語を意図的に片仮名表記するなど、表記を変えた強調表現を通常の表記に直して辞書検索することである(口語置換検索処理)。これらの手法を実現した結果、口語的表現を多く含むテキストの文節区切り精度が1.8%向上し、テキストのタイプによらず安定した高い精度を得ることができた。辞書登録では、話し言葉特有の語の登録によって、文節区切りに失敗していた話し言葉の88%を正しく解析できた。口語置換検索処理では、形態素解析に失敗していた意図的な片仮名表記の75%、強調表現で特殊文字を含む単語の79%を救済できた。
著者
竹元 義美 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1994, no.77, pp.105-112, 1994-09-15
被引用文献数
2

日本語文章の口語的表現に対応した形態素解析手法を提案し、その評価結果を報告する。広い分野のテキスト処理を想定した場合に口語的表現の形態素解析は重要であるものの、その精度は十分とは言えなかった。本稿では、口語的表現を正しく形態素解析するために2つの手法を示す。1つは、口語特有の言い回しを辞書登録すること、もう1つは、通常は平仮名表記する語を意図的に片仮名表記するなど、表記を変えた強調表現を通常の表記に直して辞書検索することである(口語置換検索処理)。これらの手法を実現した結果、口語的表現を多く含むテキストの文節区切り精度が1.8%向上し、テキストのタイプによらず安定した高い精度を得ることができた。辞書登録では、話し言葉特有の語の登録によって、文節区切りに失敗していた話し言葉の88%を正しく解析できた。口語置換検索処理では、形態素解析に失敗していた意図的な片仮名表記の75%、強調表現で特殊文字を含む単語の79%を救済できた。This paper presents a new morphological analysis method for colloquial Japanese text, and describes its evaluation results. To enlarge application for natural language processing, it is necessary to deal with not only written language as before, but also colloquial language. This paper shows two techniques as the new method. One is to enter words peculiar to spoken language in dictionaries. The other is to replace words written in Katakana or special characters with usual writing and search through dictionaries for them. The two techniques can improve Bunsetsu-segmentation accuracy by 1.8% over a conventional method for text including colloquial expressions, and also accomplish stable accuracy for various types of text. The first technique can remove 88% of Bunsetsu-segmentation failures caused by spoken words. The second technique can remove 75% of failures caused by words written in Katakana expressly for emphasis, and 79% of failures caused by words written in special characters expressly for emphasis.
著者
木谷強 小川 泰嗣 石川 徹也 木本 晴夫 中渡瀬 秀一 芥子 育雄 豊浦 潤 福島 俊一 松井 くにお 上田 良寛 酒井 哲也 徳永 健伸 鶴岡 弘 安形 輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.2, pp.15-22, 1998-01-19
被引用文献数
33

日本語情報検索システム評価用テストコレクションBMIR-J2は、情報処理学会データベースシステム研究会内のワーキンググループによって作成されている。BMIR-J2は1998年3月から配布される予定であるが、これに先立ち、テスト版としてBMIR-J2が1996年3月からモニタ公開された。J1は50箇所のモニタに配布され、多数の研究成果が発表されている。BMIR-J2では、J1に対するモニタユーザからのアンケートの回答と、作成にあたったワーキングループメンバの経験をもとに、テストコレクションの検索対象テキスト数を大幅に増やし、検索要求と適合性判定基準も見直した。本論文では、BMIR-J2の内容とその作成手順、および今後の課題について述べる。BMIR-J2, a test collection for evaluation of Japanese information retrieval systems to be released in March 1998, has been developed by a working group under the Special Interest Group on Database Systems in Information Processing Society of Japan. Since March 1996, a preliminary version called BMIR-J1 has been distributed to fifty sites and used in many research projects. Based on comments from the BMIR-J1 users and our experience, we have enlarged the collection size and revised search queries and relevance assessments in BMIR-J2. In this paper, we describe BMIR-J2 and its development process, and discuss issues to be considered for improving BMIR-J2 further.
著者
福島 俊一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.46, no.6, pp.363-372, 2003 (Released:2003-09-01)
参考文献数
16
被引用文献数
1

Webサーチエンジンは,インターネット上の膨大な数のWebページ群の中から,ユーザが欲しい情報を見つけ出せるように用意された,いわばインターネットの道案内システムである。本論文では,このWebサーチエンジンの背後にある情報検索技術を,基本技術編と最新技術編の2回に分けて解説する。基本技術編では,まず伝統的な情報検索技術に関して全文インデックス方式,検索結果のランキング方式,関連語を考慮した検索方式などを概観した上で,Webサーチエンジンの基本技術として,その仕組みやWeb特有のランキング手法を解説する。最新技術編では,リンク解析の高度化,目的特化,ユーザや状況への適応など,Webサーチエンジン技術にかかわる新しい話題を取り上げる。
著者
福島 俊一
出版者
一般社団法人 情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.54, no.2, pp.66-71, 2004-02-01 (Released:2017-05-25)
被引用文献数
2

本稿では,ウェブ検索エンジンの技術の発展を概観する。ウェブはきわめて大規模で多様な内容をもち,日々変化する鮮度の高いハイパーメディアである。このような特徴をもつウェブを魅力的な情報源として活用するための手段として,ウェブ検索エンジンは発展してきた。第一世代の技術はデータベースを利用しながらも人海戦術が基本であった。第二世代の技術はクローラによる自動収集と並列全文検索によって大規模化を推し進めた。第三世代の技術はウェブのリンク関係に着目することで高精炭化を実現した。新たな技術発展として,目的特化と状況適応への取り組みが進められている。
著者
福島 俊一 下村 秀樹 森 義和
雑誌
全国大会講演論文集
巻号頁・発行日
vol.第50回, no.人工知能及び認知科学, pp.65-66, 1995-03-15

郵便物の宛名住所のようにフリーピッチで書かれた手書き文字列は、字形が多様で、文字サイズにばらつきがあり、文字の接触・入組みなどもよく起きる。したがって、その読取りでは、誤切出し/誤認識によって欠落した正解文字を補完可能な知識処理が不可欠である。現在主流となっている知識処理の枠組みは、まず、各文字位置(セグメント)に複数通りの可能性(候補文字)を許した認識結果文字列と単語辞書とを照合し、さらに、単語の並びとしての妥当性を判定して読取り結果を決定する2段構成である。正解文字の欠落には、1段目の単語照合で虫食い照合を行うことで対処する。しかし、このような従来の枠組みは、フリーピッチ手書き文字列の読取りを正確かつ効率よく行うのに、まだ十分なものとは言えない。第一に、例えば「川崎市宮前区」の「市宮」が接触して1セグメントとされてしまったときなど、単語の境界位置を確定できないようなケースがうまく扱えない。第二に、2段目の単語列探索で最良解が保証されるように、1段目の虫食い照合で正解文字欠落のあらゆる可能性を求めておこうとすると、最悪の場合、単語辞書の全探索あるいは候補文字の組合せ爆発が起きる。そうでなければ、虫食い照合に1文字不一致のみのような制限を付けて、可能性を切り捨てることになる。1段目の単語照合に限ってみれば、各文字位置から単語へのインデックスをもつ松本らの手法が効率よい虫食い照合を可能にしているが、そのままではフリーピッチの単語列読取りには適用できない。本稿では、上記のような問題を解決するたの、従来の2段構成とはまったく異なる知識処理の枠組みとして、「文字タグ法」と名付けた新しいアルゴリズムを提案する。手書き宛名住所から都道府県名・市区郡名・町名の並びを読み取る応用を例に概要を紹介する。
著者
福島 俊一 松田 勝志 高野 元
出版者
情報知識学会
雑誌
情報知識学会研究報告会講演論文集 情報知識学会 第7回(1999年度)研究報告会講演論文集 (ISSN:24329908)
巻号頁・発行日
pp.77-80, 1999 (Released:2017-09-18)
参考文献数
6
被引用文献数
1

This paper surveys page ranking factors used in the current WWW search engines, such as (1) relevance to query keywords, (2) freshness, (3) popularity, (4) citation rank and (5) page types. The relevance to query keywords have been studied in the traditional information retrieval researches. However, other factors are introduced into the WWW search engines in order to improve their ranking performance, because WWW contents are heterogeneous and changeable large-scale hypermedia. The freshness, the popularity and the citation rank are the factors introduced from a viewpoint of contents reliability. On the other hand, the relevance to query keywords and the page types are the ones corresponding to user's domain and task in problem solving. Selection and combination of these factors must be refined for satisfying user's information needs.
著者
小川 泰嗣 木本 晴夫 田中 智博 石川 徹也 増永 良文 芥子 育雄 豊浦潤 福島俊一 宮内 忠信
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS)
巻号頁・発行日
vol.1994, no.86, pp.145-152, 1994-10-13
被引用文献数
4

日本語を対象とした情報検索に関する研究開発では、性能(検索精度)の評価に開発元独自の方法が用いられてきた。このような状況に対し、われわれは「情報検索システム評価用データベース構築ワーキンググループ」を設置し、情報検索手法・システムを公正かつ客観的に評価するためのベンチマーク構築を目指している。本稿では、情報検索システムモデル・対象データの特性とサンプル件数・評価法・作成手順などベンチマーク構築に関する現在までの検討内容を報告する。In the research and development of Japanese information retrieval systems, different research groups have been using different measures to evaluate their system because there is no standard or benchmark for them. Our working group in IPSJ-SIGDBS has been developing such a benchmark, and in this report we will present several of its characteristics: IR models, the features and size of texts and queries, evaluation methods, and the development procedure of the benchmark.
著者
山田 洋志 福島 俊一 松田 勝志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.29, pp.143-150, 2000-03-21
参考文献数
4
被引用文献数
6

ユーザの目的に応じた情報検索・情報提供を実現するために,ページタイプ分類を利用した情報抽出・分類方式を提案し,試作システムで精度を評価した.本方式では,ページタイプ分類を使用することで,それぞれのページタイプに適した抽出・分類処理を行える.そのため,多くの種類の文書が混在するWebページに対しても必要な情報だけを高い精度で抽出することができる.また,分類結果を表や図を用いてユーザに提示することで特定の目的に応じた情報を提供するサービスを実現できる.試作システムによる求人情報とイベント情報の抽出精度の評価では,記述が比較的一定している勤務地や開催日時などの情報で適合率90%以上を達成した.記述の自由度が高い,求人の応募資格やイベント名では65?75%にとどまっている.検索誤りの主な原因は,情報を判別するキーワードのミスマッチと,表や箇条書きの前後からの抽出の誤りであった.抽出もれの原因としては,表や箇条書きのパターンや情報判別用のキーワードのの不足が主なものであった.This paper describes a novel information extraction method which realizes task oriented information retrieval. This method uses page-type classification method which judges type of Web pages. Introducing the page-type concept, extraction systems can select appropriate algorithm or rules for the target page-type. Hence, extraction performances will be increased. This paper also demonstrates accuracy of extraction. Extraction precisions of work place at help-wanted advertisement and date at event information are 90% and over, since these information are relatively set. Precisions of requirement at help-wanted advertisement and event name at event information are unfortunately between 65% and 75%, because there are many description styles of these information. The causes of the extraction errors is mismatches of keywords and extracting errors from table captions. The extraction omissions are caused by lack of pattern, namely, table, article, keyword and so on.
著者
福島 俊一 下村 秀樹 森 義和
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.37, no.4, pp.500-510, 1996-04-15
被引用文献数
19

本論文では フリーピッチ手書き文字列の読み取りのために 新しい知識処理アルゴリズムである「文字タグ法」を提案する. 字形が多様で 文字サイズ・文字ピッチにばらつきがあり 文字の接触・入り組みなどもよく起きる手書き文字列の読み取りでは 誤切り出しや誤認識によって欠落した正解文字を補完する知識処理が不可欠である. 従来の知識処理方式は 単語辞書と候補文字列とを照合して単語候補を抽出したうえで その並びの妥当性を判定する2段構成である. このような従来法では 単語境界が不確定なケースをうまく扱えないことや 候補文字列と単語辞書との虫食い照合における組合せ爆発を避けると 強引に候補を切り捨てることになって最良解を保証できないことなどが大きな問題になっている. これに対して 本論文で提案する文字タグ法は 文字を基本単位としてタグを付与し その位置関係をチェックしながら連結していく戦略をとる. 単語内の文字の連結と単語間の文字の連結とを同等に扱って動的計画法を適用することで 最良解を保証し かつ 入力文字列の長さLと候補多重度Mに対してO(L^2・M^2)またはO(L・M^2)の時間計算量を達成している. さらに 手書き宛名住所の地名領域の読み取りに文字タグ法を応用し 文字切り出しや個別文字認識のあらゆる組合せと正解文字欠落の可能性の中から最良解を高速に探索する文字タグ法の能力を確認した.This paper proposes a new algorithm for post-processing in a hand-written character reader. Hand-written characters have such characteristics as various styles, irregularity in size and pitch, frequency of character overlapping, and so on. These characteristics bring difficulty into hand-written character reading systems. Post-processing to correct mis-segmentation and mis-recognition by linguistic information is an important approach to accurate reading. Conventional post-processing methods consist of two steps. In the first step, word candidates are extracted by word dictionary looking-up. In the second step, combinations of words are evaluated. These conventional methods have the following problems. The first problem is that they don't work well when word boundary segmentation is missed. The second one is combinational time complexity, required for examinations of all combinations of character segmentation candidates and character recognition candidates by approximate matching. In the algorithm proposed in this paper, character candidates are tagged with position-in-word information, and the position-in-word tags are connected by a dynamic programming method. This algorithm has the advantage of time complexity O(L^2・M^2) or O(L・M^2) for optimum path search, where L is input length, and M is average number of segmentation and recognition candidates per character. This paper also describes its implementation and evaluation results in hand-written Japanese address reading.
著者
佐古和恵 福島俊一
雑誌
デジタルプラクティス (ISSN:21884390)
巻号頁・発行日
vol.6, no.1, pp.43-52, 2015-01-15

プライバシーフレンドリーなシステムをどう規定するかは,国や社会の在り方に深く関わるものである.これを巡る環境・動向として,企業や消費者の意識,日・米・欧の違い等に目を向けつつ,プライバシーフレンドリーなシステム・社会の実現に向けた課題や提言にも話が及んだ.
著者
福島 俊一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.46, no.7, pp.436-445, 2003
被引用文献数
6 2 3

本稿は「Webサーチエンジンの基本技術と最新動向」と題した2部構成論文の後編である。前編ではWebサーチエンジンの背後にある基本的な情報検索技術を解説した。この後編ではWebサーチエンジン技術にかかわる5つの新しい話題を解説する。Googleで一躍有名になったリンク解析の改良・高度化が第1の話題,規模を追求してきた汎用Webサーチエンジンに対する目的特化やユーザ適応/状況適応という発展方向が第2・第3の話題,情報提供側の意図を反映した情報提示手法が第4の話題,サーチエンジン最適化(SEO)というコンサルテーション手法に着目したサーチエンジンスパムの問題が第5の話題である。
著者
立石 健二 福島 俊一 小林 のぞみ 高橋 哲朗 藤田 篤 乾 健太郎 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2004, no.93, pp.1-8, 2004-09-16
被引用文献数
14

本稿では、Web文書から意見を抽出し、それらをレーダーチャートの形式で要約/視覚化する意見抽出分類システムを提案する。Webの意見は、商品購入の際の情報収集、市場調査等のマーケティング、企業のリスク管理等、さまざまな目的での利用が考えられる。Webの意見の収集/分析に関する研究には2つの課題がある、対象とするWeb文書から意見に該当する箇所を抽出すること、抽出した意見を要約/視覚化することである。本システムは、この2つの課題を3つ組{対象物 属性 評価}のモデルと情報抽出の手法を用いて解決する。本システムを車に関するレビューサイトの100記事を対象として評価したところ抽出精度が適合率82% 再現率52%であり、システムが出力したレーダーチャートと人手で作成したレーダーチャートが類似することを確認した。This paper proposes an opinion extraction and classification system, which extracts people's opinions from Web documents and summarize/visualizes them in the form of "radar charts". People's opinions on the Internet are available for many purposes such as surveys before purchasing products, market research and risk management for enterprises. There are two issues on this area. One is to locate opinion sentences from Web documents, and the other is to summarize/visualize the extracted opinions. The proposed system solves them by employing an opinion model {object name, attribute expression, evaluative expression} and information extraction techniques. The experimental result conducted with 100 articles on the car domain showed that the system performed 82% on precision and 52% on recall, and that both radar charts created by the system and by the hand are similar to each other.
著者
小林 のぞみ 乾 健太郎 松本 裕治 立石 健二 福島 俊一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.77-84, 2003-03-06
被引用文献数
26

近年,Web上に多数存在する掲示板などの文書から,意見情報を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には,評価を表す表現が重要な手がかりとなるが,評価表現には「コクがある」「液晶がきれい」といった領域依存の表現が多数存在するため,人手で書き尽くすことは困難である.そこで,我々は,テキストマイニングの技術を応用し,評価対象表現,属性表現,評価表現の共起パタンを利用して,これら領域依存表現を効率的に収集することを試みた.本稿では,共起パタンに基づく属性・評価表現の半自動的収集方法を提案し,「コンピュータ」と「ビール」の2つの領域を対象に行った経験的評価を報告する.It has been receiving increasing interest how to extract opinions from tremendous piles of Web documents. To automate the process of opinion extraction, a collection of evaluative expressions like "the monitor is fine" would be useful. However, it can be prohibitively costly to manually create an exhaustive list of evaluative expressions for each domain since they tend to be domain-dependent. Motivated by this background, we have been exploring how to accelerate the process of collecting evaluative expressions by applying a text mining technique. This paper proposes a semi-automatic method where we use particular patterns of cooccurrences between an evaluated subject, focused attribute and orientation expression, and reports the results of our empirical evaluation on the computer and beer domains.