- 著者
-
川端 健士
金子 邦彦
- 雑誌
- 研究報告情報基礎とアクセス技術(IFAT)
- 巻号頁・発行日
- vol.2012, no.9, pp.1-5, 2012-01-13
記事データベースからキーワード抽出をし、代表キーワードの選定を行ってキーワード辞書を独自に作成することによって大規模な記事集合の中から必要な情報へとたどり着くことを実現したい.今回は投稿型のWEB上の魚類図鑑であるWEB魚図鑑の4668件の記事からキーワード辞書の作成を行った。MeCabを用いて名詞を抽出し、重複を除去して9545語の名詞が得られた。その中には表記ゆれを含むキーワードが154語確認できた.これらの表記ゆれから一語の代表キーワードを決定するために独自のフローチャートを組んで、代表キーワードが決定できるようにフィルタを考案した。また、各キーワードの特徴量を論理値と数値で表現した表を作成し、表記ゆれを含むキーワードからの代表キーワードを決定するフローチャートが"True"、"False"の2値表現を7項目と数値3項目を用いることで動作することを確認した.こうして名詞全体からWEB魚図鑑におけるキーワードとして4946語を選ぶことができた.We would like to accomplish to get a requiring article from large article database by using keyword dictionary which extracted from the article database. In this paper, we made a keyword dictionary of WEB Fish Encyclopedia which is composed by many contributors and has4668 files. We operated MeCab to get only nouns, and removed duplicate nouns. We obtained 9545 nouns from WEB Fish Encyclopedia. In these files, we found 154 words of orthographical variants. We designed some filters to establish our own flowchart to extract one representation. We also checked that we can run the flowchart by expressing orthographical variants with "True" or "False" for 7 items and numbers for 3items. We selected 4946 keywords from WEB fish Encyclopedia which contains 4668 text files.