著者
木谷強 小川 泰嗣 石川 徹也 木本 晴夫 中渡瀬 秀一 芥子 育雄 豊浦 潤 福島 俊一 松井 くにお 上田 良寛 酒井 哲也 徳永 健伸 鶴岡 弘 安形 輝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.2, pp.15-22, 1998-01-19
被引用文献数
33

日本語情報検索システム評価用テストコレクションBMIR-J2は、情報処理学会データベースシステム研究会内のワーキンググループによって作成されている。BMIR-J2は1998年3月から配布される予定であるが、これに先立ち、テスト版としてBMIR-J2が1996年3月からモニタ公開された。J1は50箇所のモニタに配布され、多数の研究成果が発表されている。BMIR-J2では、J1に対するモニタユーザからのアンケートの回答と、作成にあたったワーキングループメンバの経験をもとに、テストコレクションの検索対象テキスト数を大幅に増やし、検索要求と適合性判定基準も見直した。本論文では、BMIR-J2の内容とその作成手順、および今後の課題について述べる。BMIR-J2, a test collection for evaluation of Japanese information retrieval systems to be released in March 1998, has been developed by a working group under the Special Interest Group on Database Systems in Information Processing Society of Japan. Since March 1996, a preliminary version called BMIR-J1 has been distributed to fifty sites and used in many research projects. Based on comments from the BMIR-J1 users and our experience, we have enlarged the collection size and revised search queries and relevance assessments in BMIR-J2. In this paper, we describe BMIR-J2 and its development process, and discuss issues to be considered for improving BMIR-J2 further.
著者
伊吹 潤 徐国偉 斉藤 孝広 松井 くにお
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1997, no.4, pp.153-160, 1997-01-20
被引用文献数
5

従来の日本語の校正支援システムでは様々な手がかりをそのままユーザに提示しており,情報の信頼性や誤り可能性の判断の大部分をユーザが行なう必要があった.我々はこれに対して誤り仮説生成部と検証部を独立させた日本語の表記誤りの自動訂正のための新たな枠組を提案する.本構成によって,システムで必要な様々なデータを独立に管理してテキスト分野移行や様々な入力手段への対応の容易さを実現し、又辞書データによる検証を経たデータのみを提示することによって広い範囲の表記誤りに対して信頼性の高い情報を提供している。Although several tools do exist for the detection and correction of Japanese orthodoxical errors, they either deal with too small part of the whole range of errors, or fail to provide reliable error information. We propose a new system for Japanese error correction, which consists of two indepently functioning parts : hypothesis generator and verificator. Hypothesis generator detects possible orthodoxical errors and assumes their original spelling from the input text, while the verificator looks up basic dictionary and word-to-word co-occurence relation to sift out improper hypotheses.
著者
尾崎 航成 向井 宏明 松井 くにお
雑誌
第82回全国大会講演論文集
巻号頁・発行日
vol.2020, no.1, pp.621-622, 2020-02-20

幅広い世代へのインターネット普及に伴い,SNS(ソーシャルネットワークサービス)が広く利用されている.反面,SNS上の人権侵害が増加しており,これに伴いインターネット監視団体の負担も増加している.今後もSNSの利用者が増加し,SNS投稿数も増加が予想されるため,不適切投稿の監視自動化が求められる.本研究では,機械学習を用いて不適切投稿を自動検知する手法を検討し評価を行った.人権侵害に該当するニュアンスの投稿を不適切投稿としてラベル付し学習モデルを作成し教師あり学習による不適切投稿の検知を評価したので報告する.
著者
松井 くにお 難波 功 井形 伸之
出版者
一般社団法人 情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.50, no.1, pp.9-13, 2000
参考文献数
13
被引用文献数
1

全文検索技術は,統制語によるキーワード付けを行う方式と比較して,全処理を自動化できることによる低コスト性,検索量の増加による再現率の向上,という特徴を持つ。全文検索を実現するアルゴリズムには,文字列検索,シグネチャファイル,転置ファイルなどがある。日本語の全文検索システムでは特徴素の取り方として,形態素解析(単語)とN-gram(文字)があり,それぞれ得失がある。転置ファイルを用いた全文検索技術では,ランキング検索が用いられることが多いが,これには通常tf-idf法(文書中の単語頻度×文書DB中での単語の重要度)により関連度が計算される。
著者
松井 くにお 中村 直人 伊吹 潤 徐 国偉
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.283-284, 1996-03-06

インターネットなどのネットワークの普及により、電子化された情報を発信する機会が増えてきたが、同音異義語の変換誤りなどのいわゆる"ワープロミス"が散見される。こういった誤りの検出技術として、形態素解析や共起関係を利用する方法が提案されているが、いろいろな問題点を含んでおり、解決策とはなっていない。本稿では、同音異義語や同音異字語の綴り誤りを検出するだけでなく、自動訂正するシステムを提案し、その有効性を示す。
著者
伊吹 潤 中村 直人 徐 国偉 松井 くにお
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.285-286, 1996-03-06

文章中の誤りの検出、訂正を行なう方式として正しい単語情報と共に誤った単語を形態素辞書に登録する方式が知られているが、この枠組では検出できる誤りが狭い範囲(登録されたもの)に限られるという問題点をもつ。カタカナ語句の表記の揺れや漢字同音語誤り等に範囲を限定して一般的な対処が可能なシステムの提案も行なわれているが、表記レベルの誤り全般を統一的に処理できるような枠組は未だない。我々は表記誤り全般を広範囲に検出できるようにするため、混同しやすい単語あるいは文字列同士をグループ化した情報(誤用候補情報)を単語情報とは独立して保持し、一旦正しい単語のみを利用してテキストを形態素解析した後で、これを用いて誤りの検出と誤り内容の推定を行なう仕組み(誤用候補展開)を実現した。ここでは、誤用候補展開部の処理目標とした誤りについて述べ、その処理のための枠組について説明する。
著者
中村 直人 徐 国偉 伊吹 潤 松井 くにお
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.287-288, 1996-03-06

従来,片仮名表記の揺れ誤りや仮名漢字変換誤りなど単語の綴り誤りに対して,それぞれ校正処理の枠組が提案されている.Joynerではこれらの誤りを単一の枠組で扱うことを試みた.Joynerの処理手順は,文に含まれる各種単語の綴り誤りの検出と候補の推定を行ない,推定した候補を原文の別綴り可能性(綴り曖昧さ)とする.そして,文の綴り曖昧さの中から最尤解を探索し(正解語探索),最尤解の綴りが原文と異なる時に,原文に綴り誤りがあると推定する.綴り曖昧さのある文の最尤解釈の探索は,文字認識の分野で文字切り出し曖昧さの処理として検討され,2端子グラフ(ラティス)の最短経路を求める動的計画法で処理できることが知られている.これをJoynerに適用し,動的計画法の一種であるCYK法で実現した.本稿では,校正支援のためのラティスをCYK法で処理する方法についてJoynerでの実現を中心に報告する.
著者
徐 国偉 伊吹 潤 中村 直人 松井 くにお
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.289-290, 1996-03-06

ワープロで日本語文書を作成する時に、仮名漢字変換ミスや思い込みなどよく誤りが発生する。Joynerは入力文から誤りを探し出し、正解語辞書を照合することによって誤りを修正する。誤り訂正を行なうためには大量の正解語が不可欠である。われわれは新聞記事のデータベースから一旦正解語候補を抽出して、それに対して絞り込みを行なうことによって正解語辞書を作成した。本論文では、正解語候補の自動抽出と絞り込みによる正解語辞書の作成方法について述べる。
著者
小川 知也 斉藤 孝広 松井 くにお
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.291-292, 1996-03-06

既存印刷文書を電子ファイリングして活用するために,OCRは有力な手段である.しかし日本語文書を対象とする場合,日本語は文字種が多いことなどから認識誤りを完全に無くすことは困難である.文字認識結果中の候補文字列から最適な単語のパスを探索することによる誤り訂正・指摘方式を開発したので,その概要について述べる.また,文字認識における切り出し誤りへの対応も考慮した拡張形態素解析について論じる.
著者
川崎 正博 松井 くにお 西野 文人
雑誌
全国大会講演論文集
巻号頁・発行日
vol.41, pp.101-102, 1990-09-04

一般的に,自然言語処理に用いられる単語辞書は十万語にのぼるような大規模なものが多く,一単語が持つ形態素情報,構文情報等のデータも,細かく表現されている反面,複雑化し,扱いにくいものとなっている事が多くみられる。しかし,実際においては,そのような大規模辞書をそのまま利用する事は少なく,システムに必要な情報のみを取り出したシステム用辞書を作り出し,辞書コストの低減を図っている事が多い。本稿では,英語を入力文とし,品詞の推定等を行う形態素解析処理において,そのシステムの特徴を生かし,名詞類を品詞として持つ単語を辞書より削除することによる辞書のコンパクト化の実現方法,および,そのコンパクト辞書を用いて英語形態素解析(Emor)を行った実験結果,今後の課題を述べる。