著者
磯野 史弥 松吉 俊 福本 文代
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013, no.7, pp.1-8, 2013-09-05

本研究では,Web 掲示板に存在する皮肉や誹謗中傷などの不適切な表現を自動的に検出する手法を提案する.我々は,Web 掲示板における皮肉を人手で体系的に分類し,8 つの分類クラス (疑問,推測,諦め,不相応,誇張,驚き,形容,対比) を構築した.それぞれの分類クラスに対して,対象の文とその前後文の評価極性を考慮する構文パターンを設計した.提案する皮肉検出システムは,構文パターンの集合を利用することにより,入力された文が皮肉文であるかどうかを判定する.提案する誹謗中傷検出システムは,Support Vector Machine (SVM) を用いて,入力された文が誹謗中傷文であるかどうかを判定する.ここでは,素性として,独自に構築した辞書に存在する誹謗中傷語の出現頻度と,対象の文とその前後文の評価極性を利用した.評価実験の結果,提案するシステムは,F 値においてベースラインを上回った.We propose two detection systems that identify sarcasm and slander in posts on bulletin board system (BBS). We made a corpus of sarcasm in BBS, and classified sarcasm instances into eight classes: interrogative, guess, give-up, unbalance, exaggeration, shock, metaphor, and contrast. For each sarcasm class, we constructed syntactic patterns for detection of sarcasm that include sentence structures and polarity conditions of the target sentence, the previous sentence and the next sentence. Our first system detects sarcasm using a database of the syntactic patterns. We made a corpus of slander in BBS and a list of slander expressions extracted from the corpus. Our second system detects slander using Support Vector Machine (SVM), where as features, we use frequencies of words in the list, and positive expressions and negative expressions in the target sentence, the previous sentence and the next sentence. In the experiment, the proposed systems can achieve superior F-measures compared with baseline systems.
著者
福本 文代 福本 淳一 鈴木 良弥
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.4, no.2, pp.89-109, 1997-04-10 (Released:2011-03-01)
参考文献数
28
被引用文献数
1

本稿では, 文脈依存の度合いに注目し, 重要パラグラフを抽出する手法を提案する. 本手法では, Luhnらにより提唱されたキーワード密度方式と同様, 「主題と関係の深い語はパラグラフを跨り一貫して出現する」という前提に基づく. 我々は, 文脈依存の度合, すなわち, 記事中の任意の語が, 設定された文脈にどのくらい深く関わっているかという度合いの強さを用いることで, 主題と関係の深い語を抽出し, その語に対し重み付けを行なった.本手法の精度を検証するため人手により抽出したパラグラフと比較した結果, 抽出率を30%とした場合, 50記事の抽出総パラグラフ数84に対し75パラグラフが正解であり, 正解率は89.2%に達した.
著者
郷 健太郎 李 吉屹 福本 文代 木下 雄一朗
出版者
山梨大学
雑誌
基盤研究(C)
巻号頁・発行日
2020-04-01

本研究では,ポジティブ心理学における研究成果をユーザに直接反映させるという課題に挑戦する.具体的には,予測文字変換における変換文字候補に,入力語よりもポジティブな語を表示することによって,ユーザにポジティブな作文を促し,その結果としてユーザの主観的幸福度を向上させることを目指す.この効果を実証するために,以下のプロジェクトを実施する:①ポジティブ・ネガティブ語から構成される辞書及び課題文集合の開発と,それらを使った主観的幸福度の計測,②スマートフォン用のジェスチャキーボードの開発と,ジェスチャと主観的幸福度の関係の解明,③入力語の評価極性に基づくポジティブ語候補の表示システムの開発と評価.
著者
新納 浩幸 村田 真樹 白井 清昭 福本 文代 藤田 早苗 佐々木 稔 古宮 嘉那子 乾 孝司
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.22, no.5, pp.319-362, 2015

語義曖昧性解消の誤り分析を行う場合,まずどのような原因からその誤りが生じているかを調べ,誤りの原因を分類しておくことが一般的である.この分類のために,分析対象データに対して分析者 7 人が独自に設定した誤り原因のタイプを付与したが,各自の分析結果はかなり異なり,それらを議論によって統合することは負荷の高い作業であった.そこでクラスタリングを利用してある程度機械的にそれらを統合することを試み,最終的に 9 種類の誤り原因として統合した.この 9 種類の中の主要な 3 つの誤り原因により,語義曖昧性解消の誤りの 9 割が生じていることが判明した.またタイプ分類間の類似度を定義することで,統合した誤り原因のタイプ分類が,各自の分析結果を代表していることを示した.また統合した誤り原因のタイプ分類と各自の誤り原因のタイプ分類を比較し,ここで得られた誤り原因のタイプ分類が標準的であることも示した.
著者
磯野 史弥 松吉 俊 福本 文代
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-213, no.7, pp.1-8, 2013-09-05

本研究では,Web 掲示板に存在する皮肉や誹謗中傷などの不適切な表現を自動的に検出する手法を提案する.我々は,Web 掲示板における皮肉を人手で体系的に分類し,8 つの分類クラス (疑問,推測,諦め,不相応,誇張,驚き,形容,対比) を構築した.それぞれの分類クラスに対して,対象の文とその前後文の評価極性を考慮する構文パターンを設計した.提案する皮肉検出システムは,構文パターンの集合を利用することにより,入力された文が皮肉文であるかどうかを判定する.提案する誹謗中傷検出システムは,Support Vector Machine (SVM) を用いて,入力された文が誹謗中傷文であるかどうかを判定する.ここでは,素性として,独自に構築した辞書に存在する誹謗中傷語の出現頻度と,対象の文とその前後文の評価極性を利用した.評価実験の結果,提案するシステムは,F 値においてベースラインを上回った.
著者
福本 文代 鈴木 良弥
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.89, no.3, pp.552-566, 2006-03-01
被引用文献数
2

本論文では,人手により複数の分野名が付与された文書における分野名誤りのうち,文書分類の精度に悪影響を与えるものを自動的に検出し,修正する手法を提案する.我々は,誤り検出と修正の手掛りとして三つの点に注目する.1点目は分類に悪影響を与える事例を抽出するために機械学習Support Vector Machines(SVMs)で得られるサポートベクトルと機械学習Naive Bayes(NB)を利用する点である.2点目は誤り事例を検出するために損失関数を利用する点である.3点目は,過剰な修正を抑えるため,分野名をノードとする階層構造を利用する点である.Reuters1996のコーパスを用いて実験を行った結果,誤り検出と修正の精度はそれぞれ0.8391,0.767であった.更に,修正結果を文書分類へ適用した結果,分類精度が0.5〜1.7%向上することが分かり,誤り修正の効果が現れていることが確認できた.
著者
福本 文代 佐野 洋 斎藤 葉子 福本 淳一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.33, no.10, pp.1211-1223, 1992-10-15
参考文献数
20
被引用文献数
9

一般に 語の係り受け関係を解析する依存文法は 文を構成する要素間の2項関係を重視しているこのため 従来から提案されている手法の多くは 係り受け関係を判定するための言語的な制約として 格情報あるいは意味属性などを中心とした任意の2要素間の局所的な情報を用いている.しかしこれら局所的な情報だけでは 文全体の構造を決定するための制約として不十分であり 結果的に 可能な解釈として不自然なものまで得られてしまう.そこで本文法では言語的な制約に 係り受けの強度に基づく制約を課した.この制約は 文節とアークに付与された係り受けの強度を用いて2文節間の係り受け関係の有無を判定するものである.ここで 文筋に関する係り受けの強度とは その文節が修飾することができる相手の文節の種類 およびその文節が修飾を受けることができる相手の文節の種類を分類し それぞれ係り 受けの強さの度合いとして表したものであるまた アークに関する係り受けの強度とは 文節同士の結びつきの強さの度合いを示したもので これを用いて依存構造に現れるアーク間の制約を表している.係り受け関係の判定に意味素性を用いた文法と この文法に係り受けの強度に基づく制約を加えた文法とを作成し 文解析実験をった結果 解の数はこの制約を加えることで 約6割に抑えられていることがわかった.本稿ではこの係り受けの強度を用いた文法の記述について述べる.
著者
市岡 健一 福本 文代
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.92, no.3, pp.428-438, 2009-03-01
被引用文献数
1

本論文では,意味的に類似したオノマトペを自動的に分類する手法を提案する.本手法は「Web上からのオノマトペ間の共起頻度取得」,「オノマトペ間の類似度算出」,「音象徴の適用」,「オノマトペのクラスタリング」という四つの処理からなる.各々の処理において,「AND検索とPhrase検索」,「χ^2値と相互情報量」,「音象徴の適用の有無」,「Newman法とSpectral Clustering」を導入し,どのような手法の組合せがオノマトペの自動分類に有効かを検証した. 10種類のクラスに分類される292語のオノマトペに対して分類を行った結果,「Phrase検索,相互情報量,音象徴の適用有, Newman法」という手法の組合せで,最も良い結果(F値で0.421)が得られた.また, Spectral ClusteringはAND検索やχ^2値によるノイズに弱い,ということが明らかになった.