著者
荒牧 英治 増川 佐知子 森田 瑞樹 保田 祥
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-208, no.9, pp.1-8, 2012-08-26

これまで言語学で高い関心を集めている問題の1つに人間の語彙数がある.数々の調査がなされてきたが,その多くは,理解できる語彙(理解語彙)の調査にとどまり,実際に使用する語彙(使用語彙)についてはどのくらいのものか,いっこうにわからないとされてきた.本研究では,ウェブ上の発言データを利用し,10万人という大規模な人数で使用語彙調査を行った.調査の結果,使用語彙は平均8,000語であることが明らかになった.さらに,同データを用いて,語のユーザ数の調査を行った.この結果,ユーザに偏りがある語や偏りがない語のリストが得られた.このようなユーザ数にもとづいたリストは本研究で初めて得られたものである.
著者
保田 祥 小西 光 浅原 正幸 今田 水穂 前川 喜久雄
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.20, no.5, pp.657-681, 2013-12-13 (Released:2014-03-13)
参考文献数
22

時間情報抽出は大きく分けて時間情報表現抽出,時間情報正規化,時間的順序関係解析の三つのタスクに分類される.一つ目の時間情報表現抽出は,固有表現・数値表現抽出の部分問題として解かれてきた.二つ目の時間情報正規化は書き換え系により解かれることが多い.三つ目のタスクである時間的順序関係解析は,事象の時間軸上への対応付けと言い換えることができる.日本語においては時間的順序関係解析のための言語資源が整備されているとは言い難く,アノテーション基準についても研究者で共有されているものはない.本論文では国際標準である ISO-TimeML を日本語に適応させた時間的順序関係アノテーション基準を示す.我々は『現代日本語書き言葉均衡コーパス』(BCCWJ) の新聞記事の部分集合に対して,動詞・形容詞事象表現に TimeML の 〈EVENT〉 相当タグを付与し,その事象の性質に基づき分類を行った.また,この事象表現と先行研究 (小西, 浅原, 前川 2013) により付与されている時間情報表現との間の関係として,TimeML の 〈TLINK〉 相当タグを付与した.事実に基づき統制可能な時間情報正規化と異なり,事象構造の時間的順序関係の認識は言語受容者間で異なる傾向がある.このようなレベルのアノテーションにおいては唯一無二の正解データを作ることは無意味である.むしろ,言語受容者がいかに多様な判断を行うかを評価する被験者実験的なアノテーションが求められている.そこで,本研究では三人の作業者によるアノテーションにおける時間的順序関係認識の齟齬の傾向を分析した.アノテーション結果から,時間軸上の相対的な順序関係については一致率が高い一方,時区間の境界については一致率が低いことがわかった.