著者
ホドシチェク ボル 山本 啓史
雑誌
じんもんこん2017論文集
巻号頁・発行日
vol.2017, pp.207-212, 2017-12-02

本稿の目的は、歌ことばの辞書を開発するにあたり、従来の「見出し語とその解説」による辞書記述に加え、「見出し語 関連語」形式の関連対の追加を提案することである。関連対によれば、従来の辞書に不足していた語と語を取り持つ関係概念を示すことができるだけでなく、古代語の意味記述の困難さを解消する方法であることを示す。和歌を題材とするネットワーク構造のデータから、見出し語(梅、桜、橘)との関連対となる語の抽出を試みた。R パッケージlinkcomm (Kalinka and Tomancak 2011)の3 種の計算方法を用いて行った結果、どの計算方法においてもほぼ同様の抽出ができ、それら語は和歌の文脈において各見出し語の関連対として取り出せたことが確認できた。
著者
ホドシチェク ボル 山元 啓史
雑誌
じんもんこん2013論文集
巻号頁・発行日
vol.2013, no.4, pp.21-26, 2013-12-05

本研究は、現代日本語コーパスにおける中間語彙層の役割に焦点を当てその応用について示すものである。ここでいう中間語彙層とは、個々の単語の情報量を計算し、その情報量の序列において中間に位置する語彙である。一般的には、序列として使用頻度が用いられているが、本研究では各単語が持つ情報量の分布を用いる。頻度の高い語は機能語が多く、文の構造や語の係り受けを明示するが、内容としての情報量は少ない。一方、頻度の低い語は、トピック・内容をよく表した語か、珍しい語、固有名詞などである。頻度の低い語を利用すると領域毎に特化された情報が顕著になるあまり、共有語彙が少なくなり、文書間の比較や時系列の変動が分析しにくくなる。中間語彙は上記の2つの問題点について相互比較、時系列比較を可能にする語彙集合である。本稿ではその抽出の手法と応用例について述べる。