著者
白須 裕之 永田 知之
雑誌
じんもんこん2006論文集
巻号頁・発行日
vol.2006, pp.1-8, 2006-12-14

データマイニングの主要な要素技術として、相関ルールマイニングの方法がある。本稿はこの方法を使って、中国唐代(618-907)の官僚が遷転した様子を解明しようとする一つの試みである。官職の遷転を研究する上で重要な要因としては、「エリートコース」として考えられる官歴のパターンがある。しかし、史料上、このような「エリートコース」が明示的に記載されることは稀である。人物が任官したという情報をデータベースとするとき、そこから任官の傾向を示すルール「官職A,Bについたことがある人はしばしば、官職Cにつく」を抽出することができる。このようなルールで抽出された官歴パターン中に、史料に明示されていない有意なパターンが含まれることが考えられる。
著者
鈴木 崇史 影浦 峡
雑誌
じんもんこん2006論文集
巻号頁・発行日
vol.2006, pp.145-152, 2006-12-14

本研究では、1945年から2006年にかけての総理大臣国会演説の、時代による文体的変化を検討した。一文の長さ、延べ語に対する助詞の比率、助動詞の比率を時系列に観察すると、それぞれにトレンドが観察された。全ての助詞・助動詞の相対頻度を用いた主成分分析・クラスター分析によって、三木以外の総理演説が分類されることから、総理演説の助詞・助動詞使用に、もっとも大きな影響を与えている要因は時代であることが示された。分類に寄与の大きい助詞・助動詞の増加・減少傾向は、現代雑誌とほぼ対応していることから、総理演説の助詞・助動詞使用の変化は、主に日本語の変化に対応したものであると考えられる。
著者
手操 俊文 坪井 昭憲 吉村 ミツ 八村 広三郎
雑誌
じんもんこん2006論文集
巻号頁・発行日
vol.2006, pp.117-124, 2006-12-14

おもに江戸期に出版された版本をデジタル化した画像から,それぞれの文字を切り出すための手法と,その結果を利用したキャラクタスポッティングについて報告する.文字切り出しは,汚れやシミの除去,2値化,行の切り出し,ラベリング処理による文字の分離と統合の処理などからなっている.ここでは,2値化の処理は,頁全体,行単位,さらには局所的な文字のブロック単位でという風に順次適応的に適用することにより,汚れやシミの影響をあまり受けずに文字切り出しの精度を向上させることができた.また切り出しが成功した文字図形に対して,文字図形の類似性に基づくキャラクタスポッティングを行った.特徴量として,画素値と加重方向指数ヒストグラムを用いた場合について検討した.どちらの場合もある程度の結果を得ることができ,これをコンコーダンスやKWICの作成;;へ応用できることを示した.