著者
鈴木 崇史 影浦 峡
雑誌
じんもんこん2006論文集
巻号頁・発行日
vol.2006, pp.145-152, 2006-12-14

本研究では、1945年から2006年にかけての総理大臣国会演説の、時代による文体的変化を検討した。一文の長さ、延べ語に対する助詞の比率、助動詞の比率を時系列に観察すると、それぞれにトレンドが観察された。全ての助詞・助動詞の相対頻度を用いた主成分分析・クラスター分析によって、三木以外の総理演説が分類されることから、総理演説の助詞・助動詞使用に、もっとも大きな影響を与えている要因は時代であることが示された。分類に寄与の大きい助詞・助動詞の増加・減少傾向は、現代雑誌とほぼ対応していることから、総理演説の助詞・助動詞使用の変化は、主に日本語の変化に対応したものであると考えられる。
著者
手操 俊文 坪井 昭憲 吉村 ミツ 八村 広三郎
雑誌
じんもんこん2006論文集
巻号頁・発行日
vol.2006, pp.117-124, 2006-12-14

おもに江戸期に出版された版本をデジタル化した画像から,それぞれの文字を切り出すための手法と,その結果を利用したキャラクタスポッティングについて報告する.文字切り出しは,汚れやシミの除去,2値化,行の切り出し,ラベリング処理による文字の分離と統合の処理などからなっている.ここでは,2値化の処理は,頁全体,行単位,さらには局所的な文字のブロック単位でという風に順次適応的に適用することにより,汚れやシミの影響をあまり受けずに文字切り出しの精度を向上させることができた.また切り出しが成功した文字図形に対して,文字図形の類似性に基づくキャラクタスポッティングを行った.特徴量として,画素値と加重方向指数ヒストグラムを用いた場合について検討した.どちらの場合もある程度の結果を得ることができ,これをコンコーダンスやKWICの作成;;へ応用できることを示した.