著者
太田 聡 太田 真理 Satoshi OHTA Shinri OHTA
出版者
国立国語研究所
雑誌
国立国語研究所論集 (ISSN:2186134X)
巻号頁・発行日
no.10, pp.179-191, 2016-01

連濁はもっとも広く知られた日本語の音韻現象の1つである。先行研究では,日本語の複合語は連濁の生起率の違いに基づいて,いくつかのグループに分類されることが提案されている。しかしながら先行研究では,連濁生起率の分類基準が恣意的であった点,またグループの数をあらかじめ仮定していた点に問題があった。そこで本研究では,混合正規分布モデルに基づくクラスター分析と連濁データベース(Irwin and Miyashita 2015)を用いて,日本語複合語を分類する際の最適な分類基準とクラスター数を検討した。複合名詞と複合動詞のどちらも,2つのクラスターを仮定したモデルが最適であり,クラスター同士の分類基準は,複合名詞では連濁生起率が90%,複合動詞では40%であった。これらの結果は先行研究のクラスター数や分類基準とは異なるものであった。我々の結果は,モデルに基づくクラスター分析が言語データに対する最適な分類を行う上で非常に有効であることを示すものである。Rendaku is one of the most well-known phonological phenomena in Japanese, which voices the initial obstruent of the second element of a compound. Previous studies have proposed that Japanese compound words can be classified on the basis of the frequency of rendaku (rendaku rate). However, since these studies used arbitrary criteria to determine clusters, such as 33% and 66%, as well as arbitrary numbers of clusters, it is crucial to examine the plausibility of such criteria. In this study, we examined the optimal boundary criteria as well as the optimal number of clusters using a clustering analysis based on Gaussian mixture modeling and the Rendaku Database (Irwin and Miyashita 2015). The cluster analyses clarified that the two-cluster model was optimal for classifying both compound nouns and compound verbs. The boundary values of the rendaku rate for these clusters were approximately 90% and 40% for the compound nouns and compound verbs, respectively. These results were inconsistent with the findings of previous studies. Our findings demonstrate that model-based clustering analysis is an effective method of determining optimal classification of linguistic data.
著者
広田 健人 太田 聡
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IN, 情報ネットワーク (ISSN:09135685)
巻号頁・発行日
vol.110, no.449, pp.199-204, 2011-02-24

WWW (World Wide Web)サービスは,多くのサーバマシンで構成したクラスタにより提供されることがある.サーバクラスタの消費電力の節減は電力コストや地球環境の点で重要である.サーバクラスタの消費電力は,与えられる負荷を測定し,必要なマシン台数を判定し,必要最小限のマシンを稼働させることによって低減できる.これを実現するためには,必要なマシン数の判定技術が必要になる.この技術は,クラスタ負荷に関する複数の指標を測定し,それらの間の関連性も考慮し,かつ仕様変更に柔軟に対応可能であることが必要である.本稿では,この条件を満たす手法として機械学習に基づく方法を提案する.機械学習の適用法を示し,省電力制御プログラムを実装し,実験により提案方法の有効性を明らかにする.
著者
紫藤 一裕 太田 聡
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IA, インターネットアーキテクチャ (ISSN:09135685)
巻号頁・発行日
vol.108, no.275, pp.1-6, 2008-10-29

WWW(World Wide Web)はインターネット上の重要なサービスである.WWWの問題はネットワークやWWWサーバの負荷が過大なとき応答時間が増加することである.この問題を解決するため,ネットワーク内にキャッシュサーバを配置することが行なわれている.キャッシュサーバのキャッシュ領域は有限であり,空きがなくなった場合には保持しているページオブジェクトの削除が必要になる.そのため,削除するオブジェクトを選び出すキャッシュ管理法が,キャッシュサーバの効果を左右する.従来のキャッシュ管理法は,アクセス頻度やオブジェクトサイズを基準として削除するオブジェクトを選択していたが,必ずしも応答時間の点では最適ではなかった.そこで本論文では,WWWサーバ毎の性能を,トラヒックのパッシブ測定により見積もり,その結果に基づいて削除対象のオブジェクトを選択するキャッシュ管理法を提案する.提案方法は,応答の遅いサーバが提供するオブジェクトを優先してキャッシュに記憶するので,応答時間の改善が期待できる.パッシブ測定可能なWWWサーバ負荷指標を示し,提案方法を計算機シミュレーションで評価し,従来手法と比べて応答時間が改善されることを確認した.