著者
三品 拓也 勝野 恭治 吉濱 佐知子 工藤 道治
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.49, no.9, pp.3062-3073, 2008-09-15

提携・合併・買収・アウトソーシングといったビジネス環境の変化と,インターネットのような組織間通信経路の発達により,オフィス文書が組織や会社をまたいでやりとりされる機会が増えている.これにともない悪意のないユーザの誤操作による情報漏洩の可能性が増しており,実際に情報漏洩事故の報告が後を絶たない.このような事故を防ぐために,ユーザの注意力に頼ることなく機密性を確保することが求められている.既存技術であるマルチレベルセキュリティは厳密な情報フロー制御を実現可能であるが,メタ情報欠落問題・機密解除問題という2つの実用上の問題があり,オフィス文書管理システムに適用することは困難であった.そこで本論文ではメタ情報欠落問題を解決するため,オフィス文書の来歴を記録して文書に安全な形で添付する来歴封入と,そのデータ構造を提案する.またオフィス文書の機密解除問題を解決するため,文書よりも細かい文書要素の粒度でセキュリティラベルを付与し,セキュリティラベルに基づいて情報フロー制御を行う細粒度情報フロー制御機構を提案する.その際,ラベル付与は来歴に基づいて可能な限り自動化し,ラベル付与のコストを削減する.さらに,来歴封入と細粒度情報フロー制御機構のプロトタイプをそれぞれODF(Open Document Format)とOpenOffice.orgに実装してその実現可能性を示す.Current business situations require improved confidentiality and integrity for office documents. The Multi-level Security (MLS) model can provide an information flow control feature to content management systems, however, the meta-information lost problem and the declassification problem prohibit the use of the MLS. In this paper we propose a meta-data format called <i>sticky provenance</i> and a fine-grained information flow control system using the sticky provenance. The sticky provenance contains the change history and the labels of an office document in a secure form, and it ensures the confidentiality of the change history of the documents in distributed environments. The fine-grained information flow control system reduces the label creep problem of the information flow control models with the sticky provenance. In other words, the sticky provenance and the fine-grained information flow control system can introduce a practical fine-grained information flow control capability to office applications so that we can ensure the confidentiality of office documents.
著者
山本 幹雄 貞光 九月 三品 拓也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.104, pp.29-34, 2003-10-17
参考文献数
10
被引用文献数
9

混合ディレクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布)、文脈/文書の確率モデルを検討する。本稿では、混合ディレクレ分布のパラメータおよび適応時に必要な事後分布の期待値推定方法をいくつか述べ、動的に適応する?textit{n}gram言語モデルを用いた実験で確率的LSAのベイズ的な発展モデルとの比較を示す。混合ディレクレ分布や混合Polya分布は他のベイズ的な文脈モデルに比べて単純なので、予測分布を閉じた式で導出可能である。これは、Latent Dirichlet Allocation (LDA)のような他のベイズ的なモデルがいずれも予測分布の推定に近似を必要とする点と比べて、大きな優位性といえる。実験では、混合ディレクレ分布を用いたモデルが低い混合数で比較モデルよりも低いパープレキシティを達成できることを示す。We investigate a generative context/text model using Dirichlet mixtures as a distribution for parameters of a multinominal distribution, whose compound distribution is Polya mixtures. In this paper, we describe some estimation methods for parameters of Dirichlet mixtures and a posterior distribution (adaptation), and show experiments to compare the proposed model with the other Bayesian variants of Probabilistic LSA in perplexity of adaptive \textit{n}gram language models. Since the Dirichlet and Polya mixtures are simpler than the other Baysian context models such as Latent Dirichlet Allocation (LDA), the posterior distribution can be derived as a closed form without approximations needed by LDA. In the experiments we show lower perplexity of Dirichlet mixtures than that of the other.
著者
山本 幹雄 貞光 九月 三品 拓也
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2003, no.104(2003-SLP-048), pp.29-34, 2003-10-17

混合ディレクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布)、文脈/文書の確率モデルを検討する。本稿では、混合ディレクレ分布のパラメータおよび適応時に必要な事後分布の期待値推定方法をいくつか述べ、動的に適応する?textit{n}gram言語モデルを用いた実験で確率的LSAのベイズ的な発展モデルとの比較を示す。混合ディレクレ分布や混合Polya分布は他のベイズ的な文脈モデルに比べて単純なので、予測分布を閉じた式で導出可能である。これは、Latent Dirichlet Allocation (LDA)のような他のベイズ的なモデルがいずれも予測分布の推定に近似を必要とする点と比べて、大きな優位性といえる。実験では、混合ディレクレ分布を用いたモデルが低い混合数で比較モデルよりも低いパープレキシティを達成できることを示す。
著者
貞光 九月 三品 拓也 山本 幹雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.9, pp.1771-1779, 2005-09-01
被引用文献数
6

混合ディリクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布), 生成文書モデルを提案し, 統計的言語モデルへの応用という面で高い性能をもつことを示す. 本論文では, 混合ディリクレ分布のパラメータ推定法及び適応時に必要な事後分布の期待値推定法をいくつか述べた後に, 二つの代表的な従来の文書モデルと比較する. 一つ目の従来モデルは, 統計的言語モデルにトピックを取り込むときによく使われるMixture of Unigramsである. 二つ目は代表的な生成文書モデルであるLDA(Latent Dirichlet Allocation)である. 新聞記事を用いた文書確率及び動的に適応するngramモデルを用いた実験で, 提案モデルは従来の二つのモデルと比べて低い混合数で低いパープレキシティを達成できることを示す.
著者
三品 拓也 貞光 九月 山本 幹雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.9, pp.2168-2176, 2004-09-15
参考文献数
19
被引用文献数
1

本論文ではかな漢字変換誤り,特に同音異義語の選択誤りを対象とした日本語スペルチェックの方法を報告する.同音異義語誤りの判定には局所的な情報と大域的な情報の両者が必要であるが,本論文では大域的な情報をモデル化するために確率的LSAを用いることを提案・検討する.評価実験として,人為的に誤りを混入させたテストデータを用いた誤り検出・訂正実験を行った.局所的な情報のモデル化に従来からよく使われているngramモデルのみを利用した手法をベースラインとして比較した.ベースラインシステムでは再現率93.8%,適合率79.0%(F値85.8%)であった性能が,確率的LSAと組み合わせることにより再現率95.5%,適合率83.6%(F値89.2%)と改善された.We report a method of a Japanese spell checker for homophone errors which often occur in Japanese input process using a kana-kanji conversion system. Error detection methods need both of local and global information around a target word. In this paper, we propose and investigate use of a probabilistic LSA for modeling global information. We will show experimental results of performance to detect and correct homophone errors which are generated randomly. We use a simple method based on ngram models as a baseline system. Ngram models are common for Japanese spell checkers to model local information. In the results, although detection rates of the baseline system are 93.8% in recall, 79.0% in precision (85.8% in F-measure), those of a combination system of an ngram model and a probabilistic LSA increase to 95.5% in recall, 83.6% in precision (89.2% in F-measure).