著者
伍偉鴻 二村 良彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告アルゴリズム(AL) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.5, pp.73-79, 2000-01-17

現在,実際的に最速と考えられている整列法はBentleyのQuicksort(BQ法)である.本稿では,整列済みに近いデータに対してはBQ法の約2倍高速であり,かつ一様乱数列に対してもBQ法よりも高速な整列法LOAS (Leaves Optimal Adaptive Sort)の2つの実現法について報告する.一つは高速であるがスペースをO(N)要し、もう一方は性能は多少落ちるが、スペースをO(√<N>)要するものである。LOASは,数列の葉(数列において自分より小さい隣接要素を持たない要素)の数について最適な整列法である.即ち,数列の長さと葉数を各々Nおよびmとすると,LOASはO(N log m)時間で整列を完了する.実用に供されている4つの整列法(BQ法,GNU Quicksort,GNU Merge sort,多重分割ソートMPS)を含むいくつかの整列法と比較することにより,LOASの高速性を示す.Two implementations of LOAS(Leaves Optimal Adaptive Sort) are proposed. One implementation is optimized in running time which needs O(N) extra working space and is faster than the fastest Quicksort known, Bentley's Quicksort, by a factor of 2 in practice, the other needs O(√<N>) extra working space which is more practical but loss in efficiency. LOAS runs in O(N log Leaves) time and is optimal with respect to the presortedness measure Leaves which is the number of elements smaller than their neighbors in a given sequence. Evaluation of LOAS together with four other sorting algorithms (Bently's Quicksort, GNU Quicksort, GNU Merge Sort and Multi Partition Sort MPS) is conducted to show the efficiency of LOAS.
著者
森住 大樹 小宮 常康 八杉 昌宏 湯淺 太一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌プログラミング(PRO) (ISSN:18827802)
巻号頁・発行日
vol.45, no.12, pp.94-94, 2004-11-15

実時間処理を妨げる要因の1 つとしてごみ集めがあげられる.ごみ集めが一括して行われる場合には,その間プログラムの実行は一時的に停止することとなり,実時間処理の妨げとなる.この問題に対処するため,実時間処理に対応したごみ集めも考慮されているが,Real-Time Specification forJava(RTSJ)では,ごみ集めの方式自体には制限を加えることなく,実時間処理を可能としている.Lisp もごみ集めの機能を持つプログラミング言語の1 つである.本発表では,RTSJ の方法を取り入れることによって実時間処理にも利用できるように設計,実装したLisp を紹介する.具体的には,従来のヒープとは別にスコープメモリと呼ばれる実時間処理用のメモリ領域を導入する.スコープメモリはごみ集めにより使用済みのメモリ領域を回収するのではなく,ある程度の大きさでまとめて確保し,必要がなくなったら一度に破棄する.細かいメモリ管理の手間が必要なく,使用中のデータの破棄やメモリリークの恐れもない設計となっており,ごみ集めの利便性を損なうこともない.実装にあたっては,Java により記述されたScheme 処理系であるJAKLD とRTSJ を満たすJava 処理系を組み合わせることにより,効率良く実装を行うことを可能とした.Lisp に新たに追加する機能はRTSJ のJava 処理系にも含まれるものであり,実装ではJAKLD を改良しJava の機能を有効利用した.また,JAKLD を基に作成されたL 処理系に対しても,設計と実装を行った.実装されたLisp 処理系は,それ自身十分に動作するものであり,また,より高性能の本格的な処理系を作成する際に参考となりうるものでもある.Design and Implementation of Lisp System with Memory Management suitable for Real-Time Processing. Garbage collection (GC) is one of the factors obstruct real-time processing. In case that GC is executed at a time, it stops temporarily execution of program and obstructs real-time processing. For the purpose of dealing with this problem, GC corresponding to realtime processing are devised, but Real-Time Specification for Java (RTSJ) realizes real-time processing without adding restrictions to a method of GC itself. Lisp is one of programming languages with GC. At this presentation, we introduce Lisp which is designed and implemented for real-time processing by taking in the method of RTSJ. Specifically, the memory area called scope memory for real-time processing is introduced apart from the conventional heap. At a scope memory area, GC does not collects used memory, but a certain size memory is secured at a time and deleted at a time if it is not necessary. Because it is designed not to need complicated work for memory management and not to concern about deletion of necessary data and memory leak, the convenience of GC is not spoiled. It made the implementation efficient to combine JAKLD which is a Scheme system described by Java and a Java system of RTSJ. The function newly added to Lisp is included also in a Java system of RTSJ, and the function of Java was available at the implementation by improving JAKLD. We also designed and implemented to L system created from JAKLD. The implemented Lisp system works enough in it self, and it may also be referred when a more highly efficient system is created.
著者
矢野 純司 荒木 健治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.35, pp.21-28, 2007-03-28
参考文献数
11

本研究では自動要約の対象として、コールセンターにおける音声対話に着目し、営業日報を自動的に生成する手法を提案する。コールセンターにおいて電話内容を営業日報として簡潔に記載する作業は、時間と作業量のどちらの観点からも非常に大きなコストとなっている。そこで、本手法では音声データをテキスト化し重要箇所の抽出、そして文体変換を行うことで、営業日報をシステムによって自動生成することを目的とする。本稿では、過去の対話内容とその営業日報から帰納的学習により再帰的に規則獲得を行い、それらの規則を用いて未知の対話内容に対して重要箇所の決定、文体変換を行うシステムを提案し、その性能評価を行った。In this research, we propose a summarization method for generating business reports from call center speech dialogues. It is costly laborious and time-consuming to write a business report at call centers by hand. Therefore, we propose a method for generating business reports from speech dialogues using text conversion, extraction of important parts and paraphrasing. This method recursively acquires rules from previous dialogues and business reports by using Inductive Learning and applies them to new dialogues to determine important parts and paraphrase them. In this paper, we describe our system and introduce the evaluation of its performance.
著者
都築 勇司 藤吉 弘亘 金出 武雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.1, pp.101-108, 2007-01-12
被引用文献数
23

本稿では,特徴点追跡法について述べる.提案手法は,回転・スケール変化・照明変化による画像の変化に不変なSIFT(Scale Invariant Feature Transform)特徴量を用い,Mean-Shift探索により追跡を行う.評価実験により,回転やスケール変化を含む対象物体の移動に対しても追跡可能であることを確認した.また,追跡結果の表現法として,追跡点をセグメンテーションすることなく動線を表現する方法について述べる.点の移動方向と密度により表示する色を決めることで,移動の方向と頻度を表現する.本手法により,長時間に及ぶ人の追跡結果をビジュアライゼーションし,移動の流れが表現されていることを示す.This paper presents a method of point feature tracking using SIFT(Scale Invariant Feature Transform).Our approach uses the Mean-Shift searching to track a point based on the information obtained by SIFT. Since the SIFT feature is invariant to changes caused by the rotation, scaling, and illumination, we can obtain higher tracking performance than the conventional approach. Using the trajectory of the points obtained by the proposed method, it is possible to visualize the traffic line of pedestrians.
著者
清水 友裕 野村 浩郷
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.7, pp.87-92, 2007-01-26
参考文献数
11

自然言語対話において,音声認識や文章解析での誤りによって適切な応答が困難になるという問題がある.本稿では,そのような誤りを訂正する対話を対話全体の一部として自然な形で埋めこみ,誤り訂正をしながら対話を適切に進行させる対話処理について述べる.対話のドメインとしては,便宜的に,パソコン技術サポートを行うコールセンターでの質問応答を取上げ,既存の大量な質問応答データから取得したドメイン知識などを適用して,誤り訂正を行う対話処理について考察する.In a natural language dialog, there is a problem that a suitable response becomes difficult by the mistake in speech recognition and/or the error in text analysis. In this paper, the dialog which corrects such errors is incorporated in a form natural as a part of whole dialog, and the dialog processing which advances a dialog appropriately carrying out an error correction is discussed. As a domain of the dialog, the question-answering at the call-center which performs personal computer technical support is taken up, for our convenience. The domain knowledge is acquired from large amount of question-answering data, and is applied to the dialog processing which performs an error correction.
著者
三品 拓也 貞光 九月 山本 幹雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.9, pp.2168-2176, 2004-09-15
参考文献数
19
被引用文献数
1

本論文ではかな漢字変換誤り,特に同音異義語の選択誤りを対象とした日本語スペルチェックの方法を報告する.同音異義語誤りの判定には局所的な情報と大域的な情報の両者が必要であるが,本論文では大域的な情報をモデル化するために確率的LSAを用いることを提案・検討する.評価実験として,人為的に誤りを混入させたテストデータを用いた誤り検出・訂正実験を行った.局所的な情報のモデル化に従来からよく使われているngramモデルのみを利用した手法をベースラインとして比較した.ベースラインシステムでは再現率93.8%,適合率79.0%(F値85.8%)であった性能が,確率的LSAと組み合わせることにより再現率95.5%,適合率83.6%(F値89.2%)と改善された.We report a method of a Japanese spell checker for homophone errors which often occur in Japanese input process using a kana-kanji conversion system. Error detection methods need both of local and global information around a target word. In this paper, we propose and investigate use of a probabilistic LSA for modeling global information. We will show experimental results of performance to detect and correct homophone errors which are generated randomly. We use a simple method based on ngram models as a baseline system. Ngram models are common for Japanese spell checkers to model local information. In the results, although detection rates of the baseline system are 93.8% in recall, 79.0% in precision (85.8% in F-measure), those of a combination system of an ngram model and a probabilistic LSA increase to 95.5% in recall, 83.6% in precision (89.2% in F-measure).
著者
金井 遵 森 拓郎 荒木 健志 田邊 昇 中條拓伯 並木 美太郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.68, pp.59-62, 2006-06-26
被引用文献数
1

本論文では,分散ファイルシステム(DFS)およびメモリマップトファイル機能を利用してOSに手を加えることなく分散共有メモリ(DSM)を実装し,カーネルに手を加えることができないコモディティOS上でクラスタシステムを実現する方法を提案する.大容量バッファを持った高速なネットワークインターフェースであるDIMMnetF2を用い,Windows上で複数のDIMMnet-2の大容量バッファをまとめて-つのDFSおよび,DSMとして利用するドライバとライブラリを設計,実装した.評価では実際に,DSMを用いていくつかの分散処理実験を行った.特に行列乗算による評価では,2ノードの分散処理において1.99倍の性能向上が予測できた.This paper describes implemention of Distributed Shared Memory(DSM)by using Distributed File System(DFS) and Memory Mapped File without changing souce code of OS in order to implement PC Cluster System for a non-open source commodity OS. We have designed and implemented a DFS device driver and a DSM library by plural high-speed network interface cards named DIMMnet-2 with mass buffer for Microsoft Windows. As a result of matrix multiplication evaluation,up to 1.99 times higher performance has been gained by 2-nodes distributed parallel execution.
著者
山口 武彦 赤羽 歩 村山 淳 寺西 望 佐藤 誠
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告 (ISSN:09196072)
巻号頁・発行日
vol.2005, no.95, pp.33-37, 2005-09-30

計算機の処理性能の向上に伴い, 視覚, 聴覚情報に加え, 力触覚情報によるインタラクティブ手法が様々に研究されている.また, Webアプリケーションなどのマルチメディアコンテンツの作成が大衆化する中, より簡単に触覚を提示できるような開発環境が求められている.しかし, 現状の開発環境では, 視覚提示部と触覚提示部とで別々の開発環境が必要となる.本稿では, 現在ブラウザに標準プラグイン化されているMacromedia Flashを用いて, ハプティックインタラクションを実現するシステムを提案する.このシステムは, 力触覚呈示部に触覚アクチュエータ(富士通コンポーネント(FCL)製)を用い, 既存のFlashプラットフォームから直接, 力触覚呈示が出来るようにActionScriptを実装した.これにより, Flashユーザは気軽に触覚提示のできるアプリケーションの開発ができるという利点がある.また, いくつかのFlashムービーに触覚を実装した際の効果の評価を行った.
著者
福谷 俊行 安村 禎明 上原 邦昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.27, pp.549-556, 2008-03-11

稿では,機械学習を用いた新しい 3 次元形状復元の手法を提案する.従来の 3 次元形状復元手法では様々な拘束条件が必要であるが,本手法ではこのような条件を用いずに,1 枚の画像から物体表面の法線ベクトルを復元する.これを実現するために,物体の明度と法線の関係を機械学習を用いて獲得する.まず様々な環境下において 3 次元形状が既知である画像とその法線マップから,k x k の窓を使って窓内の明度・色相と窓の中心の法線を得る.これらの関係を機械学習により獲得し,その結果を用いて未知入力画像における法線を復元する.この復元によって得られた法線を,学習を用いて補正する手法も提案する.また,法線から得られた深さを基に,異常な法線を検出して修正する手法も提案する.顔画像を対象とした実験では,従来手法よりも提案手法の方が高速で精度の高い復元ができた.We propose a new method for 3D reconstruction by a machine learning approach. Existing methods for 3D reconstruction are restricted by various assumptions. However, the proposed method does not use any assumptions and reconstructs normal vectors of an object surface from a single image. To achieve this, we acquire a relationship between brightness and normal vectors of objects by machine learning. First, k x k brightness and hues are obtained from images whose 3D shape is known under various environment in a k x k pixel window and a normal vector is obtained from center of k x k pixel window from normal map. These relations are obtained using machine learning. Then normal vectors of an unknown input image are reconstructed by using these relations. We also propose a method for correcting the reconstructed normal vectors by machine learning and a method for correcting the abnormal normal vectors detected by using the depth map. Experiments using human face images show that the proposed method achieved faster and high-precision 3D reconstruction than existing methods.
著者
安田 宜仁 堂坂 浩二 相川 清明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. HI,ヒューマンインタフェース研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.97, pp.127-132, 2002-02-01

本稿では,認識文法の異なる2つの認識器を同時に使用し,ユーザ発話後にそれらの出力のどちらを利用するかを決定するような主導権混合型対話の制御を提案する.機械学習を用いて2つの認識器の選択を行った実験の結果を示す.実験の結果,適切な文法選択の精度は,ベースラインの95.5%から,97.7%に改善することができた.
著者
野本 忠司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69, pp.1-6, 1995-07-20
参考文献数
13

本稿では日本語テキストにおける主題の自動抽出に向けて、新しい手法を提案する。本稿では、主題抽出を一種の文書分類(ext Categorizatio)と捉え、従来の文書分類の技術を応用した確率的な主題抽出方式を提案する。また、本稿では、格助詞を利用し主題抽出における文法情報の効果について検討する。CD?ROM版日本経済新聞(992年1?6月)の42,401件の記事をデータとして利用し、格情報あり、格情報なしの条件下で主題抽出の実験を行った。また、評価の基準としてベースラインを導入した。実験の結果では、格情報を利用したモデルが他の場合に比べ優位であることが確認された。しかし、本方式は記事が長くなるにつれ精度が急速に低下するなどの問題が見られ、改善の余地があることも分った。The paper describes a new method for discovering topical words in discourse. It shows that text categorization techniques can be turned into an effective tool for dealing with the topic discovery problem. Experiments were done on a large Japanese newspaper corpus. It was found that training the model on annotated corpora does lead to an improvement on the topic recognition task.
著者
福井 義和 北 研二 永田 昌明 森元 逞
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1996, no.27, pp.111-118, 1996-03-14
参考文献数
7
被引用文献数
2

確率・統計的手法に基づいた対話のモデル化について研究し、このような対話モデルを大規模言語データベースであるコーパスから自動的に生成するための実験を行なった。実験に用いたコーパスは、ATR対話コーパスであり、各発話には話者ラベルおよび発話行為タイプ(FT; Illocutionary Force Typ)が付与されている。Ergodic HMMおよびALERIGIAアルゴリズムを用いて、話者ラベルおよびIFTの系列をモデル化することにより、話者の交替や質問・応答・確認といった会話の基本的な構造を確率・統計的にモデル化することができた。In the work described here, we automatically deduce dialogue structures from a corpus with probabilistic methods. Each utterance in the corpus is annotated with a speaker label and an utterance type called IFT (Illocutionary Force Type). We use an Ergodic HMM(Hidden Markov Model) and the ALERGIA algorithm, an algorithm for learning probabilistic automata by means of state merging, to model the speaker-IFT sequences. Our experiments successfully extract typical dialogue structures such as turn-taking and speech act sequencing.
著者
橋本 康弘 陳Yu 大橋弘忠
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.85, pp.63-66, 2008-09-11

本研究ではソーシャルコミュニケーションの時系列データからネットワークの時系列を構築し,コミュニティ検出によってコミュニティ構造の時間発展を捉える.そして,分裂・融合を繰り返すコミュニティの遍歴を視覚的に理解するためのインタラクティブ性の高い可視化手法を実現することで,人間行動をモデル化する前段階としてのシナリオを語る枠組みを提案する.We introduce a new framework that enables us to discuss a probable scenario derived from insights on human behavior by developing a highly interactive visualization method for visualizing human community evolution. First, we create a number of successive networks from the time-series data on social communication, and then, extract and visualize a hidden dynamic structure of evolving communities by integrating some recently developed methods.
著者
丸山 訓英 鷲尾 巧 土肥 俊
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.103, pp.73-78, 1999-12-03
参考文献数
2
被引用文献数
1

有限要素法による離散化の結果生じる大規模連立1次方程式をベクトル計算機上で解くことを考える。解法として、有限要素法の1節点上の複数の未知数をブロックとするBlock ILU (IL)前処理反復法を用いる。一般に行列ベクトル積のベクトル化のためのデータ構造として知られるDJAD形式をBILU前処理行列に適用する。これにより、BILU前処理による前進後退代入計算において、CRS形式よりも長いベクトル長が得られる。評価例題(次元構造解析、未知数約37万)により本手法の効果をNEC SX?4/8 A (CP)上で評価し、前処理演算の計算時間が13分の1に短縮できるという結果を得た。一般にILU前処理においては、未知数のオーダリングが反復法の収束性、ベクトル性に大きな影響を与えることが知られている。本稿では、オーダリング方法についても考察し、BILU前処理においてオーダリングの影響がNEC SX?4/8A上でどのように現れるか評価した結果を示す。This paper deals with large sparse linear systems on high performance vector computers. Block incomplete LU (BILU) preconditioned iterative methods are adopted, where each block consists of unknowns on each node on a mesh in finite element or finite volume applications. The DJAD (Descending Jagged Diagonal) format is commonly applied to vectorize matrix vector multiplication for random sparse matrices. Proposed here is an extension of DJAD format for the BILU preconditioning. This technique enables to realize the vector length longer than the case implemented with a standard CRS (Compressed Row Storage) format. Numerical experiments using three dimernsional structural analysis problems show that the computational speed obtained with a solution method using this DJAD format is 13 times faster than that obtained with the same solution method with the CRS format on an NEC. supercomputer SX-4/8A. Ingeneral, an ordering of nodes in the ILU preconditioning has substantial influence on the convergence of the preconditioned iterative methods and the parallelism in the preconditioning. The effect of different orderings, i.e., the RCM (Reverse Cuthill- Mckee) and the multicolor orderings, on the total CPU time will also be compared on the SX-4/8A vector parallel supercomputer.
著者
中田 秀基 草野 貴之 松岡 聡 佐藤三久 関口 智嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.1996, no.22, pp.77-82, 1996-03-04
被引用文献数
3

ネットワーク数値情報ライブラリNinf(etwork based Infomation library for High Performance Computin)は、高速なネットワークを前提として、主に数値演算の分野において、計算自体を多くのユーザに提供することを目指したシステムである。本稿では、Ninfシステムを構築する要素の一つであるメタサーバに関して、そのアーキテクチャを示し、簡単な性能予備評価を示す。メタサーバは、サーバとクライアントの間にたちサーバの場所をクライアントに対して隠蔽する役割を果たす。また、メタサーバを用いることにより、簡単な分散並列計算が可能になる。To establish a framework of information sharing in the numerical computation area, we have proposed the Ninf, Network based information library for high performance computing. In this paper, we show a Meta Server architecture, which is a component of the Ninf system. Meta Server stand between the Server and the Client and hides the Server from the Client. It also enables easy distributed concurrent computation.
著者
岩橋 永悟 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.71, pp.327-334, 2003-07-16

データマイニング分野で重要な問題の一つに頻出パターン抽出問題がある。頻出パターン抽出手法では、多くの拡張手法を生んだAprioriが有名である。2000年になるとAprioriよりも高速な手法として、FP-growthが提案されたが、従来の並列化手法の多くは、依然としてAprioriに基づいている。本稿では、並列にディスクアクセスを行い、FP-treeをローカルに構築することによって、FP-growthを並列化する。本手法を32ノードクラスタ上で実験した結果、最小サポートを0.25%とした場合に約2倍の速度向上を得ることができた。また、最小サポートを2%とした場合、約130倍の速度向上を得ることができた。Frequent patterns mining is one of the important problem in data mining research. The Apriori is a prominent algorithm followed by many variants. In 2000, the FP-growth, which is reported to be faster than the Apriori, was proposed. However, many parallel algorithms of frequent pattern mining are still based on the Apriori. In this paper, we propose a parallelized version of the FP-growth, which accesses disks in parallel and constructs local FP-trees on each local memory. As a result of the evaluation using 32 node PC cluster, our method is approximately 2 and 130 times faster than sequential FP-growth, when minimum support is 0.25% and 2%, respectively.
著者
本間 正大 寺井 晃一 Piyanuch Klaisubun 石川 孝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告グループウェアとネットワークサービス(GN) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.31, pp.13-18, 2008-03-21

本論文では,あるブックマークに関連するブックマークをユーザに推薦することで情報発見の支援を行う推薦機能について述べる.ソーシャルブックマークはブックマークを検索する機能を提供しているが,ユーザはよりよい情報発見の支援を必要としている.そこで本論文では,ユーザの情報発見を支援するためにブックマークの登録共起関係を用いてブックマークを推薦する方法を提案し,それを実現した推薦機能を開発した.本推薦機能の評価結果から,本推薦機能は情報発見の支援に役立つという見込みが確認された.The paper describes the recommendation function that supports the information discovery by recommending bookmark related to a certain bookmark to a user. The Social Bookmarking Service provides a function to search bookmark, but the user needs support of better information discovery. For this problem, we proposed a method to recommend bookmark by using co-occurrence relations of a posted bookmark for supporting information discovery and developed the recommendation function using the recommendation technique. The evaluation result of the recommendation function shows the possibility that the recommendation function is useful for supporting information discovery.
著者
赤穂 昭太郎
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.37, no.1, pp.43-51, 1996-01-15
参考文献数
19
被引用文献数
14
著者
萩原 正人 小川 泰弘 外山 勝彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.22, pp.71-78, 2005-03-11
参考文献数
16
被引用文献数
2

大規模コーパスから語の類似関係を得るためには,語の共起関係や文脈などの特徴を利用する方法が一般的である.しかし,語に関する表層的な特徴をそのまま用いる手法には,ノイズの混入やスパースネスなどの問題がある.本稿では,確率論・情報理論に基づく潜在意味モデルであるPLSIを用い,語の潜在意味を推定することによって名詞間の類似関係を求める.評価実験の結果,tf・idfやLSIなどの従来手法と比較してPLSIの性能が最も高く,シソーラス自動構築におけるPLSIの有用性を明らかにした.また,PLSIを類義語の自動獲得へ適用する際の様々な基礎的利用技術についても報告する.A common way to obtain synonym relationships from large corpora is to utilize the features such as cooccurrence and words' context. However, methods based on direct use of surface information concerning to words suffer from noises and sparseness. This paper describes how to utilize PLSI, which is a latent semantic model based on probability theory and information theory, to infer the meaning of words and obtain synonym relationships between nouns. An experiment has shown that PLSI achieves the best performance compared to conventional methods such as tf・idf and LSI, which shows the effectiveness of PLSI for automated construction of thesauri. Various useful techniques when applying PLSI to automatic acquisition of synonyms are also discussed.