著者
相薗 敏子
出版者
日本認知心理学会
雑誌
日本認知心理学会発表論文集 日本認知心理学会第11回大会
巻号頁・発行日
pp.161, 2013 (Released:2013-11-05)

人々は日常生活で鉄道や通信など多様なサービスを利用しており,それによって社会インフラ上には交通系ICカードや携帯電話の利用履歴,あるいはPOSデータなど膨大なデータが日々生成・蓄積されている。我々は,社会インフラ上のシステムの全体最適化や顧客サービスの満足度向上を目的として,これらデータを人々の生活履歴のデータと捉えて生活のパタンや行動特性を抽出・活用する研究を行っている。本稿では,鉄道の移動データから人々の生活パタンを抽出する手法および鉄道移動データによる実験結果について述べる。
著者
梶 博行 相薗 敏子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.42, no.9, pp.2248-2258, 2001-09-15
被引用文献数
1

対訳辞書は機械翻訳システムや多言語情報検索システムの重要な構成要素である.基本対訳辞書の増補や専門用語対訳辞書の作成を自動化することを目的として,対訳コーパスから語の対訳関係を抽出する新しい方法を開発した.本方法は,コーパス中で共起している語の集合で語を特徴付け,共起語集合の類似度が高い語のペアを対訳語ペアとして抽出する.異なる言語の語を構成要素とする共起語集合の類似度を計算するため,既存の対訳辞書を参照して対訳関係が成立する語を対応付ける.共起語集合の類似度計算という統計処理の中で既知の対訳知識を利用することにより,次の長所をあわせ持つ方法が実現できた.第1に,文レベルの対応付けがなされていない対訳コーパスに適用可能である.第2に,小規模な対訳コーパスから対訳語ペアを抽出することができる.第3に,未知語を含む単純語と複合語の任意の組合せの対訳語ペアを抽出することができる.日英対訳の特許明細書コーパスを用いて,既存の対訳辞書(50 000語の見出し語を持つ日英機械翻訳システムの対訳辞書)に未登録の対訳語ペアを抽出する実験を行った.33.8%の抽出率,76.7%の正解率を達成し,提案方法が実用に供しうるとの結論を得た.本方法は,大規模な対訳コーパスを要求せず,対訳文書を個別に処理していけばよいので,実際的である.今後の課題として,コーパスからの複合語抽出精度を向上させることがあげられる.A new method has been developed for extracting pairs of words that are translations of each other from a parallel corpus. First, for each word of both languages, the set of words co-occurring with it is extracted from the corpus. Then, the similarity between each pair of co-occurring word sets, one for a word of the first language and the other for a word of the second language, is calculated with the assistance of an existing bilingual dictionary of basic words. Finally, pairs of words that bear much similarity are selected. The method has the following features due to the combined use of co-occurrence information given by a corpus and bilingual knowledge given by an existing dictionary. It can extract word translations from rather small, unaligned corpora; it can extract a variety of word translations including pairs of simple words, pairs of compound words, and mixed pairs of simple and compound words. An experiment using Japanese-English patent specification documents achieved 33.8% recall and 76.7% precision; this demonstrates that the method is useful both for improving the coverage of an existing bilingual dictionary and for creating a bilingual dictionary of technical terms. A further problem is to improve the method for extracting compound words from corpora.
著者
相薗 敏子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.82, pp.1-6, 2006-07-27
参考文献数
8

人名文字列とそれに対応する実体としての「人」には同姓同名による暖昧性がある。本研究ではまず,テキストに出現する人名の暖昧性ついて営業日報データ7 600件を対象に調査を行った。その結果,営業日報データには延べ5 778件の人名が出現しており,そのうち55%に同姓同名による暖昧性が存在し,文字列だけで「人」を同定すると最大52人の「人」を同一人物としてしまう可能性があることが分かった。これに対して,本研究では人名と同じ文に出現する組織名を利用した暖昧性解消アルゴリズムを提案する。先の営業日報データを用いた実験では,暖昧性のある人名に対して89%の精度で正しく「人」に同定できるという結果を得た。In this paper, I discribe the identification issue of parson name which appeared in text. I explore 5,778person names which are extractde from 7,600 sales reports, 55% of them are ambiguous due to multiple candidates in identifiable person list. Also this result shows 52 people with people with the same surname at the maximum may be treated as one person. In order to resolve this problem, I propose an algorithm using organization name which co-occur with person name in the same sentence. In an experiment using the sales reports, 89% of the ambiguous person names are identified correctly.
著者
梶 博行 森本 康嗣 相薗 敏子 山崎 紀之 飯田 恵子 内田 安彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.39, pp.97-104, 1999-05-17
被引用文献数
1

電子化されたテキスト情報の増加とともに情報アクセス技術の重要性が高まっている.本稿では,大規模テキストコーパスの探索を支援する,インタラクティブなテキストマイニングシステムを提案する.提案システムは,コーパスから関連シソーラスを自動生成し,コーパスに対応したシソーラスをナビゲーションできるようにする.関連タームのクラスタリング,シソーラスオーバビューの生成,オーバビューから詳細へのズームインという特徴機能によって,漠然とした情報要求しかもたないユーザや専門外のドメインの情報を求めているユーザでも,適切な情報を効率よく獲得することができる.プロトタイプの開発と新聞記事コーパスを用いた実験を通じて,提案システムの有効性を実証した.With the growing amount of textual information available in electronic form, information access technologies have become extremely important. This paper proposes an approach to interactive text mining that facilitates exploration through a large corpus of texts. The proposed system automatically generates an association thesaurus from a corpus, and enables users to navigate through this corpus-dependent thesaurus. Its novel functions, including the clustering of related terms, the generation of an overview of the thesaurus, and the zooming-in from the overview to the details of a specific part, allow users to get information efficiently even when their information needs are vague or they seek information in unfamiliar domains. The effectiveness of the system has been demonstrated through prototyping and an experiment with a newspaper article corpus.