著者
福田 智子 駒木 敏 田坂 憲二 黒木 香 矢野 環 川崎 廣吉 竹田 正幸 波多野 賢治 岩坪 健 古瀬 雅義 藏中 さやか 三宅 真紀 西原 一江 日比野 浩信 南里 一郎 長谷川 薫
出版者
同志社大学
雑誌
基盤研究(C)
巻号頁・発行日
2007

平安中期成立かといわれる類題和歌集『古今和歌六帖』約4500首を対象に、独自に開発した文字列解析システムを用いて、すべての和歌の出典考証を行った。また、複雑な書き入れに対応したテキストデータ作成のため、タグ付け規則を案出した。そして、六つの伝本のテキストファイルを作成した。それらを対象に、諸本の同一歌を横並びで比較対照でき、しかも、底本を自由に選択できる校本システムを開発した。さらに、伝本の原態、特殊な漢字表記、朱筆書き入れに関する基礎資料を作成した.
著者
大谷 壽一 竹田 正幸 今田 結城 澤田 康文
出版者
公益社団法人 日本薬学会
雑誌
YAKUGAKU ZASSHI (ISSN:00316903)
巻号頁・発行日
vol.126, no.5, pp.349-356, 2006 (Released:2006-05-01)
参考文献数
8
被引用文献数
7 8

Brand name confusion is one of the most common causes of drug-related errors. The aim of this study was to develop quantitative measures of similarity among brand names of drugs. We modified the fragmentary pattern-based measure, a measure of similarity for character strings based on the string resemblance system, to develop three novel measures of similarity, i.e., the head and tail-weighted fragmentary pattern-based measure (htfrag), visually weighted htfrag (vwhtfrag), and auditorily weighted htfrag (awhtfrag). The 227 pairs of brand names for which confusion errors have been reported were used as a positive control group. Ten sets of 2270 random pairs of brand names were generated as negative controls. Then we evaluated the measures developed by using the geometric mean of sensitivity and selectivity as an objective function, in comparison with two conventional measures of similarity based on the vector space model (cos1 and htco). The measures developed, htfrag, vwhtfrag, and awhtfrag, provided better discrimination with mean objective function values of 0.953, 0.962, and 0.940, respectively, which were higher than those for the conventional measures cos1 and htco (0.922 and 0.892, respectively). The rates of false-positives and false-negatives were 3.3—10.7% and 5.3—11.9% for cos1, respectively, while the rates for vwhtfrag were 4.8—5.9% and 2.2%, respectively. The measures of similarity developed may provide significant information to avoid drug-related errors associated with brand name confusion.
著者
玉利 公一 竹田 正幸 福田 智子 南里 一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.8, pp.81-88, 2000-01-21

本歌取りとは,特定の歌をふまえて新しい歌を作る作歌手法をいう.本歌取りの半自動抽出を行うための有効な方法として,まず,和歌間の類似性指標を定義し,その指標の値の大きい和歌の対を人手により検証する,といった方式が考えられる.このような方式においては,成功の鍵は,いかに類似性指標を定義するかにかかっている.著者らは,以前に最長共通部分列(LCS)の長さを用いた指標を変更することにより,新しい指標を提案し,それが本歌取りの半自動抽出に有効であることを示した.しかし,本歌取りには様々なふまえ方があるため,むしろ,研究者の視点に応じて指標を自由に変更でき,その都度,類似度の値の高い対を確認していく,というシナリオが有効であろう.本稿では,類似性指標を自由に設計するための共通の土俵となる統一的枠組みを提唱する.この枠組みでは,指標を,パターン集合とパターンにスコアを与える関数の対によって表し,二つの文字列間の類似度を,その共通パターンの最大スコアとして定義する.このため,このもとで設計したおのおのの指標は,直感的に把握しやすいという利点がある.本稿では,この枠組みのもとで,いくつかの指標を提示し,本歌取りの半自動抽出の観点から評価する.In this paper we consider a problem of semi-automatically finding instances of poetic allusion in a collection of classical Japanese poems. The key to success is how to define a similarity measure. We give a unifying framework that capture the essence of many existing measures. It makes it easy to design new measures appropriate to the problem. In this paper, we propose new measures and evaluate them.
著者
福田 智子 南里 一郎 竹田 正幸
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2002, no.8(2001-CH-053), pp.47-54, 2002-01-26

要旨.古典和歌データから同一文字列を2回以上含む歌を抽出し,その分析を行う.『万葉集』と,『古今集』から『新続古今集』までの勅撰集との,あわせて22の歌集に載る約40,000首から,5字以上の同一文字列が2回含まれる歌を48首抽出した.そして,それらの用例の,歌集ごとの分布状況や,表現効果の特質を考察した.その結果,『万葉集』に見られる7字の同一文字列反復が『古今集』には皆無であること,『新古今集』以降の勅撰集には5字以上の同一文字列反復の例はまずなく,唯一例外なのが『玉葉集』であることなどが,具体的に明らかになった.
著者
竹田 正幸 篠原 歩
雑誌
情報処理
巻号頁・発行日
vol.43, no.7, pp.763-769, 2002-07-15

テキストデータを圧縮したままパターン照合を行う「圧縮テキスト上でのパターン照合」が新しい研究課題として脚光を浴びるようになった.本稿では,この課題に関する最新の研究成果について,理論と実用の両面から解説する.
著者
福田 智子 竹田 正幸 南里 一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.100, pp.49-56, 2000-10-27
被引用文献数
1

本稿では,任意の歌集間から類似歌を抽出することで,ある歌集の成立年代の推定へとつながった事例を報告する.これまで鎌倉時代中期の成立ではないかと考えられていた『為忠集』と,平安最末期以降の私家集(個人歌集)との間で,網羅的に類似歌の抽出を行ったところ,室町時代に成立した,正徹の『草根集』に,まとまった数の類似歌が拾い出せた.さらに,正徹の弟子である桜井基佐の『基佐集』に,『為忠集』に載る歌と同一の歌が見いだせた.『為忠集』に現れる人物の考証も併せて行ったところ,『為忠集』の成立を15世紀と推定することができた.This paper reports an applications of the method of automatically extracting similar poems we developed. We have compared Tametada-Shu, the mysterious anthology unidentified in Japanese literary history, with a number of private anthologies edited after the middle of the Kamakura period (the thirteenth-century) and found that there are several pairs of similar poems between Tametada-Shu and Sokon-Shu, an anthology by Shotetsu. The result suggests that the mysterious anthology was edited by a poet in the early Muromachi period (the fifteenth-century). There have been surmised dispute about the editing date since one scholar suggested the middle of Kamakura period as a probable one. We have had strong evidence about this problem.
著者
山崎 真由美 竹田 正幸 福田 智子 南里 一郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.97, pp.57-64, 1998-10-23
被引用文献数
3

和歌文学研究において,歌の類似性の抽出は重要である.歌の類似性に着目することにより,過去や同時代の歌人による作品への影響を明らかにすることができ,また歌人の個性や時代による特徴を獲得することができる.従来,この類の研究は,任意の歌もしくは表現にまず注目し,次にその用例を収集するという方法で進められてきた.だがもし,大量の和歌のデータの中から類似歌を自動抽出することができれば,その類似歌の発見が契機となって新たな視点が得られ,研究の大きな進展につながることも期待できるのである.本論文では,大量の和歌データを対象に,計算機による類似歌の自動抽出を目指し,そのために必要な類似性の指標を提案する.提案した指標は,最長共通部分列に基づく指標を改善したものである.本方式を用いて,古今集と新古今集からの類似歌抽出を試みたところ,類似度の高いものの多くは,実際に本歌取りであり,また,主な注釈書には指摘が漏れている本歌取りも指摘できることが判明した.In this paper we consider a problem of automatically finding similar poems from a collection of classical Japanese poems. We propose two similarity measures, and show that they are superior to the similarity measure based on the longest common subsequence. We report successful results in finding similar poems between two imperial anthologies: KOKINSHU and SHINKOKINSHU
著者
杉本 典子 金丸 玲子 池田 大輔 竹田 正幸 井上 仁 廣川 佐千男
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告デジタルドキュメント(DD) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.95, pp.27-34, 2003-09-26
被引用文献数
3 2

自己点検・評価活動のサポート 及び第三者評価への機能的な対応を目的として 九州大学教官の教育 研究 社会連携活動に関するデータを蓄積し公開するためのデーベースシステムを構築した. 一般に 大学評価では 必要となる基礎資料や統計データは多種多様であり 社会的要望や大学戦略の変化に伴って変動するものと考えられる. そのため 不定長のデータからなる不定個数のデータ項目を扱うのに適したデータベースが必要となる. そこで 本システムでは XMLをデータ構造として採用した. 本システムには 項目変更に対応するための機能が組み込まれており データ項目の変更に伴って発生する種々の作業をきわめて容易に行うことができる.We have constructed a database system containing research, education and social activities of teachers, in order to support the self-evaluation activity, and to functionally response to the third person evaluation of Kyushu University. It is known that various kinds of data items are needed for university evaluation and that it is possible to change data items according to the social requirement and the university strategy. Thus, we adopt an XML as a data format for our system, because it is flexible enough to represent such data. Since our database system has some useful properties to change data items, we caneasily upgrade the system to deal with the data scheme.
著者
竹田 正幸 定兼 邦彦 坂本 比呂志 瀧本 英二 坂内 英夫 稲永 俊介 喜田 拓也 畑埜 晃平 井 智弘 中島 祐人 成澤 和志
出版者
九州大学
雑誌
基盤研究(A)
巻号頁・発行日
2013-04-01

爆縮とは工学用語で,爆発の圧力が;外側ではなく内側へ集中する現象をいい,通常では得難い物理現象を発生させるために利用される.本研究では,膨れ上がるデータを爆発的に凝縮することにより,(i) データ量削減, (ii) データ処理の高速化,(iii) 知識獲得の三つを達成する基盤技術の確立を目指し,これを情報爆縮 (information implosion) と名付けた.情報爆縮基盤技術の確立のために,(A)高速データストリーム圧縮アルゴリズム,(B)圧縮データ上の高速データ処理アルゴリズム,(C)大規模データ解析アルゴリズムという3つの研究項目をおいて研究開発を行い多くの成果を得た.
著者
竹田 正幸 篠原 歩 坂内 英夫 瀧本 英二 坂本 比呂志 畑埜 晃平 稲永 俊介
出版者
九州大学
雑誌
基盤研究(B)
巻号頁・発行日
2010

本研究では,圧縮データ処理に基づいて軽量XMLデータベース管理システム(DBMS)のための基盤技術を確立することを目標とし,主として以下の成果を得た.(1) 高速で軽量なオンライン文法圧縮アルゴリズムの開発. (2) 圧縮データ上で動作するq-グラム頻度計算アルゴリズムの開発. (3) 高速XMLデータストリームフィルタリング技術の開発. この他,DBMSの備えるべき知的データ処理機能として,パターンの効率的な枚挙,分類,オンライン予測等に関する研究を行い,多くの成果を得ている.
著者
福田 智子 矢野 環 田坂 憲二 岩坪 健 黒木 香 竹田 正幸 深川 大路 波多野 賢治 南里 一郎 宮崎 裕子 坂田 桂一 藤井 翔太
出版者
同志社大学
雑誌
基盤研究(C)
巻号頁・発行日
2010

古今和歌六帖』と『源氏物語』を研究対象として校本システムを開発し、平安朝文学の伝本と表現に関する考察をおこなった。和歌用デジタル校本システムについては、伝本の墨付きの現状を、より論理的に表記するタグ付け規則を案出した。また、散文用校本作成支援ツールは、『源氏物語』の伝本4本のデータ処理をほぼ完了し、計算機を用いた異文箇所の数値化、およびSplits Treeによる本文系統の視覚化といった、本文異同を把握する一連の手法を確立した。
著者
稲永 俊介 船本 崇 竹田 正幸 篠原 歩
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. COMP, コンピュテーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.622, pp.29-36, 2004-01-22

文字列の文法に基づく圧縮とは,与えられたテキストを生成する文法を構築することによってデータのサイズを縮小する圧縮法である.この中で長さ優先置換法とは,テキスト中の部分文字列のうち,重複なく複数回現れている最長のものを生成規則として別の一文字に置換していくものである.本論文では,文字列に対する索引構造の一つである接尾辞木に対して極めて技巧的な構造の更新を行うことにより,この長さ優先置換を線形時間で行うアルゴリズムを提案する.
著者
成澤 和志 稲永 俊介 坂内 英夫 竹田 正幸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. COMP, コンピュテーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.24, pp.63-70, 2007-04-19
被引用文献数
1

本論文では,Blumerらによって提案された同値関係による同値類を計算する問題を考える.Blumerらはコンパクト有向無閉路文字列グラフ(CDAWG)と呼ばれる索引構造を定義するために同値類を利用した.同値類は本質的に等しく出現する冗長な部分文字列を集めた集合であるため,テキスト解析において有用である.本論文では,接尾辞配列を用いて同値類を計算するアルゴリズムを提案する.提案アルゴリズムでは,接尾辞木および接尾辞リンク木の巡回を模倣するため接尾辞配列の他に2つの補助配列を使用するが,これら以外のデータ構造を必要としない.このアルゴリズムは入力文字列に対して,線形時間および線形領域で動作する.本論文では,提案アルゴリズムと接尾辞木およびコンパクト有向無閉路文字列を用いたアルゴリズムとの計算時間・計算領域を計算機実験によって比較する.