著者
猪股 優 長内 隆 後藤 智範 山本 晴彦
出版者
情報知識学会
雑誌
情報知識学会研究報告会講演論文集 情報知識学会 第10回(2002年度)研究報告会講演論文集 (ISSN:24329908)
巻号頁・発行日
pp.47-51, 2002 (Released:2017-09-21)
参考文献数
6

There are typical three kinds of of Amino acid Sequence Databases, PDB, pdb-aa, nr-aa. Originally these databases have their own format. However, each format seems as records of data, is not effective for advanced research such as homological search for amino acid sequences of proteins, ORF prediction. Experimental construction of XML database have been under construction to these databases for the purpose of efficient usage in related area. This paper reports the characteristics and problems on these databases.
著者
熊澤 侑美 後藤 智範
出版者
一般社団法人情報処理学会
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2014, no.16, pp.1-7, 2014-06-26

研究開発の活性化に伴って,新しい概念・モデル・理論を表わす新しい用語が出現する.外国語由来の語は,すぐには漢字標記の訳語が現れないため,カタカナ,場合によってはアルファベット表記がそのまま日本語の文書で使用される.近年,この傾向は非常に顕著であり,結果として複数の字種で表記される用語が著しく増加する傾向にある。本研究は NL-214 での報告内容を引き継ぎ,特許抄録に出現した多字種複合語を対象に,字種の観点から,字種並びの特性を明らかにすることを意図するものである.本報告により,字種変化パターンと用語数、先頭字種毎のパターンと用語について顕著な特性があることを明らかにした.さらに,多字種語の構成単語と字種単位との関係についても考察した.Lots of Compound terms used in Japanese technical literatures are written with multi character types. A lot of these terms are consisted of 2 from 5 single words which are expressed with using kanji, katakana, and also alphabets respectively. These terms are increasing as new ideas appear in science, or new technologies are invented in R&D. Our research intends to analyze to the sequence of multi character types of compound terms appeared in Japanese patent documents. Specifically, about 12 thousands compound terms extracted from patent abstracts were analyzed from character type sequence of view. It was clear in this research that some specific character type sequence patterns appear many kinds of compound terms. Furthermore, the relation between each component word and character string with single character type in a compound term were considered.
著者
森本 貴之 淺川 直輝 後藤 智範 藤原 譲
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.12, no.2, pp.80-87, 2002
参考文献数
11
被引用文献数
1 1

近年の計算機の高速化、大容量化と低価格化、さらにはインターネットの普及によって情報化が加速度的に進んでいる。今後も増加しつづけるであろう膨大な情報や知識を適切に利用するためには情報の内容に関する、より高度な処理機能が要求される。このような機能を実現するためには、情報や知識の意味を理解しなければならない。そして、そのためには意味関係が表現できる構造化およびその利用のためのアプリケーションあるいはシステムが必要である。このような要求に対して、専門用語を最小単位とした概念構造の生成とその利用のためのシステムの開発を進めている。本研究では、概念構造を生成するのためのシステムの一部である階層関係の自動抽出法における問題点の調査について報告する。
著者
梅木 定博 後藤 智範
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.187, pp.1-6, 2008-09-17
参考文献数
9
被引用文献数
1

日本語のテキストにおいて、主要な概念・テーマは漢字熟語または漢字熟語を含む名詞句に表現されることが多い。特に数文字以上の漢字熟語は、より短い漢字熟語、すなわち語基(word base)から構成され、統語的、意味的構造を有している。大規模な漢字熟語集合について、これらの構造を分析することは、漢字熟語の造語特性・形態素解析・関連語の選定など様々な自然言語解析およびオントロジーの開発に有用な基礎データを提供するものと考えられる。本研究は、一般辞書および専門用語辞書の見出し語から8文字の漢字熟語を対象に、構成語基の観点から品詞列パターンおよび構成語基の係り受けパターンについて調査・分析した。
著者
梅木 定博 後藤智範
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.33, pp.113-118, 2008-03-28
参考文献数
8
被引用文献数
3

日本語のテキストにおいて、主要な概念・テーマは漢字熟語または漢字熟語を含む名詞句に表現されることが多い。特に数文字以上の漢字熟語は、より短い漢字熟語、すなわち語基(word base)から構成され、統語的、意味的構造を有している。大規模な漢字熟語集合について、これらの構造を分析することは漢字熟語の造語構造、形態素解析、関連語の選定、未知語の推定など様々な自然言語解析に有用な基礎データを提供するものと考えられる。本研究は、一般辞書および専門用語辞書の見出し語から7文字の漢字熟語を対象に、構成語基の観点から品詞列パターンおよび構成語基の係り受けパターンについて調査・分析した。Kanji compound words or noun phrase consisted in them intend to explain key concepts or themes in Japanese texts.. Especially long kanji compound words have these characteristics in academic papers or patent documents. Long kanji compound word, which has five letters more consists of short word bases and have syntactically and semantically structures. It should be much beneficial to study to a large set of long kanji words based on word base sequence patterns.Our research examines the patterns of the large set of kanji compound words with seven letters which are contained in entry terms of the various kinds of dictionaries. This paper reports the occurrences of kanji compound words and the number of parts of speech sequence per a word base sequence pattern.
著者
渡辺 基広 水越 大介 後藤 智範
出版者
情報知識学会
雑誌
情報知識学会誌 (ISSN:09171436)
巻号頁・発行日
vol.14, no.2, pp.41-44, 2004

1990年代以降、複雑なデータ構造をもつ様々な対象に対する情報視覚化の研究が盛んに行われるようになった。 EDR電子辞書やNTT日本語語彙体系のような階層構造を有する大規模用語知識ベースを対象として、単一円錐モデルに基づく仮想3次元表示プログラムをJAVA3Dを用いて実装した。さらに表示用語総数に対する実行時間の計測を行った。描画対象オブジェクトの総数をnとすると、描画処理そのものは計測結果からO(n^3)となることが判明した。プログラム言語の制約、仮想3次元描画対象としての用語知識ベースの特性から、高速化の可能性について議論した。