著者
安岡 孝一
出版者
京都大學人文科學研究所
雑誌
東方學報 (ISSN:03042448)
巻号頁・発行日
vol.83, pp.349-360, 2008-09-25

This is a report of the proceedings of the research seminar "Constructing Kanji (漢字) Informatics", which was held from 2004 to 2008, coordinated by Yasuoka Koichi. The seminar started out with considering a hierarchical model for representing digital text using a model consisting of four layers as follows : image layer, text layer, syntax layer and semantic layer. To better understand the relationship of the image and text layer, we spent some time analyzing and trying to understand the rules for vertical layout of complex text in Japanese and other East Asian languages, including the handling of pronounciation guides (so called 'ruby') The next step was to invert the direction and try to identify characters on the image representation of a text, in the same way an optical character recognition program procededes. This turned out to be not so easy, especially with stone rubbings that exhibit a irregular layout of the characters, but worked reasonably well for characters in a regular grid. In moving to the syntactic and semantic layer, the final topic for the seminar was to consider methods for adding punctuation marks (dots) to a Chinese text without any punctuation. After trying a number of different statistical approaches, like looking at characters that appear before or after punctuation dots in already punctuated texts, 2-grams, or even rhyme patterns it became evident that a purely statistical approach would not give the desired results, but that it was necessary to also to take grammatical relations into account. The most promising approach in this respect seemed to be use text with reading marks for kanbun, which do provide some basic grammatical annotation. It was therefore decided to devote a follow up seminar to the development of a corpus of kanbun annotated text that could be used as training and test material for morphological and syntactical parsers.
著者
安岡 孝一
巻号頁・発行日
pp.1-38, 2019-09

[第43回速記科学研究会公開講演会] とき: 2019年9月1日(日) ところ: 京都府立大学稲盛記念会館211教室, 主催: 速記科学研究会, 速記懇談会, 速記・言語科学研究会
著者
安岡 孝一 ウィッテルン クリスティアン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹 藤田 一乘
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.63, no.2, pp.355-363, 2022-02-15

Universal Dependenciesに基づいて,『孟子』『論語』『禮記』『十八史略』の依存構造(係り受け)コーパスを製作した.さらに,このコーパスを用いて,古典中国語の文切り・形態素解析・係り受け解析を統合的に行う解析システムも開発した.Universal Dependenciesは,書写言語における品詞・形態素属性・依存構造(係り受け情報)を,言語に依存せず記述する手法である.Universal Dependenciesの係り受け記述は,いわゆる動詞中心主義であり,言語横断的であると同時に,古典中国語における動賓終構造の記述にも適している.ただし,Universal Dependenciesにおけるコピュラ文の記述方法は,古典中国語のコピュラ文との間で微妙に齟齬があり,結果として,補語が節であるようなコピュラ文(約1.6%)に関しては,記述は行えるものの記法上の問題が残った.
著者
安岡 孝一 山崎 直樹 二階堂 善弘 師 茂樹 Wittern C. 池田 巧 守岡 知彦 鈴木 慎吾
出版者
京都大学
雑誌
基盤研究(B)
巻号頁・発行日
2017-04-01

古典漢文における動詞の作用域、すなわち「動詞の後に置かれる項」のまとまりを、自動抽出する手法の開発をおこなった。具体的には、Universal Dependenciesと呼ばれる文法記述手法を用いて、いわゆる四書(『孟子』『論語』『大學』『中庸』)の係り受けコーパスを制作し、これを用いて、古典漢文の形態素解析と依存文法解析(係り受け解析)をおこなうツールUD-Kanbunを作成した。さらに、このツールを発展させて、動詞の作用域を元に返り点の自動生成をおこない、日本語の活用語尾と助詞を自動で付加することで、自動的に訓読をおこなうツールUD-Kundokuを試作した。
著者
安岡 孝一
出版者
京都大學人文科學研究所
雑誌
東方学報 (ISSN:03042448)
巻号頁・発行日
vol.85, pp.542-533, 2010-03

[ササ]" has been regarded as a "wrong" character by MJJ (Ministry of Justice Japan). It is excluded from the Unified Character Set for Family's Registers 戸籍統一文字) in Japan, and from the computer character sets such as JIS X 0213 or Unicode. In September, 2009, MBS (Mainichi Broadcast Station) reported about a family, whose family name had been "[ササ]山" and was changed into "密山" by MJJ. MJJ has been trying to exclude "wrong" characters from Family's Registers, correcting them into "right" characters. MJJ considered "[ササ]" as a "wrong" character and corrected it into "密" . MBS contacted CIEAS (Center for Informatics in East Asian Studies, Institute for Research in Humanities, Kyoto University) about the character "[ササ]", and the author, a faculty member of CIEAS, was interviewed. In fact "[ササ]" is less common nowadays. Thus the author, also a member of JIS committee, did not include "[ササ]" in JIS X 0213, since JIS X 0213 should include characters that are common in Japan. However, "[ササ]" was used more frequently in the Kamakura period and appeared in old Japanese dictionaries. "[ササ]" is a rarely-used character but not a "wrong" one. As a result MJJ withdrew their decision about "[ササ]" and re-corrected the family name into "[ササ]山". But MJJ is still trying to exclude other "wrong" characters from Family's Registers even now.
著者
安岡 孝一 安岡 素子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. CH,[人文科学とコンピュータ] (ISSN:09196072)
巻号頁・発行日
vol.36, pp.1-6, 1997-11-15

日本の地名には、あまり他に用例がないような漢字あるいは「国字」とよばれるような漢字がしばしば見られる。このような漢字は、しばしば漢和辞典等には収録されておらず、漢字研究の枠から洩れているのが現状である。本稿では、このような「地名にのみ使用される漢字」にスポットをあてるべく、「ぽすたるガイド'97」において使用頻度が非常に低い漢字の調査をおこない、それらのうち辞書に含まれていない漢字全ての地名用例を示している。
著者
安岡 孝一
雑誌
情報処理学会研究報告システムLSI設計技術(SLDM)
巻号頁・発行日
vol.1998, no.113(1998-SLDM-090), pp.99-106, 1998-12-10

LUT型FPGA上での組合せ回路の各結線の論理関数を記述するための表現法として、SPD (Sums of Products to be Distinguished)を提案する。また、LUT型FPGA上での順序回路の状態割当を記述し、さらに各結線の論理関数を記述するための表現法として、SPSD (Sums of Products and States to be Distinguished)を提案する。
著者
安岡 孝一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.55, no.11, pp.826-832, 2013

住民基本台帳ネットワーク統一文字は,当初はUCS(国際符号化文字集合)を拡張する形で設計されており,いかなるコンピューターでも使用できるオープンなシステムを目指したはずだった。しかし,UCSの基本設計に対する誤解や,その後のUCSの変化に十分追随できなかったために,住民基本台帳ネットワーク統一文字は,もはや現代のOS上では動作しない文字コードになってしまっている。本稿では,住民基本台帳ネットワーク統一文字の問題点と,その問題点を踏まえた上での今後の方策について述べる。
著者
安岡 孝一
雑誌
研究報告人文科学とコンピュータ(CH) (ISSN:21888957)
巻号頁・発行日
vol.2015-CH-106, no.2, pp.1-8, 2015-05-09

「パソコンのキーボードのキーの配列が不自然だと思ったことはありませんか」 から始まる読売新聞記事 (2015年3月2日) に反論を試みた.記事のごく一部は訂正されたものの,反論の大部分は徒労に終わり,「連続して打つ頻度の高い文字を遠ざける並び方に変えた」 というガセネタが,再々流布される結果となった.このような局面において,人文情報学に何ができるのか,問題提起と考察を試みる.
著者
安岡 孝一
雑誌
研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.2013, no.11, pp.1-6, 2013-01-18

2004 年 8 月に開発を始めた拓本文字データベースは, 8 年の開発期間の後,漢代~中華民国初期の拓本から 180 万文字を切り出した,巨大な文字画像データベースへと発展した。しかし,巨大化した結果,さまざまな問題も発生している。本報告では,その現状と今後の展望について述べる。The author has been developing Character Database of Digital Rubbings since August 2004. Now it consists of 5,000 rubbings and includes 1,800,000 character images from Han Dynasty to Xinhai Revolution. Such gigantic image database has its own difficulty to manage. In this report the author reveals the problems on the database and shows the way to control it.
著者
安岡 孝一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 人文科学とコンピュータ研究会報告
巻号頁・発行日
vol.2015, no.2, pp.1-8, 2015-05-09

「パソコンのキーボードのキーの配列が不自然だと思ったことはありませんか」 から始まる読売新聞記事 (2015年3月2日) に反論を試みた.記事のごく一部は訂正されたものの,反論の大部分は徒労に終わり,「連続して打つ頻度の高い文字を遠ざける並び方に変えた」 というガセネタが,再々流布される結果となった.このような局面において,人文情報学に何ができるのか,問題提起と考察を試みる.
著者
安岡 孝一 安岡 素子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.80, pp.49-54, 1997-08-29
被引用文献数
1

JIS X 0221 の漢字は、中国・台湾・日本・韓国の漢字コード規格から集められたものである。このうち、中国の GB 8565 からの採録とされている漢字は290字ある。しかし調査の結果、これら290字のうち87字は、実際には GB 8565 には含まれていないことがわかった。本稿では、これらの漢字が一体どのような経緯で JIS X 0221 に採録されることになったのかを、さまざまな漢字表を歴史順に追うことによって明らかにする。CJK characters of JIS X 0221 are gathered from domestic standards of China, Taiwan, Japan, and Korea. And JIS X 0221 insists that 290 characters are from GB 8565 of China. However, in fact, 87 characters of the 290 are not included in GB 8565. In this paper, we reveal why and how these 87 characters are stuffed into JIS X 0221.
著者
安岡 孝一 山崎 直樹 二階堂 善弘 師 茂樹 クリスティアン ウィッテルン 池田 巧 守岡 知彦 鈴木 慎吾
出版者
京都大学
雑誌
基盤研究(B)
巻号頁・発行日
2010

古典漢文の白文(句読点や区切りや返り点のない単なる漢字の列)に対し、形態素解析をおこない、品詞情報つきの形態素に分解するシステムを構築した。また、形態素解析に必要な古典漢文コーパスと古典漢文辞書を、汎用の形態素解析エンジンMeCabに即した形式で作成し、WWWで公開した。これらと合わせ、古典漢文コーパスを構築するためのツール群も作成し、同じくWWWで公開した。