著者
安岡 孝一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.55, no.11, pp.826-832, 2013-02-01 (Released:2013-02-01)
参考文献数
8

住民基本台帳ネットワーク統一文字は,当初はUCS(国際符号化文字集合)を拡張する形で設計されており,いかなるコンピューターでも使用できるオープンなシステムを目指したはずだった。しかし,UCSの基本設計に対する誤解や,その後のUCSの変化に十分追随できなかったために,住民基本台帳ネットワーク統一文字は,もはや現代のOS上では動作しない文字コードになってしまっている。本稿では,住民基本台帳ネットワーク統一文字の問題点と,その問題点を踏まえた上での今後の方策について述べる。
著者
安岡 孝一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.50, no.2, pp.67-73, 2007 (Released:2007-05-01)
参考文献数
13
被引用文献数
1 1

ケータイを使ってインターネットにアクセスする際に,最も注意しなければならないのは,絵文字の問題である。ケータイの絵文字をインターネット上で使うと,ほぼ確実に文字化けする。文字化けが起こるのは,各社が勝手な文字コードをケータイ上に実装しており,その結果,文字コードによる情報交換の一意性が,ケータイの絵文字に関してはまったく保証されなくなってしまっているからである。しかしながら文字化けの問題は,ケータイのみの問題というわけではない。実はMicrosoft Windowsが採用しているCP932においても,文字化けの問題が内在している。その意味では,JISやUnicodeに従わない文字コードというのは,常に文字化けの危険性を伴っている,ということである。
著者
安岡 孝一 ウィッテルン クリスティアン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.323-331, 2018-02-15

古典中国語(漢文)の解析手法として,MeCabを用いた形態素解析手法を提案する.本手法では,漢文の動賓構造を表現すべく,4階層の「品詞」からなる新たな品詞体系を構築し,それに基づくMeCab漢文コーパスを設計した.合わせて,MeCab漢文コーパスを入力するための専用ツールとして,XEmacs CHISEをベースとしたコーパス入力ツールを開発した.また,MeCab漢文コーパスを効果的に管理し,さらには品詞体系のリファクタリングを行うべく,MeCab漢文コーパスのLinked Data化を行い,WWW上で公開した.さらに,MeCabを用いた漢文形態素解析の応用として,漢文における固有表現の自動抽出に挑戦した.結果として,地名の自動抽出は高精度に行うことができたが,官職・人名の自動抽出はそれぞれに課題が残った.
著者
安岡 孝一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.48, no.8, pp.487-495, 2005 (Released:2005-11-01)
参考文献数
27

日本の漢字情報処理における難題のひとつに,異体字処理の問題がある。当用漢字表およびそれに続く常用漢字表が,固有名詞を埒(らち)外としてしまった結果,人名における漢字と,地名における漢字が,それぞれ異なる字体を持つに至った,という現実が,この問題をさらに複雑なものとしている。この問題を解決するには,Unicodeのような「漢字統合」を主眼とする文字コードでは力不足であり,むしろ日本国内向けに特化された文字コードが望ましい。本稿で紹介するAdobe-Japan1-6は,Adobe Systems社が日本向けに開発した文字コードだが,日本市場でのニーズ,特に異体字処理を,非常に強く意識した文字コードとなっている。
著者
安岡 孝一 クリスティアン ウィッテルン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
出版者
情報処理学会
雑誌
情報処理学会研究報告 : 人文科学とコンピュータ(CH) = IPSJ SIG Technical Report (ISSN:21888957)
巻号頁・発行日
vol.2018, no.20, pp.1-8, 2018-01-28

第116回人文科学とコンピュータ研究発表会古典中国語(漢文) の解析手法として,Universal Dependencies の古典中国語への適用に挑戦した.言語横断的な依存構造記述であるUniversal Dependencies は,ニューラルネットを用いた言語解析ツール(特にSyntaxNet) 等に採用されていることから,係り受け解析への応用が容易だと考えられる.しかしながら,古典中国語の文法構造は,Universal Dependencies とは必ずしも相性が良くなく,いくつかの点で齟齬が生じている.この点を含め,現時点での古典中国語Universal Dependencies の検討状況を,他言語UniversalDependencies との比較も含め,大まかに報告する.
著者
安岡 孝一
出版者
日本漢字学会
雑誌
日本漢字学会第1回研究大会予稿集
巻号頁・発行日
pp.33-48, 2018-12-01

日本漢字学会第1回研究大会、2018年12月1日(土)・2日(日)、於京都大学。
著者
安岡 孝一 安岡 素子
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.1997, no.108(1997-CH-036), pp.1-6, 1997-11-15

日本の地名には、あまり他に用例がないような漢字あるいは「国字」とよばれるような漢字がしばしば見られる。このような漢字は、しばしば漢和辞典等には収録されておらず、漢字研究の枠から洩れているのが現状である。本稿では、このような「地名にのみ使用される漢字」にスポットをあてるべく、「ぽすたるガイド'97」において使用頻度が非常に低い漢字の調査をおこない、それらのうち辞書に含まれていない漢字全ての地名用例を示している。
著者
安岡 孝一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.48, no.8, pp.487-495, 2005

日本の漢字情報処理における難題のひとつに,異体字処理の問題がある。当用漢字表およびそれに続く常用漢字表が,固有名詞を埒(らち)外としてしまった結果,人名における漢字と,地名における漢字が,それぞれ異なる字体を持つに至った,という現実が,この問題をさらに複雑なものとしている。この問題を解決するには,Unicodeのような「漢字統合」を主眼とする文字コードでは力不足であり,むしろ日本国内向けに特化された文字コードが望ましい。本稿で紹介するAdobe-Japan1-6は,Adobe Systems社が日本向けに開発した文字コードだが,日本市場でのニーズ,特に異体字処理を,非常に強く意識した文字コードとなっている。
著者
安岡 孝一 ウィッテルン クリスティアン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.323-331, 2018-02-15

古典中国語(漢文)の解析手法として,MeCabを用いた形態素解析手法を提案する.本手法では,漢文の動賓構造を表現すべく,4階層の「品詞」からなる新たな品詞体系を構築し,それに基づくMeCab漢文コーパスを設計した.合わせて,MeCab漢文コーパスを入力するための専用ツールとして,XEmacs CHISEをベースとしたコーパス入力ツールを開発した.また,MeCab漢文コーパスを効果的に管理し,さらには品詞体系のリファクタリングを行うべく,MeCab漢文コーパスのLinked Data化を行い,WWW上で公開した.さらに,MeCabを用いた漢文形態素解析の応用として,漢文における固有表現の自動抽出に挑戦した.結果として,地名の自動抽出は高精度に行うことができたが,官職・人名の自動抽出はそれぞれに課題が残った.A method to analyze classical Chinese texts is proposed. In the method, we use our original morphological analyzer based on MeCab. We propose a new four-level word-class system to represent the predicate-object structure of classical Chinese. In order to make a corpus for classical Chinese on MeCab, we have constructed a MeCab-corpus editor based on XEmacs CHISE. In order to control the corpus effectively, and to refactor our four-level word-class system, we have converted it into Linked Data on WWW. As an applied study for our morpholgical analysis of classical Chinese texts, we have tried to extract named entities: names of places, job titles, and names of people. As a result we are able to extract names of places from classical Chinese texts almost perfectly. But we have found some difficulties to extract job titles or names of people.
著者
安岡 素子 安岡 孝一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.42, pp.19-24, 1996-05-17
被引用文献数
1

「書」を対象とする書道・書法研究分野では、科学的手法を用いた分析というものが従来なされていない。この分野でよく用いられる表現である「重心」、「字間」、「行の揺れ」、「文字の大小変化」といったものも実際に定量化されることは全くなかった。本研究では、コンピュータを用いることによって「書」を定量的に分析することを目標とする。具体的手法としては、書の「重心」、「字間」、「行の揺れ」を数学的に定義し、その定義に従って書をコンピュータ処理する。本研究の手法は、入力データの形式等に依存しないものとなっており、書の分析において幅広い応用が可能である。There exist no previous works of scientific analysis on the field of calligraphology. Calligraphers often use the terminology such as "center of gravity", "interval of characters", "sway in line", or "differential of character sizes" without definitions of the terminology. In this paper, we show a method to analyze calligraphy quantitatively with the help of a computer. In other words, here we define "center of gravity", "interval of characters", "sway in line", and "differential of character sizes" as mathematical terminology, then we manipulate calligraphy on the mathematical point of view by a computer. Our method is independent of the designs of calligraphy themselves, therefore it is so widely applicable to analysis of calligraphy.
著者
安岡 孝一
出版者
京都大學人文科學研究所
雑誌
東方學報 (ISSN:03042448)
巻号頁・発行日
vol.83, pp.349-360, 2008-09-25

This is a report of the proceedings of the research seminar "Constructing Kanji (漢字) Informatics", which was held from 2004 to 2008, coordinated by Yasuoka Koichi. The seminar started out with considering a hierarchical model for representing digital text using a model consisting of four layers as follows : image layer, text layer, syntax layer and semantic layer. To better understand the relationship of the image and text layer, we spent some time analyzing and trying to understand the rules for vertical layout of complex text in Japanese and other East Asian languages, including the handling of pronounciation guides (so called 'ruby') The next step was to invert the direction and try to identify characters on the image representation of a text, in the same way an optical character recognition program procededes. This turned out to be not so easy, especially with stone rubbings that exhibit a irregular layout of the characters, but worked reasonably well for characters in a regular grid. In moving to the syntactic and semantic layer, the final topic for the seminar was to consider methods for adding punctuation marks (dots) to a Chinese text without any punctuation. After trying a number of different statistical approaches, like looking at characters that appear before or after punctuation dots in already punctuated texts, 2-grams, or even rhyme patterns it became evident that a purely statistical approach would not give the desired results, but that it was necessary to also to take grammatical relations into account. The most promising approach in this respect seemed to be use text with reading marks for kanbun, which do provide some basic grammatical annotation. It was therefore decided to devote a follow up seminar to the development of a corpus of kanbun annotated text that could be used as training and test material for morphological and syntactical parsers.
著者
安岡 孝一
出版者
京都大學人文科學研究所
雑誌
東方学報 (ISSN:03042448)
巻号頁・発行日
vol.85, pp.542-533, 2010-03

[ササ]" has been regarded as a "wrong" character by MJJ (Ministry of Justice Japan). It is excluded from the Unified Character Set for Family's Registers 戸籍統一文字) in Japan, and from the computer character sets such as JIS X 0213 or Unicode. In September, 2009, MBS (Mainichi Broadcast Station) reported about a family, whose family name had been "[ササ]山" and was changed into "密山" by MJJ. MJJ has been trying to exclude "wrong" characters from Family's Registers, correcting them into "right" characters. MJJ considered "[ササ]" as a "wrong" character and corrected it into "密" . MBS contacted CIEAS (Center for Informatics in East Asian Studies, Institute for Research in Humanities, Kyoto University) about the character "[ササ]", and the author, a faculty member of CIEAS, was interviewed. In fact "[ササ]" is less common nowadays. Thus the author, also a member of JIS committee, did not include "[ササ]" in JIS X 0213, since JIS X 0213 should include characters that are common in Japan. However, "[ササ]" was used more frequently in the Kamakura period and appeared in old Japanese dictionaries. "[ササ]" is a rarely-used character but not a "wrong" one. As a result MJJ withdrew their decision about "[ササ]" and re-corrected the family name into "[ササ]山". But MJJ is still trying to exclude other "wrong" characters from Family's Registers even now.
著者
安岡 孝一
出版者
株式会社KADOKAWA アスキー・メディアワークス
雑誌
週刊アスキー
巻号頁・発行日
vol.1059, pp.30-31, 2015-12-29

電子版『週刊アスキー No.1059』