著者
安岡 孝一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.55, no.11, pp.826-832, 2013-02-01 (Released:2013-02-01)
参考文献数
8

住民基本台帳ネットワーク統一文字は,当初はUCS(国際符号化文字集合)を拡張する形で設計されており,いかなるコンピューターでも使用できるオープンなシステムを目指したはずだった。しかし,UCSの基本設計に対する誤解や,その後のUCSの変化に十分追随できなかったために,住民基本台帳ネットワーク統一文字は,もはや現代のOS上では動作しない文字コードになってしまっている。本稿では,住民基本台帳ネットワーク統一文字の問題点と,その問題点を踏まえた上での今後の方策について述べる。
著者
安岡 孝一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.50, no.2, pp.67-73, 2007 (Released:2007-05-01)
参考文献数
13
被引用文献数
1 1

ケータイを使ってインターネットにアクセスする際に,最も注意しなければならないのは,絵文字の問題である。ケータイの絵文字をインターネット上で使うと,ほぼ確実に文字化けする。文字化けが起こるのは,各社が勝手な文字コードをケータイ上に実装しており,その結果,文字コードによる情報交換の一意性が,ケータイの絵文字に関してはまったく保証されなくなってしまっているからである。しかしながら文字化けの問題は,ケータイのみの問題というわけではない。実はMicrosoft Windowsが採用しているCP932においても,文字化けの問題が内在している。その意味では,JISやUnicodeに従わない文字コードというのは,常に文字化けの危険性を伴っている,ということである。
著者
安岡 孝一 ウィッテルン クリスティアン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.323-331, 2018-02-15

古典中国語(漢文)の解析手法として,MeCabを用いた形態素解析手法を提案する.本手法では,漢文の動賓構造を表現すべく,4階層の「品詞」からなる新たな品詞体系を構築し,それに基づくMeCab漢文コーパスを設計した.合わせて,MeCab漢文コーパスを入力するための専用ツールとして,XEmacs CHISEをベースとしたコーパス入力ツールを開発した.また,MeCab漢文コーパスを効果的に管理し,さらには品詞体系のリファクタリングを行うべく,MeCab漢文コーパスのLinked Data化を行い,WWW上で公開した.さらに,MeCabを用いた漢文形態素解析の応用として,漢文における固有表現の自動抽出に挑戦した.結果として,地名の自動抽出は高精度に行うことができたが,官職・人名の自動抽出はそれぞれに課題が残った.
著者
安岡 孝一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.48, no.8, pp.487-495, 2005 (Released:2005-11-01)
参考文献数
27

日本の漢字情報処理における難題のひとつに,異体字処理の問題がある。当用漢字表およびそれに続く常用漢字表が,固有名詞を埒(らち)外としてしまった結果,人名における漢字と,地名における漢字が,それぞれ異なる字体を持つに至った,という現実が,この問題をさらに複雑なものとしている。この問題を解決するには,Unicodeのような「漢字統合」を主眼とする文字コードでは力不足であり,むしろ日本国内向けに特化された文字コードが望ましい。本稿で紹介するAdobe-Japan1-6は,Adobe Systems社が日本向けに開発した文字コードだが,日本市場でのニーズ,特に異体字処理を,非常に強く意識した文字コードとなっている。
著者
安岡 孝一 クリスティアン ウィッテルン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
出版者
情報処理学会
雑誌
情報処理学会研究報告 : 人文科学とコンピュータ(CH) = IPSJ SIG Technical Report (ISSN:21888957)
巻号頁・発行日
vol.2018, no.20, pp.1-8, 2018-01-28

第116回人文科学とコンピュータ研究発表会古典中国語(漢文) の解析手法として,Universal Dependencies の古典中国語への適用に挑戦した.言語横断的な依存構造記述であるUniversal Dependencies は,ニューラルネットを用いた言語解析ツール(特にSyntaxNet) 等に採用されていることから,係り受け解析への応用が容易だと考えられる.しかしながら,古典中国語の文法構造は,Universal Dependencies とは必ずしも相性が良くなく,いくつかの点で齟齬が生じている.この点を含め,現時点での古典中国語Universal Dependencies の検討状況を,他言語UniversalDependencies との比較も含め,大まかに報告する.
著者
安岡 孝一
出版者
日本漢字学会
雑誌
日本漢字学会第1回研究大会予稿集
巻号頁・発行日
pp.33-48, 2018-12-01

日本漢字学会第1回研究大会、2018年12月1日(土)・2日(日)、於京都大学。
著者
安岡 孝一
出版者
株式会社KADOKAWA アスキー・メディアワークス
雑誌
週刊アスキー
巻号頁・発行日
vol.1059, pp.30-31, 2015-12-29

電子版『週刊アスキー No.1059』
著者
安岡 孝一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.48, no.8, pp.487-495, 2005

日本の漢字情報処理における難題のひとつに,異体字処理の問題がある。当用漢字表およびそれに続く常用漢字表が,固有名詞を埒(らち)外としてしまった結果,人名における漢字と,地名における漢字が,それぞれ異なる字体を持つに至った,という現実が,この問題をさらに複雑なものとしている。この問題を解決するには,Unicodeのような「漢字統合」を主眼とする文字コードでは力不足であり,むしろ日本国内向けに特化された文字コードが望ましい。本稿で紹介するAdobe-Japan1-6は,Adobe Systems社が日本向けに開発した文字コードだが,日本市場でのニーズ,特に異体字処理を,非常に強く意識した文字コードとなっている。
著者
安岡 孝一 安岡 素子
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH)
巻号頁・発行日
vol.1997, no.108(1997-CH-036), pp.1-6, 1997-11-15

日本の地名には、あまり他に用例がないような漢字あるいは「国字」とよばれるような漢字がしばしば見られる。このような漢字は、しばしば漢和辞典等には収録されておらず、漢字研究の枠から洩れているのが現状である。本稿では、このような「地名にのみ使用される漢字」にスポットをあてるべく、「ぽすたるガイド'97」において使用頻度が非常に低い漢字の調査をおこない、それらのうち辞書に含まれていない漢字全ての地名用例を示している。
著者
安岡 孝一 ウィッテルン クリスティアン 守岡 知彦 池田 巧 山崎 直樹 二階堂 善弘 鈴木 慎吾 師 茂樹
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.59, no.2, pp.323-331, 2018-02-15

古典中国語(漢文)の解析手法として,MeCabを用いた形態素解析手法を提案する.本手法では,漢文の動賓構造を表現すべく,4階層の「品詞」からなる新たな品詞体系を構築し,それに基づくMeCab漢文コーパスを設計した.合わせて,MeCab漢文コーパスを入力するための専用ツールとして,XEmacs CHISEをベースとしたコーパス入力ツールを開発した.また,MeCab漢文コーパスを効果的に管理し,さらには品詞体系のリファクタリングを行うべく,MeCab漢文コーパスのLinked Data化を行い,WWW上で公開した.さらに,MeCabを用いた漢文形態素解析の応用として,漢文における固有表現の自動抽出に挑戦した.結果として,地名の自動抽出は高精度に行うことができたが,官職・人名の自動抽出はそれぞれに課題が残った.A method to analyze classical Chinese texts is proposed. In the method, we use our original morphological analyzer based on MeCab. We propose a new four-level word-class system to represent the predicate-object structure of classical Chinese. In order to make a corpus for classical Chinese on MeCab, we have constructed a MeCab-corpus editor based on XEmacs CHISE. In order to control the corpus effectively, and to refactor our four-level word-class system, we have converted it into Linked Data on WWW. As an applied study for our morpholgical analysis of classical Chinese texts, we have tried to extract named entities: names of places, job titles, and names of people. As a result we are able to extract names of places from classical Chinese texts almost perfectly. But we have found some difficulties to extract job titles or names of people.
著者
安岡 素子 安岡 孝一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告人文科学とコンピュータ(CH) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.42, pp.19-24, 1996-05-17
被引用文献数
1

「書」を対象とする書道・書法研究分野では、科学的手法を用いた分析というものが従来なされていない。この分野でよく用いられる表現である「重心」、「字間」、「行の揺れ」、「文字の大小変化」といったものも実際に定量化されることは全くなかった。本研究では、コンピュータを用いることによって「書」を定量的に分析することを目標とする。具体的手法としては、書の「重心」、「字間」、「行の揺れ」を数学的に定義し、その定義に従って書をコンピュータ処理する。本研究の手法は、入力データの形式等に依存しないものとなっており、書の分析において幅広い応用が可能である。There exist no previous works of scientific analysis on the field of calligraphology. Calligraphers often use the terminology such as "center of gravity", "interval of characters", "sway in line", or "differential of character sizes" without definitions of the terminology. In this paper, we show a method to analyze calligraphy quantitatively with the help of a computer. In other words, here we define "center of gravity", "interval of characters", "sway in line", and "differential of character sizes" as mathematical terminology, then we manipulate calligraphy on the mathematical point of view by a computer. Our method is independent of the designs of calligraphy themselves, therefore it is so widely applicable to analysis of calligraphy.