著者
鈴木 俊哉
出版者
情報処理学会
雑誌
研究報告デジタルドキュメント(DD) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.7, pp.1-8, 2009-07-23

昨年、7 年間の作業を経た CJK 統合漢字拡張 C が ISO/IEC 10646:2003 の Amd.5 として正式に発表された。拡張 C ははじめて原規格分離を適用せずに整理された漢字集合である。拡張 C への中華人民共和国からの申請は辞典類から収集された漢字が大半である。本発表では、その中で最大の収集元である「殷周金文集成引得」に由来する 1800 字程度の図形集合について、典拠を再調査した結果を報告する。拡張 C の統合作業中に提出された典拠確認資料を見ると、この収集は「殷周金文集成引得」の総画索引から、拡張Bまでで符号化済みと思われるものを削って選定したと思われる。しかし、選定された漢字を本文中で確認すると、総画索引には出現するが、釈文では使われていないものも少なくないため、それらを全て申請することの妥当性には疑問がある。また、金石学の分野では「古文字字形表」や「金文編」など過去にいくつもの字書が出版されているが、「殷周金文集成引得」の特徴の一つに、見出し字の大半を宋体 (風の図形) にしている点がある。金文字形に対する宋体 (風の図形) が一意的に定まる、言い換えれば「殷周金文集成引得」で導入された図形文字が (この字書の外部でも) 金文字形に対する識別子として機能するのであれば、他の金石学の字書類と整合する筈である。そこで、代表的な金石学字書である「金文編」と「殷周金文集成引得」の比較を行ない、この結果を報告する。また、これらの結果を踏まえ、「殷周金文集成引得」典拠情報の今後の管理方法について考察したい。After the long efforts during 7 years, finally ISO/IEC 10646:2008 has included CJK Unified Ideographs Extension C. This is the first Hanzi collection which is standardized after the expire of the source code separation rule which was introduced for existing regional character encodings. There are 2 large groups of the sources: Hanzi for personal names (especially from TCA) and Hanzi for post-kaisu palaeographic documents (especially from ROK).In Ext. C, PRC submitted 366 glyphs taken from "Index to Collections of the Inscriptions in Yin-Zhou period" (殷周金文集成引得, I2CIYZ). The book is used to lookup Bronze objects (collected in "Collections of the Inscriptions in Yin-Zhou period" (殷周金文集成引得, CIYZ) including a specified Old Hanzi. Most of 366 glyphs taken from I2CIYZ are suspected to be the glyphs invented only for the specification of Old Hanzi.In this report, the submission by PRC and that by UTC are investigated for their original glyphs based on Bronze or Seal scripts (篆文, Zhuan Wen), and their original shapes (in references and evidences) and modernized shapes (in proposal and submission documents) are compared. The unification rules of CJK Unified Ideographs (ISO/IEC 10646 Annex S) are under revision process, but the discussion is based on the information interchange by the stabilized shapes of Hanzi current in use. The glyphs to specify Bronze script shape can be synthesized by different granurality. In fact, the identification rule by IRG Old Hanzi group for Oracle Bone script (甲骨文, Jia Gu Wen) is incompatible with ISO/IEC 10646 Annex S.
著者
ウメルジアンウスマン 中平勝子 鈴木俊哉 植村俊亮 三上喜貴
雑誌
研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2013-DD-90, no.5, pp.1-8, 2013-07-19

本論文で扱うウイグル文字は,歴史的にはアラム文字を起源とし,アラム文字から派生したソグド文字を直接の祖先として形成された表音文字である.また,ウイグル文字からは,後にモンゴル文字,満州文字などが派生した.ウイグル文字は,縦書き,横書きいずれの書記方向でも書かれてきた.横書きのウイグル文字は中央アジアの西トルキスタンと東トルキスタン地方に見られる.一方,縦書きのウイグル文字は紀元 8-9 世紀頃にトルファン地方で誕生したと考えられ,西はトルファンから東はモンゴルと甘粛に至る広範囲で使われるようになった.検討にあたって,文献作品クダトクビリグと阿毘達磨倶舎論実義疏には,作成者の署名を表すような様々な図形が登場し,これをすべて符号化しようとすれば数百になる.ここで検討が必要なのは,縦書き用の文字と横書き用の文字を,符号として区別するかどうかという点である.ウイグル文字の単語中での文字の位置によって文字図形が変化する文字の場合,異なる図形ごとに異なる符号を与える方式,図形は異なっても同じ音を意味する場合には同じ符号を与える方式 (符号-グリフ分離方式) とがある.ISO/IEC 10646 では符号-グリフ分離方式が採用されていることから,本設計でも,符号-グリフ分離方式を採用した.筆者らは,このウイグル文字の文字符号を確立することによって,ウイグルの貴重な歴史的文献情報の保存と活用の基盤形成に貢献したいという目的をもって研究を行なっている.本論文ではその研究成果であるウイグル文字古文献に基づくグリフデザインの経験について述べる.
著者
鈴木 俊哉
出版者
広島大学
雑誌
基盤研究(C)
巻号頁・発行日
2016-04-01

第二年度に予定した作業内容はほぼ完了した。大徐本(岩崎本、平津館本、藤花シャ本原本、藤花シャ本中國書店影印本、陳昌治本、陳昌治本中華書局影印本、汲古閣通行本、汲古閣四次様本)・小徐本(述古堂本、汪啓淑本、祁シュン藻本)・段注本の対照表を作成し、これを漢字部品検索システムと連携させることで、前年度に作成した篆韻譜10巻本・5巻本対照表に岩崎本・述古堂本・祁シュン藻本を対応づける作業を効率化した。対照表の初版を完成させることができた。この対照表から、以下の知見が得られた。a) 旧説では10巻本には新修字はあっても新附字はないとされていたが、新附字が3字見つかった。b) 小徐本に有るが10巻本に無い字は118字、小徐本に無いが10巻本にある字は30字。したがって、脱落の規模は説文全体の1%程度である。篆韻譜10巻本の脱落がランダムに生じたとすると、400字近い新附字が殆ど無いことの説明は困難。c) 述古堂本・祁シュン藻本で違いがある場合、多くは10巻本と述古堂本が符合する。d) 現行の5巻本は二徐で違いがあるものを全て大徐に寄せているとは限らない。10巻本=小徐本のままで、大徐本と異なる場合もある。また、副次的な成果としてはデータベースの大徐本対照資料としての活用がある。ISO/IEC 10646では、台湾・中国から説文小篆を現代漢字とは別の用字系として追加する動きがあるが、どの版本が適切か、版本ごとに字形が違う場合の統合判断をどうするのか、また、選択した版本の避諱や誤字はどの程度クリーニングするのか、といった議論が不十分であった。これについては従来より指摘が続いたが、実際の対応表が無いため、議論が深まらなかった。本課題の検討材料として作成した大徐本対照資料を提出し、標準化の議論を深めることができた。
著者
鈴木 俊哉
雑誌
研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2009-DD-72, no.7, pp.1-8, 2009-07-23

昨年、7 年間の作業を経た CJK 統合漢字拡張 C が ISO/IEC 10646:2003 の Amd.5 として正式に発表された。拡張 C ははじめて原規格分離を適用せずに整理された漢字集合である。拡張 C への中華人民共和国からの申請は辞典類から収集された漢字が大半である。本発表では、その中で最大の収集元である「殷周金文集成引得」に由来する 1800 字程度の図形集合について、典拠を再調査した結果を報告する。拡張 C の統合作業中に提出された典拠確認資料を見ると、この収集は「殷周金文集成引得」の総画索引から、拡張Bまでで符号化済みと思われるものを削って選定したと思われる。しかし、選定された漢字を本文中で確認すると、総画索引には出現するが、釈文では使われていないものも少なくないため、それらを全て申請することの妥当性には疑問がある。また、金石学の分野では「古文字字形表」や「金文編」など過去にいくつもの字書が出版されているが、「殷周金文集成引得」の特徴の一つに、見出し字の大半を宋体 (風の図形) にしている点がある。金文字形に対する宋体 (風の図形) が一意的に定まる、言い換えれば「殷周金文集成引得」で導入された図形文字が (この字書の外部でも) 金文字形に対する識別子として機能するのであれば、他の金石学の字書類と整合する筈である。そこで、代表的な金石学字書である「金文編」と「殷周金文集成引得」の比較を行ない、この結果を報告する。また、これらの結果を踏まえ、「殷周金文集成引得」典拠情報の今後の管理方法について考察したい。
著者
鈴木 俊哉
出版者
情報処理学会
雑誌
情報処理学会研究報告. DD, [デジタル・ドキュメント] (ISSN:09196072)
巻号頁・発行日
vol.76, pp.E1-E6, 2010-07-22
参考文献数
10

第 67 回デジタルドキュメント研究会にて、ページ記述言語 PostScript における標準的な字形指定番号である Adobe CID から、TrueType フォントのグリフへのマッピング方法について発表した。アドホックなマッピング情報を持たないよう、PostScript 資源として提供されている情報のみでマッピングを決定しようとすれば、テーブル構築の際に 0.5~3 秒程度の遅延が発生することを示した。この負荷はラスタ処理が数十秒から数分におよび高解像度の印刷の場合には無視できるが、モニタ表示の観点では問題となる。この負荷は PostScript 資源をフォントごとに読み込んでマッピングを構築するためと考えられるので、PostScript 資源ではなく、近年普及が進みつつある TrueType フォントの UVS サポートを用いて、このマッピング処理を高速化する方法について検討する。In SIGDD67, the method to minimize the missing glyph in the translation of CJK TrueType font to CIDFontType2 object for Adobe CID glyph space was presented. The method improves the missing glyph issue of Ghostscript-8, the latency caused by using 3 tables (horizontal CMap, vertical CMap, and ToUnicode or ToCode mapping table) is not negligible for document browsing on the computer displays. In this report, a method to improve the latency by using OpenType cmap table format 14 (UVS table) which is introduced for Variation Selector in TrueType font. The parser of UVS table was implemented by PostScript for Ghostscript, and VM usage and time to parse UVS table were measured. From the experimental results, the parsing latency for UVS table is shorter than that for Unicode cmap table, and the VM usage is about 50% of previous method.
著者
児玉 明 鈴木 俊哉
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会誌 (ISSN:13426907)
巻号頁・発行日
vol.59, no.7, pp.1020-1032, 2005-07-01 (Released:2011-08-17)
参考文献数
18
被引用文献数
2 1

We often use simulcast video data to provide multi-quality video over broadband networks. However, this is not superior from the viewpoint of efficient transmission and data storage. Moreover, scalable coding was selected as an MPEG standard, but the fact that the scaled bitstream cannot be reconstructed by a generic decoder is a problem. Previously, proposed updatable scalability adapted generic decoders in simulcast. Therefore, in this paper, we propose a video cache and delivery method with scalable architecture. Through simulation experiments, we found that scalable architecture is better in user access models than simulcast, which is explained in this paper.
著者
鈴木 俊哉 鈴木 敦 菅谷 克行
雑誌
研究報告情報基礎とアクセス技術(IFAT)
巻号頁・発行日
vol.2015-IFAT-118, no.5, pp.1-6, 2015-03-23

甲骨文字のデジタル化において,文字符号化して問題ないか,あるいは画像として扱うべきかは,拓本資料の鮮明さや掲出例数を考慮して判断しなければならない.我々は印刷物として公表されたデータベースである 『殷墟卜辭綜類』 と 『殷墟甲骨刻辭類纂』 に基づいた検討をすすめているが,全て手書き資料であり,また,そこに模写された文字の集合も明確ではないため,文字認識的な手法をとることができない.本研究では,掲出例数を概算するため,両書に共通するレイアウト構造をもとに模写テキストを画像分解する方法を検討した.両書の画像分解精度が大きく異なる結果が得られたが,この原因は両書の編集・出版方針の違いによると推測される.また,本研究の手法の適用範囲についても報告する.
著者
鈴木 俊哉
雑誌
研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2010-DD-76, no.5, pp.1-6, 2010-07-15

第 67 回デジタルドキュメント研究会にて、ページ記述言語 PostScript における標準的な字形指定番号である Adobe CID から、TrueType フォントのグリフへのマッピング方法について発表した。アドホックなマッピング情報を持たないよう、PostScript 資源として提供されている情報のみでマッピングを決定しようとすれば、テーブル構築の際に 0.5~3 秒程度の遅延が発生することを示した。この負荷はラスタ処理が数十秒から数分におよび高解像度の印刷の場合には無視できるが、モニタ表示の観点では問題となる。この負荷は PostScript 資源をフォントごとに読み込んでマッピングを構築するためと考えられるので、PostScript 資源ではなく、近年普及が進みつつある TrueType フォントの UVS サポートを用いて、このマッピング処理を高速化する方法について検討する。
著者
川幡 太一 鈴木 俊哉 永崎 研宣 下田 正弘
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. DD, [デジタル・ドキュメント]
巻号頁・発行日
vol.2013, no.7, pp.1-4, 2013-07-19

悉曇文字は日本において、仏典の研究や菩薩の種字等に用いられるインド系文字の一種である。本報告では、日本の悉曇文字の国際符号化文字集合 (UCS) への提案活動に関して、その概要・標準化の経緯・および標準化にあたっての技術的課題および今後の予定について述べる。
著者
鈴木 敦 菅谷 克行 鈴木 俊哉
出版者
茨城大学
雑誌
基盤研究(C)
巻号頁・発行日
2014-04-01

本課題では、同定が困難な甲骨文字を含む拓本資料の画像データベースを構築した。現在、甲骨文字研究においては『甲骨文合集』が一般に利用されるが、同書の印刷品質は再版以降低下しており、文字同定の典拠とする資料として難点がある。そこで、同書の素材となった旧著録のデジタル化を行った。また、ネットワークを通じた参照利用を円滑とするため、近年人文情報学の分野で画像データベースの公開手段の標準となりつつあるIIIF方式を採用し、課題代表者が旧著録原本を所蔵しているものについては一般公開を開始した。『甲骨文合集』と旧著録の対応関係については確認ができたものから順次公開していく予定である。
著者
坪井 潤一 寺島 祥子 高野 倫一 森 広一郎 鈴木 俊哉 石原 学 高木 優也 小森 謙次
出版者
公益社団法人 日本水産学会
雑誌
日本水産学会誌 (ISSN:00215392)
巻号頁・発行日
pp.17-00065, (Released:2018-05-15)
参考文献数
22
被引用文献数
1

友釣りおよび投網を用いて879個体のアユを捕獲しEdwardsiella ictaluriのPCR保菌検査を行った。週の平均水温が高いほどE. ictaluriの陽性率が高く,最も陽性率の高かった7/31-8/6には,週の平均水温が25℃以上を記録した。同期間中,投網で捕獲されたアユの陽性率は20.4%であったが,友釣り個体では陽性個体は確認されなかった。日中の平均水温が高いほど友釣りのCPUEが低かった。E. ictaluri感染は友釣りでの漁獲不振を招く可能性があることが示唆された。
著者
鈴木 俊哉
雑誌
研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2012-DD-86, no.3, pp.1-10, 2012-07-12

広く使われる漢字の分類方式として部首・画数分類方式がある。現在普及している部首体系は康煕字典の部首分類、および、康煕字典部首を常用漢字字体に基いて縮約したものである。しかし、康煕字典以前の字書の部首分類は必ずしも康煕字典の体系と一致しておらず、また、特定の部首体系が支配的だったわけでもない。そのため、ある漢字がどの部首に配置されるかは必ずしも一定しておらず、しかも配置された部首の字形が似せられてしまうため、字書ごとに字形が異なるという状況があった。近年、漢字字典の収録字数を増やすために、それらの古字書から漢字を採集したため、実際には使い分けが不能であるにも関わらず、字書ごとに異なる部首に配置され、あたかも別字のように考えられて国際標準符号にとりいれられる問題が発生している。本稿では説文解字に存在したが、その後消滅した部首について、そこに含まれていた漢字がどのように分散し、漢字分類方式によって字形がどのように変化したかの調査結果を報告する。あわせて、国際標準における漢字統合規則の改訂の必要性について考察する。
著者
鈴木 俊哉
出版者
一般社団法人情報処理学会
雑誌
研究報告デジタルドキュメント(DD)
巻号頁・発行日
vol.2013, no.1, pp.1-8, 2013-07-19

近年、モバイルデバイスでのセキュリティ配慮のためにアプリケーションの実行環境も仮想環境や Web ブラウザ内部に閉じられ、様々な周辺機器への利用が難しくなってきている。本稿では JavaScript インタプリタが対応していないキャラクタデバイスの制御信号を WebSocket によって受信し、Web アプリケーションのインタフェースを改善する可能性について試験実装と評価を行った。Recent mobile devices restrict the distribution and the installation of the software, and the applications are permitted to be executed under some virtualized machines or in the web browser. Thus it is difficult for the software developers to extend the user interfaces of their applications with special human interface devices (HID). Although there is a movement of a migration from all physical HID into "virtualized" HID using trackpad with multitouch features, it is not easy to realize many devices onto single trackpad, because the touch events on the web application are tightly bound to the document object models. In this report, the direct injection of the control packet from the character devices to web applications is discussed, and preliminary implementation based on WebSocket technology is evaluated.
著者
鈴木 俊哉
出版者
[出版者不明]
巻号頁・発行日
2010-12

制度:新 ; 報告番号:甲3187号 ; 学位の種類:博士(理学) ; 授与年月日:2010/12/9 ; 早大学位記番号:新5482
著者
鈴木 俊哉 佐藤 大
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告デジタルドキュメント(DD) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.77, pp.37-42, 2007-07-27

情報交換を目的とする文字集合の規格として,現在はISO10646文字集合,文字符号化方式としてはUmcodeを用いることが国際的な標準である.しかし,インド系文字は音素分解にもとづき文字符号を定義しているため,表示・印刷には複雑なレンダリング処理が必要となる.広く普及しているローマ字専用の処理系ではこれが不可能であるため,ローマ字用の処理系でもインド系文字が扱えるよう,様々な図形分解に基く符号化方式が応急処置的に作成されてきた.これらにより符号化されたデータが広く配布されているが,符号化方式は標準化されていないため,文書のアーカイブやデータ抽出に問題がある.本稿は,北方ブラフミ文字の例としてチベット文字のレガシ方式をとり,符号化方式の分析と自動識別方法を検討する.チベット文字レガシ符号の中には漢字集合に匹敵する大きさを持つものがあり,クメール文字とは異なりPDFなどではフォントがサブセット化されている可能性がある.このような場合の識別方式についても検討する.For Brahmic scripts used in India, Central and South East Asia, ISO/IEC 10646 defines the character sets by phonetic decomposition of Brahmic scripts with refering Indie national standard IS 13194. These character sets expect the complicated text layout system to render the coded text for display or printing purpose. To reduce the implementation cost by reusing Roman text layout system, there are various non-standardized legacy encoding schemes for Brahmic scripts. In this report, we investigate the legacy encoding schemes for Tibetan script as an example of northern Brahmic script which uses many ligatures. We found legacy encoding system for precomposed Tibetan glyphs. The glyphset of these encodings are so large that the subsetted font in the documents are expected to be quite smaller than whole glyph set. We discuss the encoding detection algorithm by subsetted font.