著者
森 信介 土屋 雅稔 山地 治 長尾 真
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.48, pp.93-99, 1998-05-28

本論文では、確率的モデルによる仮名漢字変換を提案する。これは、従来の規則とその重みに基づく仮名漢字変換と異なり、入力に対応する最も確率の高い仮名漢字混じり文を出力とする。この方法の有効性を確かめるため、片仮名列と仮名漢字混じり文を有するコーバスを用いた変換実験を行ない、変換精度を測定した。変換精度は、第一変換候補と正解の最長共通部分列の文字数に基づく再現率と適合率である。この結果、我々の提案する手法による再現率は95.07%であり、適合率は93.94%であった。これは、市販の仮名漢字変換器の一つであるWnn6の同じテストコーパスに対する再現率(91.12%)と適合率(91.17%)を有意に上回っており、確率的モデルによる仮名漢字変換の有効性を示す結果となった。In this paper, we present a kanji-kanji converter by a stochastic model. Given an input this method returns the most probable kana-kanji character sequence. For its evaluation, we converted kana sequences of a corpus containing kana-kanji sequences. The criterion we used is the ratio of the length of longest common subsequece. The recall and precision of our method are 95.07% and 93.94% respectively. This result is much better than that of Wnn6 (recall: 91.12%; precision: 91.17%).
著者
中村純哉 小西和孝 土屋雅稔
出版者
国立大学法人 情報系センター協議会
雑誌
学術情報処理研究 (ISSN:13432915)
巻号頁・発行日
vol.23, no.1, pp.17-28, 2019-09-17 (Released:2019-09-17)
参考文献数
17

豊橋技術科学大学は,キャンパスネットワークの更新を2018年夏に実施した.新キャンパスネットワークTUTNET2018は,有線ネットワーク,無線ネットワーク,全学ファイアウォールおよび管理システムからなり,本学における教育・研究活動の基盤となるシステムである.本論文では,最初に,前キャンパスネットワークTUTNET2010の運用中に判明した問題点について議論する.次に,その問題点を踏まえて設計されたTUTNET2018の設計方針とシステム構成について述べる. TUTNET2018では特に,耐障害性の向上とセキュリティインシデント発生時の利用者端末および通信内容の特定に重点が置かれている.最後に,TUTNET2018の構築からこれまで約1年間の運用状況を報告する.
著者
森 信介 土屋 雅稔 山地 治 長尾 真
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1998, no.48(1998-NL-125), pp.93-99, 1998-05-28

本論文では、確率的モデルによる仮名漢字変換を提案する。これは、従来の規則とその重みに基づく仮名漢字変換と異なり、入力に対応する最も確率の高い仮名漢字混じり文を出力とする。この方法の有効性を確かめるため、片仮名列と仮名漢字混じり文を有するコーバスを用いた変換実験を行ない、変換精度を測定した。変換精度は、第一変換候補と正解の最長共通部分列の文字数に基づく再現率と適合率である。この結果、我々の提案する手法による再現率は95.07%であり、適合率は93.94%であった。これは、市販の仮名漢字変換器の一つであるWnn6の同じテストコーパスに対する再現率(91.12%)と適合率(91.17%)を有意に上回っており、確率的モデルによる仮名漢字変換の有効性を示す結果となった。
著者
土屋 雅稔 中村 純哉
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.63, no.3, pp.879-894, 2022-03-15

大学を含む公的機関にとって, 各種の異常事態に対する事業継続性の確保は, 重要な課題の1つである. 本論文では, 2つの観点から認証基盤システムの事業継続性について検討する. 第1に, 大規模災害に対する事業継続性について検討する. 大規模災害に対する事業継続性を確保するには, 情報システムを安全な遠隔地に設置するだけでなく, 異常時の挙動について十分に検証する必要がある. 本論文では, 認証基盤システムを遠隔地に設置する場合の設計上の留意点と, 平常時の停電を利用して異常時の挙動を定期的に検証する運用経験について述べる. 第2は, 感染症によるロックダウンに対する事業継続性である. キャンパスがロックダウンされた場合, 従来は対面形式で行われていた各種手続きをオンライン化する必要がある. しかし, 安全な認証という前提を保ちつつ, 各種手続きをオンライン化することは, 決して容易なことではない. 本論文では, 複数の多要素認証手段を組み合わせることにより, できるだけ安全に各種手続きをオンライン化する方法と, COVID-19パンデミックにおける対処経験について述べる.
著者
注連 隆夫 土屋 雅稔 松吉 俊 宇津呂 武仁 佐藤 理史
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.5, pp.167-197, 2007-10-10 (Released:2011-06-07)
参考文献数
32
被引用文献数
3 5

日本語には, 「にあたって」や「をめぐって」のように, 2つ以上の語から構成され, 全体として1つの機能的な意味をもつ機能表現という表現が存在する.一方, この機能表現に対して, それと同一表記をとり, 内容的な意味をもつ表現が存在することがある.そして, この表現が存在することによって, 機能表現の検出は困難であり, 機能表現を正しく検出できる機能表現検出器が必要とされている.そこで, 本論文では, 日本語機能表現を機械学習を用いて検出する手法を提案する.提案手法では, Support Vector Machine (SVM) を用いたチャンカーYam Chaを利用して, 形態素解析結果を入力とする機能表現検出器を構築する.具体的には, 形態素解析によって得られる形態素の情報と, 機能表現を構成している形態素の数の情報, 機能表現中における形態素の位置情報, 機能表現の前後の文脈の情報を学習・解析に使用することにより, F値で約93%という高精度の検出器を実現した.さらに, 本論文では, 機能表現検出器の解析結果を入力として, 機能表現を考慮した係り受け解析器を提案する.提案手法では, Support Vector Machine (SVM) に基づく統計的係り受け解析手法を利用して, 機能表現を考慮した係り受け解析器を構築する.具体的には, 京都テキストコーパスに対して, 機能表現の情報を人手で付与し, 機能表現の情報を基に文節の区切りや係り先の情報を機能表現を考慮したものに変換した.そして, SVMに基づく統計的係り受け解析の学習・解析ツールCabo Chaを用いて, 変i換したデータを学習し, 機能表現を考慮した係り受け解析を実現した.評価実験では, 従来の係り受け解析手法よりもよい性能を示すことができた.
著者
中川 聖一 秋葉 友良 山本 一公 土屋 雅稔
出版者
豊橋技術科学大学
雑誌
基盤研究(B)
巻号頁・発行日
2010

音声認識の高精度化と音声認識結果の整形化、音声ドキュメントからの検索語の高速・高精度検索法の研究を行った。音声認識の高精度化に関しては、従来のHMMを越える新しい音声認識モデルを提案し、その有効性を示した。音声認識結果の整形に関しては、話し言葉音声の音声認識結果からの書き言葉への整形のための確率モデルを提案し、その有効性を示した。音声ドキュメントからの検索語の高速検出に関しては、音節のnグラムインデックスに基づく手法を提案し、その有効性を示した。
著者
土屋 雅稔 肥田 新也 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2008, no.46, pp.1-6, 2008-05-15

統計的固有表現抽出のためには,固有表現がタグ付けされた十分な量の学習コーパスが必要である.しかし,新規の固有表現が増加し続けていることを考慮すると,あらゆる固有表現に対応した学習コーパスを用意することは非現実的である.本稿では,この問題に対処するために,固有表現がタグ付けされたコーパスとタグ付けされていないコーパスを併用して,タグ付けされたコーパスに頻出しない語 (非頻出語) を含む固有表現を抽出する手法を提案する.提案手法は 2 段階からなる.最初に,タグ付けされていない大量のコーパスを用いて,入力テキストに含まれている非頻出語を,その非頻出語と良く似た頻出語に対応付ける.次に,元々の語から得られる素性と頻出語から得られる素性の両方を組み合わせて学習した統計的固有表現抽出器によって,固有表現を抽出する.IREX コーパスと NHK コーパスを用いた実験により,提案手法は,非頻出語からなる固有表現の抽出において効果的であることを示す.This paper proposes a novel method to extract named entities including infrequent words which do not occur or occur few times in a training corpus using a large unannotated corpus. The proposed method consists of two steps. The first step is to assign the most similar and frequent word to each infrequent word based on their context vectors calculated from a large unannotated corpus. After that, traditional machine learning approaches are employed as the second step. The experiments of extracting Japanese named entities from IREX corpus and NHK corpus show the effectiveness of the proposed method.