著者
野本 忠司
雑誌
研究報告ドキュメントコミュニケーション(DC) (ISSN:21888892)
巻号頁・発行日
vol.2016-DC-101, no.8, pp.1-7, 2016-03-17

テキストの読み易さをいかに測るかというリーダビリティーの研究は今からほぼ 100 年前の 1920 年代に米国で始まった.その後,第 2 次世界大戦を経て,1950 年頃に現在でも使われている.Flesh-Kincaid,Fox,Gunning などの指標が誕生した.リーダビリティー研究は現在に至るまで大きなパラダイムシフトをいくつか経験しているが,本稿ではこれらがどのようなものであったのか,その時代背景と共に説明する.
著者
今西 裕一郎 伊藤 鉄也 野本 忠司 江戸 英雄 相田 満 海野 圭介 加藤 洋介 斎藤 達哉 田坂 憲二 田村 隆 中村 一夫 村上 征勝 横井 孝 上野 英子 吉野 諒三 後藤 康文 坂本 信道
出版者
国文学研究資料館
雑誌
基盤研究(A)
巻号頁・発行日
2010-04-01

本研究課題は、『源氏物語』における写本の単語表記という問題から、さらに大きな日本語日本文化の表記の問題を浮かび上がらせることとなった。当初の平仮名や漢字表記の違いというミクロの視点が、テキストにおける漢字表記の増加現象、またその逆の、漢字主体テキストの平仮名テキスト化という現象へと展開する過程で、テキストにおける漢字使用の変貌も「表記情報学」のテーマとなることが明らかになった。「文字の表記」は「文化の表記」「思想の表記」へとつながっている。「何が書かれているか」という始発点から「如何に書かれているか」に至る「表記情報学」は、今後も持続させるべき「如何に」の研究なのである。
著者
野本 忠司 松本 裕治
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.97, no.200, pp.1-6, 1997-07-25

本稿では大学生を中心とした被験者112名について要約文指摘能力に関する調査を行い、そのデータをもとにした自動要約手法について述べる。要約問題は日本経済新聞95年の記事から随想 (春秋)、社説、一面報道の各分野別に粒度の揃った記事を選び作成した。調査結果はKappa統計と呼ばれる尺度で評価し、さらに調査データから要約文判定の被験者間一致度を調べ、その高低に応じていくつかのデータセットを作成した。一方、自動要約の手法として、C4.5学習アルゴリズムを使い、上記データセットに対する要約モデルの生成とテスト実験をおこなった。実験の結果、K値と自動要約モデルの性能との間に相関傾向があることが認められた。
著者
野本 忠司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.1995, no.69, pp.1-6, 1995-07-20
参考文献数
13

本稿では日本語テキストにおける主題の自動抽出に向けて、新しい手法を提案する。本稿では、主題抽出を一種の文書分類(ext Categorizatio)と捉え、従来の文書分類の技術を応用した確率的な主題抽出方式を提案する。また、本稿では、格助詞を利用し主題抽出における文法情報の効果について検討する。CD?ROM版日本経済新聞(992年1?6月)の42,401件の記事をデータとして利用し、格情報あり、格情報なしの条件下で主題抽出の実験を行った。また、評価の基準としてベースラインを導入した。実験の結果では、格情報を利用したモデルが他の場合に比べ優位であることが確認された。しかし、本方式は記事が長くなるにつれ精度が急速に低下するなどの問題が見られ、改善の余地があることも分った。The paper describes a new method for discovering topical words in discourse. It shows that text categorization techniques can be turned into an effective tool for dealing with the topic discovery problem. Experiments were done on a large Japanese newspaper corpus. It was found that training the model on annotated corpora does lead to an improvement on the topic recognition task.