著者
安形 輝
出版者
三田図書館・情報学会
雑誌
Library and information science (ISSN:03734447)
巻号頁・発行日
no.54, pp.1-18, 2005
被引用文献数
1

原著論文Benedetto et al. recently confirmed the validity of a method for measuring similarity using data compression software. Despite its potential, this method has not yet been applied to the field of information science. The present study proposes the use of CIR, a modified method that uses an improved ratio of compression, and describes two experiments on authorship attribution using data from modern Japanese literature. The first experiment compares the results of applying CIR and Benedetto's method to test collections of modified data (fixed length) using aprocedure similar to that described by Matsuura et al. The second experiment is based on original data (variable length).The first experiment showed an average precision rate of 97.7% for CIR, while Benedetto's method gave a rate of 90.5%. The CIR method proves to be an improvement on the best method described by Matsuura et al. The second experiment confirmed the e

言及状況

Delicious (1 users, 1 posts)

[paper][funny][ネタ] 圧縮率から著者を推定。おもしろい

はてなブックマーク (11 users, 11 posts)

こないだ話題になってたの、これね。
[雑学][科学][プログラミング]
[ICT][文藝] 斯様な研究が(^^;)。
[著作権][文学] これを使ってパクり認定とかすんのかな
[article][text][文学][programming] ZIP圧縮を利用した文学作品の著者推定の研究。本文は機関リポジトリのリンクから。

Twitter (220 users, 232 posts, 134 favorites)

bot判定以外にも文章の著者推定にzip圧縮してみる論文もありますね 圧縮プログラムを応用した著者推定 https://t.co/TW9iflny2a
圧縮アルゴリズム使って著者推定、みたいなのは以前からあるアイディアなんだけど、bot検知に使う、という用途では全然考えたことなかった・・・ https://t.co/lbmkfTyY4I
@CoolTachiken 圧縮アルゴリズム使って著者推定、みたいなのは以前からあるアイディアなので、新しくもないんですが、bot検知に使うのをなぜ思いつかなかったんだろう。。。という悔しさが籠もっております。もちろん、これで全部のbotが検知できるとは思ってないです https://t.co/lbmkfTyY4I
マルコフ連鎖とかの傾向で圧縮が効くのか。 https://t.co/CrhigbPZbS
@sz_dr zip圧縮で作者判断するヤツみたい https://t.co/H7Fau6jfLl
CiNii 論文 - 圧縮プログラムを応用した著者推定 https://t.co/tvdBW0WiUj #CiNii これかなあ
CiNii 論文 -  圧縮プログラムを応用した著者推定 https://t.co/htOwH8wVGl
CiNii 論文 -  圧縮プログラムを応用した著者推定 http://t.co/Ph7CdtemsJ #CiNii
CiNii 論文 -  圧縮プログラムを応用した著者推定 http://t.co/GITSJg0Dq2 #CiNii
で,まだやってる人がいるのか: 圧縮プログラムを応用した著者推定 http://t.co/sw8wpycoqU
「同じ著者の作品を圧縮して束ねた方が効率がよくなるので推定に使える」ってすごいプリミティブな発想だけど精度がそこそこ出てて感心する。 http://t.co/5E4rj0MDi8
CiNii 論文 -  圧縮プログラムを応用した著者推定 http://t.co/bKZTdTRiYG
http://t.co/L0P3b0k2bj 画期的な研究成果なんだろうから英語タイトルくらいきちんと付けたらどうだw
今夜も長そうですし書くだけ書いちゃいますか。元の論文はこちららしい… http://t.co/kI7ikO0SMB 残念ながらこのジャーナルは読んだことがないのでどこかに手法が引用されていないか検索してみた。 #njslyr7d
圧縮プログラムを応用した著者推定 http://t.co/P46jqAQ8Hy http://t.co/1p4QGGLg0v ※文章語彙傾向により圧縮時の圧縮率が異なることを応用し、未知の文章の著者推定を行う。
「同じ著者の小説をつなげてzip圧縮したら、複数の著者の小説をつなげて圧縮するよりも圧縮率がいいから著者推定に使える!」 圧縮プログラムを応用した著者推定 http://t.co/Dh7AWbDJ
これか、読みたい。 RT @yuki_o: 文体によってzipとかの圧縮率かわるやろ、なら著者推定につかえるやろとかいうネタだよね。これだよなあ。おれもあっ!その手があったかと感心したもんだ http://t.co/FU9q1nH6
文体によってzipとかの圧縮率かわるやろ、なら著者推定につかえるやろとかいうネタだよね。これだよなあ。おれもあっ!その手があったかと感心したもんだ http://t.co/NlhNcCRE
http://t.co/83nLrarH これか。確かに著者が同じなら使われる単語の語彙に偏りは出るだろう、偏りが出るなら圧縮率は上がるだろう。著者が同じでないなら語彙はばらけるから圧縮率は低くなるだろう。なるほどなぁ。
これかな。後で読む。 > http://t.co/nPva6YvH
Now browsing:CiNii 論文 -  圧縮プログラムを応用した著者推定 http://t.co/EpBDJwn
ほう、これか(・ω・) CiNii 論文 -  圧縮プログラムを応用した著者推定 http://t.co/yCOSCk43 #CiNii
読みたい / “CiNii 論文 -  圧縮プログラムを応用した著者推定” http://t.co/M3flGlPy
RT @maophilia なんかこんなものを見つけた 圧縮プログラムを応用した著者推定 http://ci.nii.ac.jp/naid/120001256793 論文の名寄せに使えるかと思ったけど、著者が複数いる場合は難しい。逆に単独著者の場合はよいかもしれない
今日の輪読内容 安形輝さんの 圧縮プログラムを応用した著者推定 http://ci.nii.ac.jp/naid/120001256793 意外と面白い。
すげー RT @ITO_Kak3: 圧縮プログラムを応用した著者推定(http://ci.nii.ac.jp/naid/120001256793) 読了。まさに発想の勝利。最初に考えた人(Benedettoさん)すげー。
うーん、ほんとかいな。 http://ci.nii.ac.jp/naid/120001256793
CiNii Article -  圧縮プログラムを応用した著者推定 http://ci.nii.ac.jp/naid/120001256793
さっきの論文ソース http://ci.nii.ac.jp/naid/120001256793 CiNii 論文 -  圧縮プログラムを応用した著者推定
dev: CiNii 論文 -  圧縮プログラムを応用した著者推定 : http://ci.nii.ac.jp/naid/120001256793
さらっとよんでみる: CiNii 論文 -  圧縮プログラムを応用した著者推定 http://ci.nii.ac.jp/naid/120001256793
まさに「その発想はなかったわ」だよなー。 http://ci.nii.ac.jp/naid/120001256793

収集済み URL リスト