s******g 发帖数: 3841 | 1 他果然是自己说的“理科白痴”
“韩寒:我的父亲韩仁均
...
我甚至发现还有伪科学证明法,忽悠了不少人。有理科生做了一个科学统计,选取了八
九本书,其中有我父亲的书为A,我的四本书B,C,D,E,其他作家的书G,F。分析书
中关键词出现的次数,比如三个“的”“得”“地”,比如“因为”“所以”,结果发
现,我父亲的书和我的那四本书出现这些词的总次数差不多,而另外两本书明显要数倍
与ABCDE。实验得出的结论是,我和我父亲的书风格雷同。这篇文章充满了我看不懂的
专业术语,很多试图证明我的书是我父亲代写的朋友也像捡到了宝一样兴奋不已转发不
止。甚至其中还有科普人士,他们认为最终还是科学和数据来说话了。我真的不知道该
说什么好,A,B,C,D,E都是十万字,G是三十万字,F则超过了五十万字。所以结果
当然是ABCDE的常用词出现次数差不多,而G是他们的三倍左右,F则是五倍左右。像我
这样的理科白痴也知道做这种对比的时候,抽样对象的字数得是一样的吧。我不明白这
位理科生为什么这么恨我,虽然我一直对理科生特别有好感,我小时候的梦想就是科学
家。但是理科更需要严谨,能在完全缺乏条件的情况下依然把实验做的津津有味并得出
结论,也算有本事。...” |
p********r 发帖数: 1465 | |
g********w 发帖数: 2539 | |
t*******y 发帖数: 21396 | |
s******g 发帖数: 3841 | 5 难道原来那个人不是用的词频率?
我不熟悉r,但是我觉得这个错误一般人不会犯
【在 p********r 的大作中提到】
|
s******g 发帖数: 3841 | 6 这个打不开啊
【在 g********w 的大作中提到】 : 结果确实是没有归一化,重新做了以后发现没有办法用虚词区分 : http://www.weibo.com/1734031341/y2xlN7nzD
|
s*m 发帖数: 1896 | 7 不懂统计学很正常啊,为什么要普及? 这么多人没写过小说呢,是不是也要普及一下
啊?
懂统计学又怎么样?其实这个结果根本狗屁不是,完全是混淆试听:
你让他用同样方法把所有文学作品都测一遍,肯定能找到张三李四比韩仁均作品更靠近
韩寒的,难道能说明韩寒的作品是张三李四代写的?
【在 s******g 的大作中提到】 : 他果然是自己说的“理科白痴” : “韩寒:我的父亲韩仁均 : ... : 我甚至发现还有伪科学证明法,忽悠了不少人。有理科生做了一个科学统计,选取了八 : 九本书,其中有我父亲的书为A,我的四本书B,C,D,E,其他作家的书G,F。分析书 : 中关键词出现的次数,比如三个“的”“得”“地”,比如“因为”“所以”,结果发 : 现,我父亲的书和我的那四本书出现这些词的总次数差不多,而另外两本书明显要数倍 : 与ABCDE。实验得出的结论是,我和我父亲的书风格雷同。这篇文章充满了我看不懂的 : 专业术语,很多试图证明我的书是我父亲代写的朋友也像捡到了宝一样兴奋不已转发不 : 止。甚至其中还有科普人士,他们认为最终还是科学和数据来说话了。我真的不知道该
|
p********1 发帖数: 2785 | |
p********r 发帖数: 1465 | 9 明显没有
很显然,有些人就喜欢犯低级错误。
不知道你熟悉不熟悉matlab
http://blog.sina.com.cn/s/blog_56fc0caa0100zml1.html
【在 s******g 的大作中提到】 : 难道原来那个人不是用的词频率? : 我不熟悉r,但是我觉得这个错误一般人不会犯
|
w*********m 发帖数: 4740 | 10 there is an area called Computational Linguistics in Linguistics, and an
area of CS called Natural Language Processing.
【在 p********1 的大作中提到】 : 看来文学统计学将要大发展了。
|
|
|
d*****l 发帖数: 8441 | 11 又是一个统计迷信。
PCA?你的变换矩阵是啥?是咋来的?还不是“数出来”得到的相关矩阵/协方差矩阵,
然后再对角化的?
词频统计相似能够说明屁!
【在 s******g 的大作中提到】 : 他果然是自己说的“理科白痴” : “韩寒:我的父亲韩仁均 : ... : 我甚至发现还有伪科学证明法,忽悠了不少人。有理科生做了一个科学统计,选取了八 : 九本书,其中有我父亲的书为A,我的四本书B,C,D,E,其他作家的书G,F。分析书 : 中关键词出现的次数,比如三个“的”“得”“地”,比如“因为”“所以”,结果发 : 现,我父亲的书和我的那四本书出现这些词的总次数差不多,而另外两本书明显要数倍 : 与ABCDE。实验得出的结论是,我和我父亲的书风格雷同。这篇文章充满了我看不懂的 : 专业术语,很多试图证明我的书是我父亲代写的朋友也像捡到了宝一样兴奋不已转发不 : 止。甚至其中还有科普人士,他们认为最终还是科学和数据来说话了。我真的不知道该
|
m**d 发帖数: 21441 | 12 用这个对付韩寒也太凶恶了
不过韩寒轻易可以反击:有其父必有其子,父子文风相近有什么奇怪的?
【在 s******g 的大作中提到】 : 他果然是自己说的“理科白痴” : “韩寒:我的父亲韩仁均 : ... : 我甚至发现还有伪科学证明法,忽悠了不少人。有理科生做了一个科学统计,选取了八 : 九本书,其中有我父亲的书为A,我的四本书B,C,D,E,其他作家的书G,F。分析书 : 中关键词出现的次数,比如三个“的”“得”“地”,比如“因为”“所以”,结果发 : 现,我父亲的书和我的那四本书出现这些词的总次数差不多,而另外两本书明显要数倍 : 与ABCDE。实验得出的结论是,我和我父亲的书风格雷同。这篇文章充满了我看不懂的 : 专业术语,很多试图证明我的书是我父亲代写的朋友也像捡到了宝一样兴奋不已转发不 : 止。甚至其中还有科普人士,他们认为最终还是科学和数据来说话了。我真的不知道该
|
d*****t 发帖数: 7903 | 13 读贴不仔细啊,原作者明显搞错了词频的定义。
【在 s******g 的大作中提到】 : 难道原来那个人不是用的词频率? : 我不熟悉r,但是我觉得这个错误一般人不会犯
|
U********S 发帖数: 1896 | 14 这个PCA最大的发现是郭敬敏的两本书完全不同,要么是抄的要么是有团队,哈哈。 |
h*l 发帖数: 807 | 15 韩粉这个逻辑太傻x了。
实际的逻辑应该是:即使一个人的著作,词频上也会有差异。但是韩寒和他老爸的,偏
偏没有偏差
【在 U********S 的大作中提到】 : 这个PCA最大的发现是郭敬敏的两本书完全不同,要么是抄的要么是有团队,哈哈。
|
p********1 发帖数: 2785 | 16 静候佳音。期望有一天这些学科能够准确分析判定一个人的文学风格。
【在 w*********m 的大作中提到】 : there is an area called Computational Linguistics in Linguistics, and an : area of CS called Natural Language Processing.
|
h***i 发帖数: 3844 | 17 不用侯了,不可能有这一天。统计就是忽悠人的,要不然能有这么多人读嘛。
【在 p********1 的大作中提到】 : 静候佳音。期望有一天这些学科能够准确分析判定一个人的文学风格。
|
h***y 发帖数: 4936 | 18 滥用瞎用统计学,还不如不用,你至少要把假设都列出来吧,即便假设都成立(显然不
太可能),统计意义上的差别也根本无法直接推出如此武断的结论。语气这么肯定的所
谓统计分析是没有逻辑的,先别嘲笑没接受过理科教育的人,还是先学会严谨吧。
【在 s******g 的大作中提到】 : 他果然是自己说的“理科白痴” : “韩寒:我的父亲韩仁均 : ... : 我甚至发现还有伪科学证明法,忽悠了不少人。有理科生做了一个科学统计,选取了八 : 九本书,其中有我父亲的书为A,我的四本书B,C,D,E,其他作家的书G,F。分析书 : 中关键词出现的次数,比如三个“的”“得”“地”,比如“因为”“所以”,结果发 : 现,我父亲的书和我的那四本书出现这些词的总次数差不多,而另外两本书明显要数倍 : 与ABCDE。实验得出的结论是,我和我父亲的书风格雷同。这篇文章充满了我看不懂的 : 专业术语,很多试图证明我的书是我父亲代写的朋友也像捡到了宝一样兴奋不已转发不 : 止。甚至其中还有科普人士,他们认为最终还是科学和数据来说话了。我真的不知道该
|