看来普及统计学还是重要的，韩寒把PCA当成了点字数 - Military版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Military版 - 看来普及统计学还是重要的，韩寒把PCA当成了点字数

相关主题
● 关于韩寒：除了揣测还是揣测	● 尼玛snowden的情报不够力啊。
● 贝志诚当年网上求救,收到多少信息?	● 书记俗了：每4句话约有1个“钱”ZT
● 韩寒更新微博了，里面有他老爸的信	● “薄熙来案”庭审词频与逻辑分析
● 中医学第一定律-阴阳守恒定律	● 现在看来天涯神婆说的非常靠谱啊
● 为什么要用平方形式的方差	● 这个版的傻逼神经病发帖都有固定格式的
● 辩诬的韩寒	● 国内发掘内需，鼓励消费了
● 论韩寒和陈水扁，以及他们和其粉丝之间的关系	● 捆仙绳小手这次硬凹太失败了
● 别把“编一个程序过滤”想太复杂, 实际就是grep \| wc	● 求是理论网:英美主流媒体对中国共产党的认知与评价

相关话题的讨论汇总
话题: pca话题: 统计学话题: 父亲话题: 韩寒

进入Military版参与讨论

(共1页)

s******g
发帖数: 3841

他果然是自己说的“理科白痴”
“韩寒：我的父亲韩仁均
...
我甚至发现还有伪科学证明法，忽悠了不少人。有理科生做了一个科学统计，选取了八
九本书，其中有我父亲的书为A，我的四本书B，C，D，E，其他作家的书G，F。分析书
中关键词出现的次数，比如三个“的”“得”“地”，比如“因为”“所以”，结果发
现，我父亲的书和我的那四本书出现这些词的总次数差不多，而另外两本书明显要数倍
与ABCDE。实验得出的结论是，我和我父亲的书风格雷同。这篇文章充满了我看不懂的
专业术语，很多试图证明我的书是我父亲代写的朋友也像捡到了宝一样兴奋不已转发不
止。甚至其中还有科普人士，他们认为最终还是科学和数据来说话了。我真的不知道该
说什么好，A，B，C，D，E都是十万字，G是三十万字，F则超过了五十万字。所以结果
当然是ABCDE的常用词出现次数差不多，而G是他们的三倍左右，F则是五倍左右。像我
这样的理科白痴也知道做这种对比的时候，抽样对象的字数得是一样的吧。我不明白这
位理科生为什么这么恨我，虽然我一直对理科生特别有好感，我小时候的梦想就是科学
家。但是理科更需要严谨，能在完全缺乏条件的情况下依然把实验做的津津有味并得出
结论，也算有本事。...”

p********r
发帖数: 1465

g********w
发帖数: 2539

结果确实是没有归一化，重新做了以后发现没有办法用虚词区分
http://www.weibo.com/1734031341/y2xlN7nzD

t*******y
发帖数: 21396

牛逼啊，你要和刘翔去比数学，就更有优越感了

s******g
发帖数: 3841

难道原来那个人不是用的词频率？
我不熟悉r，但是我觉得这个错误一般人不会犯

【在 p********r 的大作中提到】

s******g
发帖数: 3841

这个打不开啊

【在 g********w 的大作中提到】

: 结果确实是没有归一化，重新做了以后发现没有办法用虚词区分
: http://www.weibo.com/1734031341/y2xlN7nzD

s*m
发帖数: 1896

不懂统计学很正常啊，为什么要普及？这么多人没写过小说呢，是不是也要普及一下
啊？
懂统计学又怎么样？其实这个结果根本狗屁不是，完全是混淆试听：
你让他用同样方法把所有文学作品都测一遍，肯定能找到张三李四比韩仁均作品更靠近
韩寒的，难道能说明韩寒的作品是张三李四代写的？

【在 s******g 的大作中提到】

: 他果然是自己说的“理科白痴”
: “韩寒：我的父亲韩仁均
: ...
: 我甚至发现还有伪科学证明法，忽悠了不少人。有理科生做了一个科学统计，选取了八
: 九本书，其中有我父亲的书为A，我的四本书B，C，D，E，其他作家的书G，F。分析书
: 中关键词出现的次数，比如三个“的”“得”“地”，比如“因为”“所以”，结果发
: 现，我父亲的书和我的那四本书出现这些词的总次数差不多，而另外两本书明显要数倍
: 与ABCDE。实验得出的结论是，我和我父亲的书风格雷同。这篇文章充满了我看不懂的
: 专业术语，很多试图证明我的书是我父亲代写的朋友也像捡到了宝一样兴奋不已转发不
: 止。甚至其中还有科普人士，他们认为最终还是科学和数据来说话了。我真的不知道该

p********1
发帖数: 2785

看来文学统计学将要大发展了。

p********r
发帖数: 1465

明显没有
很显然，有些人就喜欢犯低级错误。
不知道你熟悉不熟悉matlab
http://blog.sina.com.cn/s/blog_56fc0caa0100zml1.html

【在 s******g 的大作中提到】

: 难道原来那个人不是用的词频率？
: 我不熟悉r，但是我觉得这个错误一般人不会犯

w*********m
发帖数: 4740

there is an area called Computational Linguistics in Linguistics, and an
area of CS called Natural Language Processing.

【在 p********1 的大作中提到】

: 看来文学统计学将要大发展了。

相关主题
● 辩诬的韩寒	● 尼玛snowden的情报不够力啊。
● 论韩寒和陈水扁，以及他们和其粉丝之间的关系	● 书记俗了：每4句话约有1个“钱”ZT
● 别把“编一个程序过滤”想太复杂, 实际就是grep \| wc	● “薄熙来案”庭审词频与逻辑分析
进入Military版参与讨论

d*****l
发帖数: 8441

又是一个统计迷信。
PCA？你的变换矩阵是啥？是咋来的？还不是“数出来”得到的相关矩阵/协方差矩阵，
然后再对角化的？
词频统计相似能够说明屁！

【在 s******g 的大作中提到】

m**d
发帖数: 21441

用这个对付韩寒也太凶恶了
不过韩寒轻易可以反击：有其父必有其子，父子文风相近有什么奇怪的？

【在 s******g 的大作中提到】

d*****t
发帖数: 7903

读贴不仔细啊，原作者明显搞错了词频的定义。

【在 s******g 的大作中提到】

: 难道原来那个人不是用的词频率？
: 我不熟悉r，但是我觉得这个错误一般人不会犯

U********S
发帖数: 1896

这个PCA最大的发现是郭敬敏的两本书完全不同，要么是抄的要么是有团队，哈哈。

h*l
发帖数: 807

韩粉这个逻辑太傻x了。
实际的逻辑应该是：即使一个人的著作，词频上也会有差异。但是韩寒和他老爸的，偏
偏没有偏差

【在 U********S 的大作中提到】

: 这个PCA最大的发现是郭敬敏的两本书完全不同，要么是抄的要么是有团队，哈哈。

p********1
发帖数: 2785

静候佳音。期望有一天这些学科能够准确分析判定一个人的文学风格。

【在 w*********m 的大作中提到】

: there is an area called Computational Linguistics in Linguistics, and an
: area of CS called Natural Language Processing.

h***i
发帖数: 3844

不用侯了，不可能有这一天。统计就是忽悠人的，要不然能有这么多人读嘛。

【在 p********1 的大作中提到】

: 静候佳音。期望有一天这些学科能够准确分析判定一个人的文学风格。

h***y
发帖数: 4936

滥用瞎用统计学，还不如不用，你至少要把假设都列出来吧，即便假设都成立（显然不
太可能），统计意义上的差别也根本无法直接推出如此武断的结论。语气这么肯定的所
谓统计分析是没有逻辑的，先别嘲笑没接受过理科教育的人，还是先学会严谨吧。

【在 s******g 的大作中提到】

(共1页)

进入Military版参与讨论

相关主题
● 求是理论网:英美主流媒体对中国共产党的认知与评价	● 为什么要用平方形式的方差
● 词频分析来了:读懂改开40年讲话这些热词	● 辩诬的韩寒
● 读《毛选》之《毛泽东选集》出版（建国前）知多少？	● 论韩寒和陈水扁，以及他们和其粉丝之间的关系
● 还是关心习省长的博士学位把	● 别把“编一个程序过滤”想太复杂, 实际就是grep \| wc
● 关于韩寒：除了揣测还是揣测	● 尼玛snowden的情报不够力啊。
● 贝志诚当年网上求救,收到多少信息?	● 书记俗了：每4句话约有1个“钱”ZT
● 韩寒更新微博了，里面有他老爸的信	● “薄熙来案”庭审词频与逻辑分析
● 中医学第一定律-阴阳守恒定律	● 现在看来天涯神婆说的非常靠谱啊

相关话题的讨论汇总
话题: pca话题: 统计学话题: 父亲话题: 韩寒

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天