由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Military版 - 韩寒is over,你们看看韩寒和其父汉字频率使用分析
相关主题
猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写韩寒:谈革命
方舟子的所谓“质疑”韩寒与标准优等生黄思路对话
方舟子最新博文:韩寒的真实语文水平中国官媒赞扬韩寒转身:他超越了“左”与“右” (转载)
字频软再分析----硝烟你这分析算什么鸡巴玩意从韩寒事件看中国知识分子的素质有多低
方舟子新博文 --- “天才”韩寒的文史水平韩寒这事,有点越描越黑的味道了。。
[合集] 王朔骂韩寒韩寒的逻辑
游行的意义(原题《主子,奴才和狗》——韩寒918被删博文韩寒三重疑
韩寒搞篇这样的博文是装逼吗?麦田:致韩寒韩仁均李其纲等人道歉信(如图)
相关话题的讨论汇总
话题: 韩寒话题: 九篇话题: 统计话题: 字频话题: 所写
进入Military版参与讨论
1 (共1页)
s********n
发帖数: 26222
1
有free汉字频率使用分析软件可以下载的
http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
[转贴]rost字频软件对韩寒作品中的地得的统计
3909 次点击
32 个回复
0 次转到微评
天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
"的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
新学习后创作,这个字频仍然不变,或变化很小。
经过武汉大学沈阳博士开发的rost字频软件对韩寒作品的统计(国外也有类似的软
件,如英国的wordsmith),终于发现了统计学上的意义(此方法,通常用来鉴定真作
为伪作,过去《红楼梦》的前80回与后40回,曾有大学进行过类似的统计):
《三重门》、《零下一度》、《博文九篇》,作者韩寒;《儿子韩寒》,作者韩其
均。
其中《博文九篇》选自韩寒新浪博客2012年1月19日下午6时前的九篇:
(超常文章一篇、小破文章一篇、我的2011、要自由、说民主、谈革命、问我、这
事儿都过气了、序言一篇)

《三重门》、《零下一度贰ⅰ恫┪木牌贰ⅰ抖雍纷制刀员龋
的 0.0308 0.0357 0.04900.0388
地 0.0032 0.0036 0.0008 0.0040
得 0.0071 0.0055 0.0050 0.0051
其中,《博文九篇》“的”,“地”两个字,尤其是“地”字,与其它各篇,明显
表现出统计学上的偏差,是其它各篇的4倍至5倍。说明:《三重门》、《零下一度》、
《儿子韩寒》确是一人所写,而我所选的2012年1月19日前的《博文九篇》,显然是另
一人所写。
结论:这里可以看出,如果《儿子韩寒》是韩父所写,那么《三重门》和《零下一
度》,也应是韩父所写。《博文九篇》则是韩寒所写,或他的团队代写。
y**o
发帖数: 8897
2
这个丝毫没用
昨天我分析了
立论站不住脚

【在 s********n 的大作中提到】
: 有free汉字频率使用分析软件可以下载的
: http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
: [转贴]rost字频软件对韩寒作品中的地得的统计
: 3909 次点击
: 32 个回复
: 0 次转到微评
: 天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
: "的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
: 点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
: 新学习后创作,这个字频仍然不变,或变化很小。

s********n
发帖数: 26222
3
错过了,zkss

【在 y**o 的大作中提到】
: 这个丝毫没用
: 昨天我分析了
: 立论站不住脚

t****v
发帖数: 9235
4
有人说我是老大爷
你们分析一下我的贴和老大爷的贴
为我洗清这不白之冤
s********n
发帖数: 26222
5
他的帖子满是黄图茎叶,咋分析?

【在 t****v 的大作中提到】
: 有人说我是老大爷
: 你们分析一下我的贴和老大爷的贴
: 为我洗清这不白之冤

t****v
发帖数: 9235
6
我觉得老大爷是马甲
还有真身现在混在版上
如果要真能就出来
就是为民造福
y**o
发帖数: 8897
7
就是这种东西不能用家庭成员来比较,因为语境和语言习惯太相似了.

【在 s********n 的大作中提到】
: 错过了,zkss
c**i
发帖数: 13113
8
父子写字相似不奇怪,DNA毕竟一半
有的人为了反韩寒,有点不择手段了

【在 s********n 的大作中提到】
: 有free汉字频率使用分析软件可以下载的
: http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
: [转贴]rost字频软件对韩寒作品中的地得的统计
: 3909 次点击
: 32 个回复
: 0 次转到微评
: 天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
: "的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
: 点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
: 新学习后创作,这个字频仍然不变,或变化很小。

s********n
发帖数: 26222
9
未必,父与子的所受教育,时代,人生都不一样,所以写作的痕迹字频必然不一样。
如果是同卵同性别双胞胎(同样学校受教育),那可能会一样。
如果都一样,字频分析就不可能分辨出韩父和hh来,而结果实际是分辨出来了啊。

【在 y**o 的大作中提到】
: 就是这种东西不能用家庭成员来比较,因为语境和语言习惯太相似了.
s********n
发帖数: 26222
10
靠,来点有科技含量的就是“不择手段"?韩粉都是脑残一族?

【在 c**i 的大作中提到】
: 父子写字相似不奇怪,DNA毕竟一半
: 有的人为了反韩寒,有点不择手段了

相关主题
[合集] 王朔骂韩寒韩寒:谈革命
游行的意义(原题《主子,奴才和狗》——韩寒918被删博文韩寒与标准优等生黄思路对话
韩寒搞篇这样的博文是装逼吗?中国官媒赞扬韩寒转身:他超越了“左”与“右” (转载)
进入Military版参与讨论
c**i
发帖数: 13113
11
拿来比较父子这种直系亲属没意思。

【在 s********n 的大作中提到】
: 靠,来点有科技含量的就是“不择手段"?韩粉都是脑残一族?
s********n
发帖数: 26222
12
扯淡,汉字使用频率不是由DNA决定的,多是受后天教育形成的。
你太文科了!

【在 c**i 的大作中提到】
: 拿来比较父子这种直系亲属没意思。
s**********d
发帖数: 36899
13
铁证如山。
写作用字,跟指纹一样,每个人有自己的特征,不同人不可能一样。
一样的也必然是同一个人。
s********n
发帖数: 26222
14
这种证据是抵赖不过去的,而且无法再更改做手脚了

【在 s**********d 的大作中提到】
: 铁证如山。
: 写作用字,跟指纹一样,每个人有自己的特征,不同人不可能一样。
: 一样的也必然是同一个人。

y**o
发帖数: 8897
15
韩寒没受过多少教育
文本学习也是用他父亲的藏书
加上家庭语言环境
基本上不可以把文体个别统计做为判定依据
语言做为能指符号,其特征是非常社会性的.

【在 s********n 的大作中提到】
: 扯淡,汉字使用频率不是由DNA决定的,多是受后天教育形成的。
: 你太文科了!

c**i
发帖数: 13113
16
我打个比方,你听不听随便,我不过是说讨论这个话题没意思。

【在 s********n 的大作中提到】
: 扯淡,汉字使用频率不是由DNA决定的,多是受后天教育形成的。
: 你太文科了!

h***i
发帖数: 89031
17
这个只要分析一下确乎属于他和他爹的文字,只药频率有区别就行了

【在 y**o 的大作中提到】
: 韩寒没受过多少教育
: 文本学习也是用他父亲的藏书
: 加上家庭语言环境
: 基本上不可以把文体个别统计做为判定依据
: 语言做为能指符号,其特征是非常社会性的.

p*******r
发帖数: 2204
18
能说出这样的话来,胸一定很大

【在 c**i 的大作中提到】
: 父子写字相似不奇怪,DNA毕竟一半
: 有的人为了反韩寒,有点不择手段了

y**o
发帖数: 8897
19

源文本很重要
要用爷俩儿现场写的同等字数的同类文字,至少两人分别要三个样本,进行量化特征定性后
才可以依照这个比较结果来验证其他文字.
这些文科生欠缺研究基本素质.

【在 h***i 的大作中提到】
: 这个只要分析一下确乎属于他和他爹的文字,只药频率有区别就行了
c**i
发帖数: 13113
20
嗯,赞同!

【在 y**o 的大作中提到】
: 韩寒没受过多少教育
: 文本学习也是用他父亲的藏书
: 加上家庭语言环境
: 基本上不可以把文体个别统计做为判定依据
: 语言做为能指符号,其特征是非常社会性的.

相关主题
从韩寒事件看中国知识分子的素质有多低韩寒三重疑
韩寒这事,有点越描越黑的味道了。。麦田:致韩寒韩仁均李其纲等人道歉信(如图)
韩寒的逻辑方舟子回应韩寒最新博文:我相信是他本人写的
进入Military版参与讨论
s********n
发帖数: 26222
21
韩父的作品可以确定的是《儿子韩寒》,哪些“韩寒”的作品真的是“韩寒”的,那就
不能确定了,这个是难题,我觉得可以从他的现场访谈节目可以测算出来,访谈节目应
该是真的吧。

【在 h***i 的大作中提到】
: 这个只要分析一下确乎属于他和他爹的文字,只药频率有区别就行了
x****o
发帖数: 29677
22
这个分析不靠普,应该找其他作家等等写作文章里的字来分析对比
的,地,得是频率使用最广的词,很难直接这么比
l******t
发帖数: 55733
23
斧子确实很难比,遣词造句相似度高很有可能啊
k**o
发帖数: 15334
24
真tm扯淡。父子文风相似,又如何?
a****o
发帖数: 6612
25
你要是看过"书店",就知道父代子"寒"并不是扯。

【在 k**o 的大作中提到】
: 真tm扯淡。父子文风相似,又如何?
w*l
发帖数: 2550
26
靠,我还以为搞到什么铁证了呢。这不是闪人么。

【在 s********n 的大作中提到】
: 有free汉字频率使用分析软件可以下载的
: http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
: [转贴]rost字频软件对韩寒作品中的地得的统计
: 3909 次点击
: 32 个回复
: 0 次转到微评
: 天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
: "的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
: 点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
: 新学习后创作,这个字频仍然不变,或变化很小。

e**y
发帖数: 51
27
还是不要一看到xxx统计,科学方法就他妈的说铁证如山了。如果你不懂统计的话。因
为如果你不懂,你就说它是科学,是铁证如山,是技术含量,那这算不算迷信?一见科
学家你就湿的湿,射的射。
曾经在statistics in medicine上面看到统计数据说,基本上90%的医学文章用的统计
方法都存在大大小小的问题。或者你可以去问一个作风严谨的统计学教授,问他能不能
证明吸烟和肺癌的关系,你可能会发现一些你以前所不知道的东西。
统计只是统计,统计不能证明因果,统计还有type-i error 和 power的东东。
有的统计方法,type-i error很大,就是说有很大的机会它错报了positive。就跟你去
检查怀没怀上一样,type-i error大=你如果没怀上,但很大可能被错误的报成了你怀
上了。
那么power小就=你如果真怀上了,那很大可能你会被报成没有。
好吧,说到这里,如果你还是没懂,那你更不应该瞎嚷嚷了。那我就继续说完。
1)作者提到他的方法的type-i error和power了没?你看到了吗?如果没有,那么如果
一个方法type-i error = 0.5, power = 0.99, 你信他说你怀上了不?
2)而且,这种文本比较的统计方法,使用起来很tricky。它的结果通常取决于你评估
哪几个字。你想得到的结果,通常都可以通过选择正确的字来达到。道理很明白,1000
个字里,你总能找到那么几个字来得到你想要的结论。
3)更何况,文本数据本来的非常复杂。现在的text mining基本上只能用low level的
frequency信息,而通常必须要massive texts去counterbalance那些high-level的信息
。因为文本的信息大部分其实包含在语法等更高层次的结构里。这个算法很明显是非常
粗浅的。
3)最后,好吧,就算以上所有的都不apply 这个case,那么,你怎么就知道你的文章
的那三个字的频率就和韩寒的不一样呢?说不定这就是某一类人的群体性的语言偏好-
-比如你们都是同一个老师教出来的,你们都是80后,或者其他啥啥啥的。这个逻辑上
还是存在问题,乍就忽略不计了?

【在 s********n 的大作中提到】
: 有free汉字频率使用分析软件可以下载的
: http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
: [转贴]rost字频软件对韩寒作品中的地得的统计
: 3909 次点击
: 32 个回复
: 0 次转到微评
: 天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
: "的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
: 点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
: 新学习后创作,这个字频仍然不变,或变化很小。

z****c
发帖数: 602
28
文字编辑最喜欢改的就是“的地得”。
j**********k
发帖数: 296
29
啥也不说,附图仅供参考,请自己甄别:
Q*****n
发帖数: 4546
30
我怎么看不出多大差异
的 0.0308 0.0357 0.04900.0388
地 0.0032 0.0036 0.0008 0.0040
得 0.0071 0.0055 0.0050 0.0051

【在 s********n 的大作中提到】
: 有free汉字频率使用分析软件可以下载的
: http://club.kdnet.net/dispbbs.asp?boardid=1&id=8065712&page=1&1
: [转贴]rost字频软件对韩寒作品中的地得的统计
: 3909 次点击
: 32 个回复
: 0 次转到微评
: 天山去折梅 于 2012-1-24 1:08:57 发布在 凯迪社区 > 猫眼看人
: "的"、"地"、得"这三个字出现的频率,实际上代表我们说的一个人写作的风格和特
: 点。真作和伪作,通常可以用这种方法进行判断,即使这个作者经过长时间的停止和重
: 新学习后创作,这个字频仍然不变,或变化很小。

相关主题
Ooops,韩寒亮出手稿了,舟子又该如何?方舟子的所谓“质疑”
给韩寒说几句公道话方舟子最新博文:韩寒的真实语文水平
猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写字频软再分析----硝烟你这分析算什么鸡巴玩意
进入Military版参与讨论
B*G
发帖数: 13438
31
那个统计文章的原作者因为被一帮搞语义学和搞统计的拍的太厉害,已经把原帖给删了
。他那个统计确实不严谨,最大的缺点就是只用了韩寒他爸的一篇文章,文章名字还叫
儿子韩寒,文章里面本来就引了韩寒自己不少话语和文字,他起码应该找韩寒他爸多几
篇文章来统计才对。

【在 j**********k 的大作中提到】
: 啥也不说,附图仅供参考,请自己甄别:
m*t
发帖数: 7490
32
如果你说韩寒与其父亲的文风接近到软件无法区分的程度
那你就无法解释为什么韩寒的出版物和他自己的博客可以被区分了
合理的解释还是出版物都是老子的,博客是他自己的

【在 y**o 的大作中提到】
: 韩寒没受过多少教育
: 文本学习也是用他父亲的藏书
: 加上家庭语言环境
: 基本上不可以把文体个别统计做为判定依据
: 语言做为能指符号,其特征是非常社会性的.

y**c
发帖数: 6307
33
又来一个原告走了,旁观者起哄的。
麦田走了,方舟子抱臭脚上。
分析者走了,菌斑混混继续抱着臭脚上。。。

【在 B*G 的大作中提到】
: 那个统计文章的原作者因为被一帮搞语义学和搞统计的拍的太厉害,已经把原帖给删了
: 。他那个统计确实不严谨,最大的缺点就是只用了韩寒他爸的一篇文章,文章名字还叫
: 儿子韩寒,文章里面本来就引了韩寒自己不少话语和文字,他起码应该找韩寒他爸多几
: 篇文章来统计才对。

l******n
发帖数: 492
34
为啥有的相似有的不相似?

【在 k**o 的大作中提到】
: 真tm扯淡。父子文风相似,又如何?
q***7
发帖数: 2011
35
写作语言和DNA几乎没有关系,都是后天形成的。你试试读读你的下一代或者老一代,
再看看其中差别

【在 c**i 的大作中提到】
: 父子写字相似不奇怪,DNA毕竟一半
: 有的人为了反韩寒,有点不择手段了

s*******n
发帖数: 10426
36
父子的指纹能一样吗?如果作品中存在类似指纹的东西,那就可以用来鉴定是谁写的了。
不知道这个“的,地,得”是不是这类的“写作指纹”。

【在 k**o 的大作中提到】
: 真tm扯淡。父子文风相似,又如何?
s********n
发帖数: 26222
37
是这个理

【在 m*t 的大作中提到】
: 如果你说韩寒与其父亲的文风接近到软件无法区分的程度
: 那你就无法解释为什么韩寒的出版物和他自己的博客可以被区分了
: 合理的解释还是出版物都是老子的,博客是他自己的

1 (共1页)
进入Military版参与讨论
相关主题
麦田:致韩寒韩仁均李其纲等人道歉信(如图)方舟子新博文 --- “天才”韩寒的文史水平
方舟子回应韩寒最新博文:我相信是他本人写的[合集] 王朔骂韩寒
Ooops,韩寒亮出手稿了,舟子又该如何?游行的意义(原题《主子,奴才和狗》——韩寒918被删博文
给韩寒说几句公道话韩寒搞篇这样的博文是装逼吗?
猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写韩寒:谈革命
方舟子的所谓“质疑”韩寒与标准优等生黄思路对话
方舟子最新博文:韩寒的真实语文水平中国官媒赞扬韩寒转身:他超越了“左”与“右” (转载)
字频软再分析----硝烟你这分析算什么鸡巴玩意从韩寒事件看中国知识分子的素质有多低
相关话题的讨论汇总
话题: 韩寒话题: 九篇话题: 统计话题: 字频话题: 所写