由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
ChinaNews版 - 韩寒代笔探讨:强质疑、弱质疑、和忽悠 zz
相关主题
韩寒老爸如果代笔理论上讲可以证明一位民运人士给“滕彪们”的一点批判与忠告
purity是水版的一道风景 (转载)给“滕彪们”的一点批判与忠告
韩寒作品为其父韩仁均所写的第一手证据zt中华女事件,贵州电视台能不能回应几个疑点?zz
【独家专访】韩寒回应“代笔”事件捡戒指被告的疑点太多,呵呵
写给邓小平爷爷的信-小学生优秀作文 - 记叙文关于钱云会事件”的诸多疑点
我渔政抢占美济礁始末:啤酒瓶砸退菲律宾军机zz关于钱云会案件是谋杀案的疑问
警惕敏感词“无形资产”流失zz曝光中共制造的世纪伪案“天安门自焚”之真相
乌有之乡的战斗檄文: 否定延安整风,高华之流是何居心?我猜测
相关话题的讨论汇总
话题: 质疑话题: 证据话题: 代笔话题: 韩寒话题: 忽悠
进入ChinaNews版参与讨论
1 (共1页)
p****y
发帖数: 23737
1
昨晚我放话说要就韩方之争写文章,一些朋友留言说期待大作、佳作、高作。这让我很
为难,吵起架来,嘴脸都是很难看的,不外乎是强调对自己有利的论据,无视对自己不
利的证据,然后想方设法地拉拢旁观者。顶多风度、策略有好坏而已。期待高人吵架,
就跟看完武侠小说中的高手争斗后,到了现实里,发现大家打架时也就是挖眼抠鼻。所
以本文肯定是一篇不咋地的文章,请大家抱着轻松娱乐的心情观看。
对于质疑,我的看法是:韩寒是否代笔这个话题,属于公众人物的公域事件,无论
方舟子,还是任何人,毫无疑问都有合理和无理质疑的权利。韩寒肯定很不乐意,但这
是出名的代价。打诽谤官司的话,此案在美国恐怕赢面不大,因为需要证明质疑者心怀
恶意,很困难。至于中国这方面法律如何我就更不清楚了。
那么,质疑在边界在什么地方,什么样的质疑会属于诽谤或者名誉侵权?我觉得这
是一个如何看待言论自由权利,和名誉权,之间的冲突的问题,名誉权的合理边界,随
被质疑者的身份(公权者,公众人物,普通人)而变,也随大众的认知而变,想要确切
论个是非很困难。所幸本文不讨论这个问题,我只对“代笔质疑”一事中的网民心理和
判断感兴趣。大众判断能力不提高,法庭出个结果,没用。
本来想到文章最后下结论,考虑到大家都比较关心站队的问题。我就在文章开始就
讲吧。目前对韩寒代笔的质疑主要有四处:早期作品(求医、书店),竞赛作品《杯中
窥人》,长篇《三重门》,博客。对代笔人的怀疑主要集中在其父韩仁均。我个人的判
断很明确:从目前已有的证据看,《杯中窥人》《三重门》等长篇,由韩仁均代笔的可
能性非常小。而早期作品(求医、书店),韩寒博客,虽文字风格和情景并不能确定作
者,但质疑者并没有能够提出能让我熊熊燃烧的八卦之心信服的疑点或逻辑推断。善意
推断的话,我倾向于同样是韩寒写的。
以下专门谈“代笔质疑”这个事情,不谈什么包装什么韩三篇,当然更不谈私生活
。那些文后随便讲讲。主要讲我个人的逻辑判断,希望对大家有帮助。明确一下定义,
这里“代笔”指的是有人代写整段/篇文章,不是编辑或朋友订正、修正少量字句的正
常行为。
---------------------------------------------
一、代笔人
代笔,首先要有代笔人。一开始代笔人的说法有很多,比如有代笔团队,路金波代
笔等,但最后集中到韩寒父亲韩仁均身上,这并非偶然,其原因是如下逻辑:
(1).韩寒是个十多年发表了很多作品的畅销书作家,《三重门》后公开发表的长篇,作
品文风相似,也就是说,如果要代笔,必然存在长期稳定的代笔者或团队。
(2).而这个长期的代笔者,如果能证明自己是韩寒这些畅销书的代笔,其经济收益是巨
大的。
(3).所以根据(1),(2)推论,如果存在长期代笔者,他(们)又十几年都没站出来自证
,那只可能与韩寒的关系超越这巨额利益之上的人。准确说,如果有代笔,只可能是亲
人。
这就是为什么绝大部分质疑是针对韩仁均。因为所有其它的代笔嫌疑人,质疑方都
会面临这个代笔者“巨额利益损失”难以解释的困扰。下文讨论质疑时,将把“如果有
代笔者,那只可能是韩仁均”作为前提条件考虑。
二、“强质疑”,“弱质疑”和“忽悠”
1.什么是“强质疑”?强质疑就是所谓的“铁证”。比如你审论文的时候,看见一篇论
文,里头有个作者自称的原创段落,和几年前别人已经发表过的一样,在这种情况下,
99.9%甚至更高的几率属于抄袭。因为无论作者是谁,出现这种情况,哪怕仅仅一次,
都基本可以确认。因为偶然写出一模一样的段落的几率可以忽略不计。除非一些非常意
外的情况(比如早先投稿不中却被当时的审稿人剽窃等)。在有强证据的情况下,被质
疑方理应站出正面解释,如果没有解释或者其解释无合理的证明力,一般可认定为“证
据”。很可惜的是,在这场论争中,尚未看见任何证明韩寒文章属于代笔的“强证据”。
2.什么是“弱质疑”?弱质疑就是“较少出现的情况”,5%,10%,20%。几个或者十几
个同类案例中会出现一个。这种证据属于疑点,算作“不利条件”,但是没有太大的证
明力。如果有更“强”的“有利条件”,那么这个弱证据就不起作用。比如“韩寒一边
开赛车一边发博客,所以不可能”,这是强质疑,但是“韩寒在赛车的前一天凌晨发博
客,所以不可能”,这是弱质疑。
具体的例子,比如:十几岁小孩不可能写出大人的角度与语言。文章引用太多名人
文章与英文,中学生知识面不可能这么宽。
有人说,虽然每个弱证据可能都只有10%或20%的作家才会出现,比如引用名人文章
和英文,《三重门》里出现多处,这样多个弱证据叠在一起相乘,出现的几率不是很小
么?其实不能相乘,因为它们的起因往往是相同的。比如作家认为,我这部小说要模仿
《围城》,好好装逼,多引用英文,这很好解决,因为引用并不需要阅读原著,只需要
二次引用(比如从引用原著的一般性书籍,原著的评论,报纸甚至看过原著的朋友交谈
中)即可。只要有了这个“起因”,那么全书就自然会出现无数个这样的“弱证据”,
而“起因”相同的多个弱证据同时出现的几率,并不比只出现一个弱证据低上多少。
(有人在这里要问了,多个独立的弱证据可以叠加么?可以,但最容易犯的错误就
是将弱证据连乘。实际上在总样本量足够大的时候,任何弱证据,无论发生几率是10%
还是5%。叠加时对于总体概率的影响非常微小。这也就是为何捕风捉影是无意义的。这
话简单写不容易理解,详细可以看本文开头的文章链接。)
那么对弱证据,一般的好反驳是什么呢?就是提出比这个弱证据证明力要强的有利
证据。如果有强的有利证据出现,那么与之相矛盾的,弱的不利证据,就不成立了。
类似的经典案例比如《鬼吹灯》,看过鬼吹灯的读者应该知道,鬼吹灯是文革背景
下的盗墓故事,作者的古玩、盗墓、文革见识经验在书中表现的极其“丰富”,写得活
灵活现,该书极其畅销,很多读者应该都读过。我当时读完后,心想,五六十岁的老一
辈还有这么有趣的人,真想见见呢。结果最后发现,这个叫“天下霸唱”的家伙,不是
个60岁的老头,居然只有28岁,声称这些东西都是自己瞎编的,平时也不喜欢看书,写
着玩的。一时天雷滚滚,这九成五是被代笔啊!
很多读者不能接受这个现实,于是质疑纷纷出笼,指责作者不是原著,最后发展到
有读者在福建某个小山村找到了真正作者的“遗稿”等等。对此,很快作者又推出了《
鬼吹灯II》,质疑声稍有止息,突然又出现爆炸性新闻,网友发帖称,一个有名有姓的
原著者站了出来,王阅枚,还找上了东海电视台,声称其子女02年送其《鬼吹灯》手稿
到某报社编辑润色,丢失。而网友也发帖列举诸多事例,认为:“28岁的张牧野不可能
写出第一部《鬼吹灯》。第一部鬼吹灯中引用了大量70年代流行语,对于历史、地理及
风水堪舆等知识也不可能是瞎编的产物。而第二部的水平明显比第一部差,是天下霸唱
的狗尾续貂之作”。一时舆论大哗,某网投票,大概有七八成的网友认为《鬼吹灯》乃
是窃稿。到后来,记者探访东海电视台,证实是假消息,做了澄清。而作者方对质疑做
了冷处理。渐渐的,这些质疑也慢慢消失了。
为什么会出现这种情况?大家是如何判断的?是这样的:
(1).第一次质疑,用的是一个弱的不利证据。你只有28岁,完全没有任何古玩、盗墓、
文革的经验,又不爱看书,仅凭着“瞎想”就想出了鬼吹灯,这属于“很少出现的情况
”,所以我们质疑你是窃稿。
(2).第一次回应,则是一个比这个不利证据更强的有利证据。你说我编不出《鬼吹灯》
。可我这又编了一本《鬼吹灯II》。很显然,连续窃稿两本的几率,这个几率要比只窃
一本,小太多。构成了有利的强证据,与前面的弱证据形成了矛盾。那么强证据占了上
风。
(3).第二次质疑。搬出了一个“代笔者”王阅枚,我有文革经验,手稿我02年送去编辑
部丢了,但我有证人,而且我站出来质疑你。这是一个比(2)更强的证据。并且其它质
疑者反驳了(2),你的鬼吹灯II比I写的差很多啊,这不合常理。
(4).第二次回应。如果有手稿,那么是比(3)更强的证据,但由于作者是敲电脑的一族
,没有手稿。只有等,随时间流逝,这个“质疑者”并没有抛出更多的证据,这是不合
理的,此时(3)这个强证据的级别,变成了普通流言,也就是弱证据。最后发现根本不
存在这个报导,这个“弱证据”又变成了“忽悠”。于是这个质疑不战自溃。
那么在韩寒这个案例中,对于弱证据如何考虑呢?
(1).质疑方的弱质疑是:小孩不会模仿大人说法,引用的书籍过多超出了阅读量等。
(2).回应方的方法则应该是用矛盾的强证据覆盖,这些强证据由弱到强包括:
a.驳斥并进一步削弱对方的弱论据,比如小孩模仿大人说法,对方觉得很稀有,你可以
举出其它作家的例子,证明并不稀有。比如对方说,引用书籍过多,说明阅读量覆盖太
大,超出了16岁少年的可能性。此时可指出其逻辑错误,文学作品中,有引用,不一定
是读过了原著,很有可能是读了些二手作品(引用过原著的作品,报纸,讲话等),也
可能就是为了装逼引用,只读了其中一小段。所以引用的书籍多,逻辑上并不证明他读
了那么多。
b.指出对方的假设存在矛盾,这个矛盾所形成的问题强过其弱论据,并与之矛盾。比如
说,弱质疑为:《三重门》中引用过多,韩寒不可能有这么大阅读量,只可能韩仁均有
。回应可以是:《三重门》之所以畅销,是因为其中有很多90年代中学流行的段子,比
如《卧石答春绿》,Wait and see。以及大量流行歌曲的歌词等,这些不是上一辈人能
够进入并熟悉的,代沟的作用非常明显。韩仁均写出这些东西,并且能够在青春小说类
中极度畅销,这远远比韩寒“装老成”要更不可思议。
c.如果可以,就拿出更强的证据。比如和编辑的通信、手稿等。这些证据在未成名前伪
造的几率非常小,因为当时并不可能知道有何收益,而制作成本太大。
大家要了解,代笔这件事,属于只能证实(比如有个家伙拿出证据说他是代笔),
不能证伪(你无论如何都证明不了自己没有代笔)的事情。但是,虽然不能彻底证明,
但拿出更强的证据,能够进一步降低你可疑的几率。证据越强,几率越低。
有人说,手稿我也不信,我要面谈,对质,证明你真有这样的水平和智力。这是毫
无意义的。因为手稿是作家可能拿出的最强证据。如果这你也不认同,那么什么面谈这
样的弱证据就更不会认同了。这只可能是浪费时间。

3.什么是“忽悠”?忽悠指的是有50%以上几率发生的事情,以及无法具备任何证明力
的找茬。(这个50%几率是为方便说明打比方,严格的讲是“无法归因”“因果关系不
明确”)
有人说,我找出你文中50个疑点,100个疑点。其实绝大多数都是忽悠。很简单,
质疑中,如果有强证据,一个就够了,有智力的辩论者,只会攻这一点。直到你回应为
止。因为只要这个强证据成立,那么质疑就成立了。如果有弱证据,也不会很多,要是
几十个弱证据这么多,早十年就被人发现了,还轮得到今天?如果有人说有几十个弱证
据,那么其中大部分必然是忽悠。只是为了迷惑旁观者,并损耗对方的体力。要知道,
世界上并不存在“清者自清”,所有质疑被澄清都需要付出很大的努力和劳动。很多被
质疑者是被大量的质疑活活累垮的,所以体力战是个很有效的战术。
那么,如何对待“忽悠”呢?一般来说被质疑方只能不理,或择其一二回应。我只
说对于旁观者,怎样避免被“忽悠”。
“忽悠”往往存在逻辑上的问题。比如说:
a.这件事,你和你父亲回忆得不一样,在某细节上,一个说A,另一个则说B。这么重要
的事情怎么可能记错呢?所以这事你根本没现场经历过,作假。文章是你老爸写的。
对于这个说法做逻辑判断很简单。首先,十几年前的事情,双方回忆不同,逻辑上
的推论,最大几率是有人记错了,而不是“作假”,更不是“代笔”。其次,重要的事
情,逻辑上并不能推出“不会记错”。再重要也不可能违反人类的记忆规律,何况事件
重大,但其细节并不重大,获奖当然重大,考官拿了什么纸。有啥重大可言?两者逻辑
上完全没有联系。细节记错司空见惯。
如果你找不出逻辑上的漏洞。判别“忽悠”也有简单的方法。最简单的方法就是把
其它作家代入到这个“忽悠”语句的主体中,看看成不成立。一般来说,要构成一个“
质疑”,必须有特殊性,也就是这个问题,只有在被质疑者,或者极少有问题的作家身
上,才存在。如果很大数量的作家都存在相同的问题。那这就不是一个“质疑”,而是
一个“忽悠”。“忽悠”的特点是同样的指责,可以针对任何一个作家,而且百试不爽
。那么说明这是个毫无意义的质疑。简单的反驳方法是套用同样的说法在其它作家身上
,或直接套到质疑者自己身上,并指出该质疑依然成立。这样就表示该质疑的推论在因
果关系上是不明确的,逻辑存在问题。由于时间有限,例子就不写了。
----------------------------------------------------
这里加一段,说一下那个“词频分析”。那个词频分析在春节期间和几个该专业的朋友
写了几篇文章。简要说一下。有人用主成份分析的方法,通过虚词的词频模型,在韩寒
、韩仁均,郭敬明、天下霸唱的作品集中运行,发现能成功区分天下霸唱,郭敬明的作
品,却不能区分韩寒和韩仁均的作品。这个说法颇有迷惑性。
我们几个人检查了他的算法,一致认为,该作者在主成份分析前忘了做归一化步骤。所
以词频分析,变成了词数分析。由于作品字数的差异最大,变成了主维度。正好,他选
取的天下霸唱的一篇作品最长,郭敬明的两篇作品其次,韩寒和韩仁均都是最短的,所
以正好各自聚在了一起,造成了错误的实验结果。我们重做了实验,发现该方法并没有
区分性,这是个无效的方法。详情请大家参见我博客中的真实结果图片和几篇文章链接。
另外那个分析还有个错误,它声称成功地把郭敬明的《挚爱》和《夏至未至》识别在了
一起。但《挚爱》并非郭敬明的作品。
文章链接:
http://www.weibo.com/1691279484/y2yTz2aNE
http://www.weibo.com/1763695145/y2yuhrbKE
http://blog.sina.com.cn/s/blog_56fc0caa0100zml1.html
i*****s
发帖数: 4596
2
好文章,作者大才。
查了一下,作者网名叫“伊璐卡卡”,人才。
i*****s
发帖数: 4596
3
转帖“被打飞”的博客文章:
弱质疑和忽悠能“串”成强证据链吗?并浅析阴谋论得以奏效的数学基础。
(2012-02-01 08:26:04)
转载▼
标签:
杂谈

弱质疑和忽悠能“串”成强证据链吗?并浅析阴谋论得以奏效的数学基础。
@被打飞
方韩争方兴未艾,但真正有水平的发言不多。昨天我的老朋友 @破破的桥 的文章《韩
寒代笔探讨:强质疑、弱质疑、和忽悠》则毫无疑问的算一篇(我感觉是最好的一篇)。
http://blog.sina.com.cn/s/blog_56fc0caa0100zp8d.html
概括来说,这篇文章把“质疑”分为三种,强质疑(找到发生概率仅为0.1%或更低的事
件,下称强疑点),弱质疑(找到发生概率20%的事件,下称弱疑点),忽悠(拿发生
概率50%甚至更高的事件当疑点)。他指出,目前质疑派并未提出强质疑,有的只是弱
质疑和忽悠。
这篇文章写的非常之好,观察一下“质疑派”的反应,似乎也承认或默认目前没有发现
强疑点。不过,我看来可惜的一点是,破桥文章并没有讲清弱疑点为什么“弱”的关键
因素。
果然,很快不少人提出,弱疑点能够串起来增强质疑力,形成力度等同于强疑点的“证
据链”。其中,@虚逐子的反驳文章《只见树木不见森林》是典型。这篇文章甚至用数
学手段示范了如何将忽悠级别的“疑点”组合成强证据链的。
一应用到数学,就有一个好处:正误标准一清二楚,用对了就是对了,不对就是不对,
非黑即白,不存在中间状态。我们下面就来检查一下此文中数学的应用。
@虚逐子 原文如下:
http://blog.sina.com.cn/s/blog_809332ae01011o5v.html
“我们来看看证据链是如何显著增强孤立“忽悠”的可靠性的。有这么四个“忽悠”:
韩寒不知道《三重门》名字的来源;《求医》描述了一个他没出生年代的医院场景;病
情描述和疥疮不符;视频访谈谈到赛车和女人时可以谈得眉飞色舞,但是谈到文学,特
别是谈到以他的名义出版的那些作品时,他就一问三不知。假设韩寒没有代笔,这四个
质疑是独立的,每一个几率是50%,50%的四次方=6.25%,这已经是很强的证据。并且形
成了一个完整的指向韩文代笔的证据链,其可能性93%以上。如果进一步增加独立的或
者弱相关的证据,这种可能性会更多,也许会达到能够接受的可能性。”
他这段写的有点不清不楚,甚至还存在基本概念上的混淆。不过未必人人都受过严格的
概率学训练,不强求。我先帮助他把意思说的明确和严格一些。
@虚逐子的意思是,假定从韩寒作品里找到ABCD四个疑点,如果韩寒真的没人代笔,每
个疑点出现的可能性仅为50%,且相互独立。那么韩寒没代笔情况下该四个疑点同时出
现的概率为50%的四次方,即6.25%,这是个较小的数字,反过来似乎说明了韩寒没代笔
的“不可能性”。在统计学上,这种的数字小于5%,则认为可以构成“无代笔”的强证
据。
(对概率不熟悉者此段可跳过当然,后面@虚逐子网友画蛇添足的将此解释为
“其(代笔)可能性93%”以上,是个错误,反应出他不理解逆概公式。但这不是个关
键。因为统计学上,对某个假设的排除可直接根据原始p值,即这里计算得到的6.25%来
进行,并不用计算逆概。)
很可惜。这种计算是完全错误的。为什么错?为什么忽悠和弱疑点不能这样叠加成强疑
点?@破破的桥的解释是,这些弱疑点不独立(也就是说,某个出现的话,其他的更有
可能出现),因此概率上不能直接相乘。这是原因之一。但不是主要原因。因为既然弱
疑点能找到很多,不排除其中有真正独立的,几个独立的一乘下来,证明力不就指数上
升,真的形成强证据链了吗?
其实,弱疑点串不起来关键原因很简单:未考虑总样本数。一个简单的例子就能说清:
扔硬币。假定我每扔一枚硬币,如果不作弊的话,正反面概率各为50%。我扔了100次,
每次都把结果记录下来。最后正反面各约50次。然后你想来“质疑”我,采取一种方案
,偷偷把我的记录中,所有出现硬币“反面”的结果抹去,换句话说,只把“正面”的
结果拿出去给人看。然后别人会惊奇的发现,50次正面!如果没作弊,这样的概率是多
少呢?50%的五十次方,实际上就是零。因此一般人都会感觉我肯定作弊了。但是,如
果我告诉大家这五十次正面是我通过扔一百次硬币得到的,大家马上就明白:这没什么
不正常。
聪明的读者可能已经看出来了,这已经解释了@虚逐子 方法错在何处。下面我们再不厌
其烦的针对他的具体例子做些较严格的数学计算。
为展示虚竹子的错误和运算方便,我们不妨把50%这个数值再调小一点,变成10%。也就
是假定虚竹子真的找到了4个“弱疑点”,而不是什么忽悠。按照虚竹子的计算,如果
韩寒没代笔,则四个疑点同时出现的概率将是10%的四次方,也就是万分之一,这无疑
是很小的一个值,似乎更可以排除“无代笔”的假设。
但是,别忘了,这四个疑点是翻遍了韩寒的大量作品和访谈才找到的。为了描述方便起
见,假定这四个疑点是韩寒作品中出现的四句话。而韩寒作品中与代笔问题有关联的话
共有100句(这显然保守了),如果韩寒无代笔,则每一句达到此可疑程度的概率均为
10%。那么问题正确的提法应该是:如果韩寒无代笔,找到4句以上此种可疑程度的话概
率为多少?我们来计算一下。为简便起见,仍然不考虑相关性。
先用常识判断。既然每一句如此可疑的概率为10%,则100句中如此可疑的话总数应为
100×10%=10句
能挑出四句或更多的可能性极大。
再看看数值计算,具体公式这里不演示了,可利用二项分布或其正态近似。粗通统计学
的本科生都应该会算,否则相应课程考试无法及格。答案约为98%。
换句话说,因为没考虑产生疑点的“样本总量”,将98%的可能性,误算成万分之一的
可能性!
实际上,在统计学中,这叫survivial bias。也就是说,专挑可疑的,但不看这些可疑
事件是从多大样本量里挑出来的。而样本量足够大后,总能挑出来足够多,放在一起挺
吓人的。但其实什么都说明不了。
这就是“弱质疑”到底弱在哪里的真正原因。有趣的是,我认为这正是一切深文周纳的
阴谋论得以奏效的本质原因。有点可疑但不那么可疑的事情单独挑出来放在一起,对旁
观者造成很大震撼,这时候,就算别人指出还有很多事不可疑,但人类心理天然反应,
对那些不可疑的事情不大关心,但就是惦记着可疑的那些。此时,懂一点数学,就能有
效的防止被忽悠。(我这好像成了现场反驳韩寒的数学无用论?)
1 (共1页)
进入ChinaNews版参与讨论
相关主题
我猜测写给邓小平爷爷的信-小学生优秀作文 - 记叙文
猛料转帖:字频软件痕迹分析确认《三重门》为韩寒父亲所写我渔政抢占美济礁始末:啤酒瓶砸退菲律宾军机zz
方舟子vs韩寒警惕敏感词“无形资产”流失zz
ZT:麦田:人造韩寒乌有之乡的战斗檄文: 否定延安整风,高华之流是何居心?
韩寒老爸如果代笔理论上讲可以证明一位民运人士给“滕彪们”的一点批判与忠告
purity是水版的一道风景 (转载)给“滕彪们”的一点批判与忠告
韩寒作品为其父韩仁均所写的第一手证据zt中华女事件,贵州电视台能不能回应几个疑点?zz
【独家专访】韩寒回应“代笔”事件捡戒指被告的疑点太多,呵呵
相关话题的讨论汇总
话题: 质疑话题: 证据话题: 代笔话题: 韩寒话题: 忽悠