由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
WaterWorld版 - 三重门句逗比统计分析
相关主题
今天有个天大的发现转个贴 "发生关系后,女友逼我卖掉房子给她弟弟治病"
支持韩的未必理性,但是支持方的一定不理性谁敢用普通话把这首诗读出来,笑到肚子痛! ­
刘路的论文到底发表在哪里?华人网versus未名
一生都献给了学问的男人们!六四前大陆惊现“共党下台人民翻身”气球(组图) - 昨天, 19:49 (转载)
ZZ自西西河:怀念海地维和牺牲的李晓明 (转载)邓文迪和杨振宁对中国海龟性生活的冲击研究 (转载)
冷笑话爱尔兰大饥荒 zt
方舟子这样的人,我见一个打一个韩寒的代写者太无私了
问个英语问题为什么蝴蝶和屎壳郎不能成为朋友----正面回应方舟子(zz)
相关话题的讨论汇总
话题: 逗比话题: 句号话题: 作品话题: 检验话题: 逗号
进入WaterWorld版参与讨论
1 (共1页)
J**i
发帖数: 166
1
注:此帖为纯技术贴,笔者绝非韩粉或方粉。
[简介]
本文对三重门以及其他八部知名长篇作品进行了简单统计分析。分析所用的特征为“句
逗比”,即句号和逗号的比例。分析的假设是每个作家由于习惯其所用的句逗比应该是
基本固定的,因此如果一个作品中的句逗比前后不一致,则有可能是因为前后写作风格
有差所导致(比如作品的一部分章节夹杂了很多诗歌等情况),也有可能因为作品由多
人合作导致。
[统计分析结果]
注:p-value为统计检验结果,表示检验假设成立的概率。这里检验假设是作品具有固
定的句逗比。p-value越小表示作品越有可能含有不同句逗比的成分。一般p-value小于
0.01表示结果显著(阳性),即认为统计假设不成立。
作者 作品名 p-value
韩寒 三重门 0.000083638
韩寒 一座城池 0.0333
郭敬明 幻城 0.3952
王朔 玩的就是心跳 0.7270
王朔 看上去很美 0.000016943
王蒙 活动变人形 0.6639
钱钟书 围城 0.9977
陈忠实 白鹿原 0.5135
毛泽东 毛选(1925-1957) 0.1541
由以上结果可以看出大多数知名作品具有始终如一的句逗比,即便前后时间跨度为三十
年的毛选也有比较一致的句逗比。仅仅有两部作品的句逗比远远小于临界值0.01:《三
重门》和《看上去很美》。
实际观察《三重门》的句逗比分布(见附图)可以看出作品的四分之一到二分之一处句
逗比明显提高。这里图示的是移動平均的句号个数,窗口大小为100个符号。如果单独
检测作品的前四分之一,四分之一到二分之一,以及后半部,则结果不显著,p-value
分别为0.5639, 0.4671以及0.1680.
实际观察《看上去很美》结果类似。
[以下为技术细节,不懂者可跳过]
1)特征提取:提取作品中所有逗号(包括,和,)和句号。
2)归一化:按照均匀间隔提取5000个符号(逗号和句号)。
3)统计测试:如果检验假设成立,则句号的分布应该为均匀分布,因此用Kolmogorov-
Smirnov检验即可得到p-value.
U***y
发帖数: 266
2
毛选里有好多不是毛写的,就是说毛选不是一个人写的。打回去重新取样。
J**i
发帖数: 166
3
重新取样属于作弊。统计检验本来就只能验假不能验真。就算毛选是多人写的也只能说
其他人模仿毛模仿的很像。

【在 U***y 的大作中提到】
: 毛选里有好多不是毛写的,就是说毛选不是一个人写的。打回去重新取样。
l*****e
发帖数: 1431
4
早期都是自己写的,后来多是胡桥木和田家英写的,毛做最后的润色

【在 U***y 的大作中提到】
: 毛选里有好多不是毛写的,就是说毛选不是一个人写的。打回去重新取样。
m**x
发帖数: 8454
5
每个作家由于习惯其所用的句逗比应该是基本固定的这个前提不能成立吧, 尤其对于风
格还没固定下来的作家而言。
J**i
发帖数: 166
6
这当然是一个可能的解释,任何统计模型的假设都不可能完全成立。不过从小说前一半
到后一半风格突变似乎有些奇怪很难解释。我倒是好奇《看上去很美》是怎么回事,按
理说王朔应该有自己的风格吧。

【在 m**x 的大作中提到】
: 每个作家由于习惯其所用的句逗比应该是基本固定的这个前提不能成立吧, 尤其对于风
: 格还没固定下来的作家而言。

d*********2
发帖数: 48111
7
即使是多人写的, 也是风格一致的党八股, 所以当然有归一性。
某本小说连内部风格都不统一? 行文风格也不一致。
真是神作啊

【在 U***y 的大作中提到】
: 毛选里有好多不是毛写的,就是说毛选不是一个人写的。打回去重新取样。
t****r
发帖数: 702
8
我没有看明白你取样的方式。。。。K-S test的前提条件之一是要有独立的sample点。
为什么不是统计比如每个章节里句号的比例?
而且假设句号是均匀分布,而逗号也是均匀分布,两个之间的比例并不是均匀分布啊。
。。。

【在 J**i 的大作中提到】
: 注:此帖为纯技术贴,笔者绝非韩粉或方粉。
: [简介]
: 本文对三重门以及其他八部知名长篇作品进行了简单统计分析。分析所用的特征为“句
: 逗比”,即句号和逗号的比例。分析的假设是每个作家由于习惯其所用的句逗比应该是
: 基本固定的,因此如果一个作品中的句逗比前后不一致,则有可能是因为前后写作风格
: 有差所导致(比如作品的一部分章节夹杂了很多诗歌等情况),也有可能因为作品由多
: 人合作导致。
: [统计分析结果]
: 注:p-value为统计检验结果,表示检验假设成立的概率。这里检验假设是作品具有固
: 定的句逗比。p-value越小表示作品越有可能含有不同句逗比的成分。一般p-value小于

d*********2
发帖数: 48111
9
王朔其实其实前后风格变化挺大, 早期挺装B的。
至于具体这本小说怎么回事。 不知道谁能解释一下。
而且就是风格有所变化, 句逗应该也一致。
我写长段就经常少加句号。
所以网络灌水的时候就大多用短句。
写论文的时候也大多短句, 因为英文水平差, 长句写出来大家都痛苦。

【在 J**i 的大作中提到】
: 这当然是一个可能的解释,任何统计模型的假设都不可能完全成立。不过从小说前一半
: 到后一半风格突变似乎有些奇怪很难解释。我倒是好奇《看上去很美》是怎么回事,按
: 理说王朔应该有自己的风格吧。

J**i
发帖数: 166
10
考虑句号和逗号构成的序列,如果句逗比一致,则句号分布基本均匀,如果某处句号明
显增多,则句号分布不再均匀。
我相信即便你检验每个章节里的句号比例,比如用卡方检验,结论应该是一样的。

【在 t****r 的大作中提到】
: 我没有看明白你取样的方式。。。。K-S test的前提条件之一是要有独立的sample点。
: 为什么不是统计比如每个章节里句号的比例?
: 而且假设句号是均匀分布,而逗号也是均匀分布,两个之间的比例并不是均匀分布啊。
: 。。。

相关主题
冷笑话转个贴 "发生关系后,女友逼我卖掉房子给她弟弟治病"
方舟子这样的人,我见一个打一个谁敢用普通话把这首诗读出来,笑到肚子痛! ­
问个英语问题华人网versus未名
进入WaterWorld版参与讨论
d*********2
发帖数: 48111
11
感觉呢。 句子长短也是一种文风。
但是散文, 还是议论文, 或者文字里的对话比例, 都会影响句子长短, 也就是句号
和逗号的单独分布比例。
但是逗号与句号的比例, 应该反映了一个人写作时候的思路, 承前启后的风格。
我觉得对英文尤其明显。 我刚开始写论文的时候, 就是句子偏长, 被改的时候经常
分割成小句, 后来我也就转化用短句了, 这个风格变化挺明显的。 我如果自己回头
看我在国内写的paper和在国外的, 非常明显的差别, 不用统计, 肉眼就看出来了。
中文的话, 尤其小说, 应该也有明显的效应。
建议楼主测试一下金庸和古龙的作品, 这两个的风格差异, 用句的方式肉眼就能看出。
可以分别测试和混测一下看看

【在 t****r 的大作中提到】
: 我没有看明白你取样的方式。。。。K-S test的前提条件之一是要有独立的sample点。
: 为什么不是统计比如每个章节里句号的比例?
: 而且假设句号是均匀分布,而逗号也是均匀分布,两个之间的比例并不是均匀分布啊。
: 。。。

t****r
发帖数: 702
12
看你要检验的假设是什么。
如果你想检验的假设是:在韩寒的小说中,句号在所有标点符号中是比例是相同的。那
样你把小说分成一些章节,然后计算每个章节中句号占所有标点符号的比例。然后使用
卡方检验。

【在 J**i 的大作中提到】
: 考虑句号和逗号构成的序列,如果句逗比一致,则句号分布基本均匀,如果某处句号明
: 显增多,则句号分布不再均匀。
: 我相信即便你检验每个章节里的句号比例,比如用卡方检验,结论应该是一样的。

J**i
发帖数: 166
13
假设是句号在两种符号的序列中均匀分布。你的方法会受分节的影响。不过在这里技术
问题其实不太重要,看看前面的附图,我相信不论怎么检验都能得到相似的结果。欢迎
你用你说的方法试试。

【在 t****r 的大作中提到】
: 看你要检验的假设是什么。
: 如果你想检验的假设是:在韩寒的小说中,句号在所有标点符号中是比例是相同的。那
: 样你把小说分成一些章节,然后计算每个章节中句号占所有标点符号的比例。然后使用
: 卡方检验。

k*****e
发帖数: 22013
14
顶!这种举证方式才是比较靠谱的分析方法,
不是主观臆测。

【在 J**i 的大作中提到】
: 注:此帖为纯技术贴,笔者绝非韩粉或方粉。
: [简介]
: 本文对三重门以及其他八部知名长篇作品进行了简单统计分析。分析所用的特征为“句
: 逗比”,即句号和逗号的比例。分析的假设是每个作家由于习惯其所用的句逗比应该是
: 基本固定的,因此如果一个作品中的句逗比前后不一致,则有可能是因为前后写作风格
: 有差所导致(比如作品的一部分章节夹杂了很多诗歌等情况),也有可能因为作品由多
: 人合作导致。
: [统计分析结果]
: 注:p-value为统计检验结果,表示检验假设成立的概率。这里检验假设是作品具有固
: 定的句逗比。p-value越小表示作品越有可能含有不同句逗比的成分。一般p-value小于

J**i
发帖数: 166
15
射雕英雄传 0.1665
陆小凤传奇 0.0220
50%射雕英雄传 + 50%陆小凤传奇 0.00001033
注意古龙的作品由于掺杂着大量对话,本身句逗比分布就不太均匀。

出。

【在 d*********2 的大作中提到】
: 感觉呢。 句子长短也是一种文风。
: 但是散文, 还是议论文, 或者文字里的对话比例, 都会影响句子长短, 也就是句号
: 和逗号的单独分布比例。
: 但是逗号与句号的比例, 应该反映了一个人写作时候的思路, 承前启后的风格。
: 我觉得对英文尤其明显。 我刚开始写论文的时候, 就是句子偏长, 被改的时候经常
: 分割成小句, 后来我也就转化用短句了, 这个风格变化挺明显的。 我如果自己回头
: 看我在国内写的paper和在国外的, 非常明显的差别, 不用统计, 肉眼就看出来了。
: 中文的话, 尤其小说, 应该也有明显的效应。
: 建议楼主测试一下金庸和古龙的作品, 这两个的风格差异, 用句的方式肉眼就能看出。
: 可以分别测试和混测一下看看

d*********2
发帖数: 48111
16
恩, 这就是我前面提到的。
可见你的检验, 有相当大的参考价值。
古龙作品内部风格也有变化, 其实类似的还有温瑞安, 经常发癫似的一个字用很多遍。
所以韩寒一部小说内部的风格变化, 顶得上金庸和古龙的差别。
真是天才啊。

【在 J**i 的大作中提到】
: 射雕英雄传 0.1665
: 陆小凤传奇 0.0220
: 50%射雕英雄传 + 50%陆小凤传奇 0.00001033
: 注意古龙的作品由于掺杂着大量对话,本身句逗比分布就不太均匀。
:
: 出。

f**d
发帖数: 768
17
讲这些有屁用
白痴们一句韩寒是天才,啥都可能,就给你否决了
正常的逻辑辩论、统计分析,不是给这帮邪教教主和其子民们听的
人一旦入了邪教,脑子基本和豆腐差不多,白刷刷地,刀枪不入

遍。

【在 d*********2 的大作中提到】
: 恩, 这就是我前面提到的。
: 可见你的检验, 有相当大的参考价值。
: 古龙作品内部风格也有变化, 其实类似的还有温瑞安, 经常发癫似的一个字用很多遍。
: 所以韩寒一部小说内部的风格变化, 顶得上金庸和古龙的差别。
: 真是天才啊。

k*****e
发帖数: 22013
18
再赞一遍!
能不能再做两个实验:
郭敬明有抄袭传闻的《梦里花落知多少》。
在同一个作家的不同小说之间比较,
比如王朔的两部>0.01小说之间比较,是不是还是>0.01?

【在 J**i 的大作中提到】
: 注:此帖为纯技术贴,笔者绝非韩粉或方粉。
: [简介]
: 本文对三重门以及其他八部知名长篇作品进行了简单统计分析。分析所用的特征为“句
: 逗比”,即句号和逗号的比例。分析的假设是每个作家由于习惯其所用的句逗比应该是
: 基本固定的,因此如果一个作品中的句逗比前后不一致,则有可能是因为前后写作风格
: 有差所导致(比如作品的一部分章节夹杂了很多诗歌等情况),也有可能因为作品由多
: 人合作导致。
: [统计分析结果]
: 注:p-value为统计检验结果,表示检验假设成立的概率。这里检验假设是作品具有固
: 定的句逗比。p-value越小表示作品越有可能含有不同句逗比的成分。一般p-value小于

G*********s
发帖数: 6786
19
脑子基本和豆腐差不多,白刷刷地,刀枪不入
抽了

【在 f**d 的大作中提到】
: 讲这些有屁用
: 白痴们一句韩寒是天才,啥都可能,就给你否决了
: 正常的逻辑辩论、统计分析,不是给这帮邪教教主和其子民们听的
: 人一旦入了邪教,脑子基本和豆腐差不多,白刷刷地,刀枪不入
:
: 遍。

J**i
发帖数: 166
20
我觉得没有必要在做更多检验了,基本上如果结果显著,未必就能说明是多人合作,但
起码说明写作风格前后不一致,而这需要有其他的原因来解释(比如中间夹杂了大量诗
歌或者对话等等)。

【在 k*****e 的大作中提到】
: 再赞一遍!
: 能不能再做两个实验:
: 郭敬明有抄袭传闻的《梦里花落知多少》。
: 在同一个作家的不同小说之间比较,
: 比如王朔的两部>0.01小说之间比较,是不是还是>0.01?

相关主题
六四前大陆惊现“共党下台人民翻身”气球(组图) - 昨天, 19:49 (转载)韩寒的代写者太无私了
邓文迪和杨振宁对中国海龟性生活的冲击研究 (转载)为什么蝴蝶和屎壳郎不能成为朋友----正面回应方舟子(zz)
爱尔兰大饥荒 zt韩寒到底有多神?——韩寒的“三重神”
进入WaterWorld版参与讨论
e*****e
发帖数: 2233
21
fzz不是说了同一个作者文风会变,文笔功夫不太会变,他详细分析了hh署名作品的文
笔的不一致性
这个后者不容易量化分析出来啊

【在 J**i 的大作中提到】
: 我觉得没有必要在做更多检验了,基本上如果结果显著,未必就能说明是多人合作,但
: 起码说明写作风格前后不一致,而这需要有其他的原因来解释(比如中间夹杂了大量诗
: 歌或者对话等等)。

k*****e
发帖数: 22013
22
倒不是质疑你的方法,只是好奇结果会怎么样而已。

【在 J**i 的大作中提到】
: 我觉得没有必要在做更多检验了,基本上如果结果显著,未必就能说明是多人合作,但
: 起码说明写作风格前后不一致,而这需要有其他的原因来解释(比如中间夹杂了大量诗
: 歌或者对话等等)。

J**i
发帖数: 166
23
如果韩寒说他小说写了一半以后突然决定开始多用逗号,谁也没办法啊。只是这种情况
大家觉得不太可能发生就是了。

【在 e*****e 的大作中提到】
: fzz不是说了同一个作者文风会变,文笔功夫不太会变,他详细分析了hh署名作品的文
: 笔的不一致性
: 这个后者不容易量化分析出来啊

J**i
发帖数: 166
24
等我有空的时候

【在 k*****e 的大作中提到】
: 倒不是质疑你的方法,只是好奇结果会怎么样而已。
k*****e
发帖数: 22013
25
对啊,所以我觉得你选特征选得好。
文字上的东西,可以有意识地改变,
句号逗号这个东西更可能是下意识的。

【在 J**i 的大作中提到】
: 如果韩寒说他小说写了一半以后突然决定开始多用逗号,谁也没办法啊。只是这种情况
: 大家觉得不太可能发生就是了。

p**********d
发帖数: 7918
26
我不是出版業專業人士。但是有沒有這個可能,句號逗號這種東西,有可能是“責任編
輯”之類的人修改的。這也可以解釋為啥毛選為啥前後比較一致。沒有拿到原稿,僅凭
最後出版的結果,不夠可靠吧。

【在 J**i 的大作中提到】
: 注:此帖为纯技术贴,笔者绝非韩粉或方粉。
: [简介]
: 本文对三重门以及其他八部知名长篇作品进行了简单统计分析。分析所用的特征为“句
: 逗比”,即句号和逗号的比例。分析的假设是每个作家由于习惯其所用的句逗比应该是
: 基本固定的,因此如果一个作品中的句逗比前后不一致,则有可能是因为前后写作风格
: 有差所导致(比如作品的一部分章节夹杂了很多诗歌等情况),也有可能因为作品由多
: 人合作导致。
: [统计分析结果]
: 注:p-value为统计检验结果,表示检验假设成立的概率。这里检验假设是作品具有固
: 定的句逗比。p-value越小表示作品越有可能含有不同句逗比的成分。一般p-value小于

d*********2
发帖数: 48111
27
当然了, 这些无聊编辑, 拿了投稿, 不改几个字, 怎么体现存在感呢?
所以韩寒已开始跳出来说“代笔一字”的时候, 给人的感觉就是连基本的出版流程都
没概念。
成名大作家的稿, 都要被编辑挑几个细节改两下。
实在不敢改的, 就加个注解“此处疑为xxxx"

【在 p**********d 的大作中提到】
: 我不是出版業專業人士。但是有沒有這個可能,句號逗號這種東西,有可能是“責任編
: 輯”之類的人修改的。這也可以解釋為啥毛選為啥前後比較一致。沒有拿到原稿,僅凭
: 最後出版的結果,不夠可靠吧。

d*********2
发帖数: 48111
28
要是碰见负责的编辑。
还直接指导你写作技巧呢。

【在 d*********2 的大作中提到】
: 当然了, 这些无聊编辑, 拿了投稿, 不改几个字, 怎么体现存在感呢?
: 所以韩寒已开始跳出来说“代笔一字”的时候, 给人的感觉就是连基本的出版流程都
: 没概念。
: 成名大作家的稿, 都要被编辑挑几个细节改两下。
: 实在不敢改的, 就加个注解“此处疑为xxxx"

J**i
发帖数: 166
29
梦里花落知多少 0.4184
梦里花落知多少+幻城 0.5086
四娘还是很敬业的

【在 k*****e 的大作中提到】
: 再赞一遍!
: 能不能再做两个实验:
: 郭敬明有抄袭传闻的《梦里花落知多少》。
: 在同一个作家的不同小说之间比较,
: 比如王朔的两部>0.01小说之间比较,是不是还是>0.01?

d*********2
发帖数: 48111
30
恩, 至少亲自改了一遍标点

【在 J**i 的大作中提到】
: 梦里花落知多少 0.4184
: 梦里花落知多少+幻城 0.5086
: 四娘还是很敬业的

相关主题
一个简单方法测试韩寒是否作假。 (转载)支持韩的未必理性,但是支持方的一定不理性
韩寒的事大家都不用吵了,等判决吧刘路的论文到底发表在哪里?
今天有个天大的发现一生都献给了学问的男人们!
进入WaterWorld版参与讨论
d*********2
发帖数: 48111
31
四姑娘还是缺了个好爹

【在 J**i 的大作中提到】
: 梦里花落知多少 0.4184
: 梦里花落知多少+幻城 0.5086
: 四娘还是很敬业的

j*****g
发帖数: 7513
32
专业
b*********r
发帖数: 501
33
很有意思。楼主有没有分析过红楼梦做control? 说不定还能为红学添砖加瓦。
L********h
发帖数: 657
34
你这个不能使用KS
这里有auto-correlation,不知道你有没有看出来
这个是序列,有前后关系的
要看的是,是Hetero还是Homoscedasticity

【在 J**i 的大作中提到】
: 注:此帖为纯技术贴,笔者绝非韩粉或方粉。
: [简介]
: 本文对三重门以及其他八部知名长篇作品进行了简单统计分析。分析所用的特征为“句
: 逗比”,即句号和逗号的比例。分析的假设是每个作家由于习惯其所用的句逗比应该是
: 基本固定的,因此如果一个作品中的句逗比前后不一致,则有可能是因为前后写作风格
: 有差所导致(比如作品的一部分章节夹杂了很多诗歌等情况),也有可能因为作品由多
: 人合作导致。
: [统计分析结果]
: 注:p-value为统计检验结果,表示检验假设成立的概率。这里检验假设是作品具有固
: 定的句逗比。p-value越小表示作品越有可能含有不同句逗比的成分。一般p-value小于

l*******s
发帖数: 1258
35
感觉还不如直接用cluster呢,然后bag-of-word特征
a********b
发帖数: 1357
36
好贴。 顶。
m*********x
发帖数: 400
37
文风分析在技术方面貌似简单,一个数学/统计背景的人基本都能弄个大概的分析出来
,但是这个技术要有效的前提是你对文学创作也有深入的了解,什么标准可以作为代笔
的客观表现,这个其实是最难的部分。文学现象很复杂,如果你描述的代笔的特征,其
实是文学表现的正常现象之一,这个分析就没有什么意义了。
给你举个注明的案例,奥巴马的《梦想》(Dreams from My Father )不是也闹过代笔风
波吗?一个记者自己分析的头头是道,然后还找了四批“专业”人马来分析奥巴马的作
品,认为是奥巴马一个“死党”大学教授(后来纽约时报等也调查了,其实他们关系就
很一般)代笔的,认为高度相似。
这四个人里面有作家背景的,有科学家背景,有系统测试工程师背景...都是自己领域
的专业人士。但是遗憾的是,没有任何一个人是stylometry领域的,所以尽管都是擦边
专家,但终究不够权威。
共和党的人想找一个国外的stylometry权威来最终敲定代笔案,找到牛津大学的一个大
牛(这个大牛写的一个文风比较软件正是被那四批人里面2个人使用)。该牛说好:我
鉴定,但是我作为一个科学家,不管结果是正面还是反面,你必须答应我公布出来。共
和党人不干了,说那算了。
没想到该牛继续分析,把那四个人“专家”和记者的分析全部驳倒,得出“To sum up,
I have found no evidence for Cashill's ghostwriting hypothesis, and rather
strong (albeit limited) evidence against. ”整个分析不仅没有显示证据支持代笔
的假设,反而显示相当强的证据推翻这个假设。
“Cashill himself came to his theory on the basis of his own literary
judgements and observations rather than stylometrics”
具体分析见下面:
http://www.philocomp.net/humanities/dreams
这位阿牛不仅把结果公布出来,还愤青了一把,把这件事情告诉了《泰晤士报》,直接
大字报嘲笑共和党的“阴谋”,搞得他们灰头土脸的。
每个学科都有自己的专业性,不是说你数学/统计工具掌握的好,就什么行业都可以立
马上手就弄,肯定要有该专业的基础训练,要不然很容易出错,工具只是我们达到目的
的一个手段,有时候对问题本身的认识比工具更重要。
该牛津大牛和不少交叉性学科领域学者的背景相似,有过数学、语言、哲学、计算机的
科班训练。但是他如果不是stylometry领域的研究人员,未必有这些背景就能保证权威
性,毕竟这个领域发展一百多年了,很多细节不是一晚上啃几本书就能搞定的。

【在 J**i 的大作中提到】
: 注:此帖为纯技术贴,笔者绝非韩粉或方粉。
: [简介]
: 本文对三重门以及其他八部知名长篇作品进行了简单统计分析。分析所用的特征为“句
: 逗比”,即句号和逗号的比例。分析的假设是每个作家由于习惯其所用的句逗比应该是
: 基本固定的,因此如果一个作品中的句逗比前后不一致,则有可能是因为前后写作风格
: 有差所导致(比如作品的一部分章节夹杂了很多诗歌等情况),也有可能因为作品由多
: 人合作导致。
: [统计分析结果]
: 注:p-value为统计检验结果,表示检验假设成立的概率。这里检验假设是作品具有固
: 定的句逗比。p-value越小表示作品越有可能含有不同句逗比的成分。一般p-value小于

J**i
发帖数: 166
38
一般来说是这样,但有时也不一定,比如搞气候的弄出个全球变暖却被搞统计的质疑了
还有搞考古的挖了那么多年化石都没确定出人类起源自非洲,最后还是靠基因序列分析
才证实的

【在 m*********x 的大作中提到】
: 文风分析在技术方面貌似简单,一个数学/统计背景的人基本都能弄个大概的分析出来
: ,但是这个技术要有效的前提是你对文学创作也有深入的了解,什么标准可以作为代笔
: 的客观表现,这个其实是最难的部分。文学现象很复杂,如果你描述的代笔的特征,其
: 实是文学表现的正常现象之一,这个分析就没有什么意义了。
: 给你举个注明的案例,奥巴马的《梦想》(Dreams from My Father )不是也闹过代笔风
: 波吗?一个记者自己分析的头头是道,然后还找了四批“专业”人马来分析奥巴马的作
: 品,认为是奥巴马一个“死党”大学教授(后来纽约时报等也调查了,其实他们关系就
: 很一般)代笔的,认为高度相似。
: 这四个人里面有作家背景的,有科学家背景,有系统测试工程师背景...都是自己领域
: 的专业人士。但是遗憾的是,没有任何一个人是stylometry领域的,所以尽管都是擦边

B*G
发帖数: 13438
39
大家都没看过看上去很美么,这个小说在方枪枪小时候在大院里面,跟后来长大了去院
外上学,变化很大,方枪枪从一个小男孩,变成了一个装逼懦弱的小方言。所以前后“
句逗比”统计可能会有差别

【在 d*********2 的大作中提到】
: 王朔其实其实前后风格变化挺大, 早期挺装B的。
: 至于具体这本小说怎么回事。 不知道谁能解释一下。
: 而且就是风格有所变化, 句逗应该也一致。
: 我写长段就经常少加句号。
: 所以网络灌水的时候就大多用短句。
: 写论文的时候也大多短句, 因为英文水平差, 长句写出来大家都痛苦。

B*G
发帖数: 13438
40
方舟子说的很多东西都挺有道理的,不过他把文风跟文笔完全割裂开来,正经码字的人
都不会同意这个说法吧,假如文体相同,我从来都以为文风跟文笔基本上应该是基本统
一的,古龙就是古龙,马伯庸就是马伯庸。马伯庸假如模仿古龙,自然是文风加文笔一
起模仿了。

【在 e*****e 的大作中提到】
: fzz不是说了同一个作者文风会变,文笔功夫不太会变,他详细分析了hh署名作品的文
: 笔的不一致性
: 这个后者不容易量化分析出来啊

相关主题
一生都献给了学问的男人们!方舟子这样的人,我见一个打一个
ZZ自西西河:怀念海地维和牺牲的李晓明 (转载)问个英语问题
冷笑话转个贴 "发生关系后,女友逼我卖掉房子给她弟弟治病"
进入WaterWorld版参与讨论
k***g
发帖数: 4904
41
这贴有料很好
1 (共1页)
进入WaterWorld版参与讨论
相关主题
为什么蝴蝶和屎壳郎不能成为朋友----正面回应方舟子(zz)ZZ自西西河:怀念海地维和牺牲的李晓明 (转载)
韩寒到底有多神?——韩寒的“三重神”冷笑话
一个简单方法测试韩寒是否作假。 (转载)方舟子这样的人,我见一个打一个
韩寒的事大家都不用吵了,等判决吧问个英语问题
今天有个天大的发现转个贴 "发生关系后,女友逼我卖掉房子给她弟弟治病"
支持韩的未必理性,但是支持方的一定不理性谁敢用普通话把这首诗读出来,笑到肚子痛! ­
刘路的论文到底发表在哪里?华人网versus未名
一生都献给了学问的男人们!六四前大陆惊现“共党下台人民翻身”气球(组图) - 昨天, 19:49 (转载)
相关话题的讨论汇总
话题: 逗比话题: 句号话题: 作品话题: 检验话题: 逗号