学统计的来说说，为什么poll的统计会有3%的误差 - USANews版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

USANews版 - 学统计的来说说，为什么poll的统计会有3%的误差

相关主题
● 想讨论Poll，还是应该先学一些基本的统计学知识	● 关于poll results
● 预测一下poll吧	● So why Hillary is leading in polls?
● 538的poll是大规模更新了	● can't trust polls
● 非统计学理论分析poll	● 电话poll的另一大不靠谱
● 现在全国的poll大多数除开统计误差都是tie	● 股债汇三杀之际，回忆一下当年日本泡沫的缘起缘灭
● 最新的NBC/WSJ民调显示希拉里	● Polls show warning signs for Obama
● TDB Poll of Polls: Romney leads 2% nationwide	● BBC说巴马完了
● NATE SILVER: Nov 5 Late Poll Gains for Obama	● Polls: McCain, Obama even in many Big Ten states

相关话题的讨论汇总
话题: 误差话题: poll话题: 统计话题: 调查话题: 3%

进入USANews版参与讨论

1

(共1页)

l**********3 发帖数: 10970	1 难道不是poll调查选了谁就是谁嘛，哪里来的误差？系统误差？
s******e 发帖数: 343	2 我们感兴趣的是整个population支持谁的比例有多少，但是我们不可能去问每个人，只能选一个样本。样本越大越准确，多准确就用这个误差来描述
l**********3 发帖数: 10970	3 来说说，如果总投票人口是1亿，他们抽1000人调查，误差是多少【在 s******e 的大作中提到】 : 我们感兴趣的是整个population支持谁的比例有多少，但是我们不可能去问每个人，只 : 能选一个样本。样本越大越准确，多准确就用这个误差来描述
f**********n 发帖数: 29853	4 俺当年嘲笑日日日日的楼里，有个台湾连接有详细的解释。
t***n 发帖数: 546	5 解析解不会，搞个蒙特卡洛模拟应该很容易吧。假定p1的几率的人投民主党，p2的几率的人弃权，1-p1-p2几率的人投共和党产生1000个随机数，看各自投了多少。应该很接近p1:（1-p1-p2）这样跑1000次，方差应该能算出来找个码农10分钟就搞出来了吧
K*****2 发帖数: 9308	6 不是学统计的粗略估算下，n个样本，投民主党的比例是p，投共和党的比例是1-p，那么民主党的 lead就是p-(1-p)=2p-1. p的方差大概是p(1-p)/n, 标准差是这个数的平方根。p(1-p)最大值是1/4，假如n=1024 ，那么标准差大概是1/2/32=1/64，也就是1.5625%。所以lead的标准差是这个数的两倍，也就是3%.
w**d 发帖数: 2334	7 不是学统计的。不过那些poll里常提到的误差，并不是真的误差就那么大。定义完全不一样的。
q***0 发帖数: 225	8 把这个3%叫做误差其实有点misleading，实际上这是给了一个 confidence interval。也就是说，假设sampling完全随机，真实结果和统计结果的差别在3%以内的机率有 95 %，或者说有95%的信心真实结果的误差在3%以内。这个 margin of error 的大小是由调查人数决定的，根据统计学里的大数原理，这个分布接近正态分布，这个 confidence interval 的大小是由正态分布的方差决定的，而这个方差是由调查人数的多少决定的。调查的人数越多，confidence interval越小，也就是说 margin of error 越小。其实不需要调查太多人，一千人已经很准确了，但然做到完全随机很难，这也是poll出错的主要原因。像538网站那样把那么多polls的data放在一起分析，单从统计学上讲，应该非常非常准确
m****r 发帖数: 237	9 如果每个poll的样本都是representative的并且是随机的，那么合起来确实可以减小误差。但是如果每一个poll的样本都是biased，那加起来也没有用。就看抽样的可靠程度了。 95 【在 q***0 的大作中提到】 : 把这个3%叫做误差其实有点misleading，实际上这是给了一个 confidence interval。 : 也就是说，假设sampling完全随机，真实结果和统计结果的差别在3%以内的机率有 95 : %，或者说有95%的信心真实结果的误差在3%以内。 : 这个 margin of error 的大小是由调查人数决定的，根据统计学里的大数原理，这个 : 分布接近正态分布，这个 confidence interval 的大小是由正态分布的方差决定的， : 而这个方差是由调查人数的多少决定的。调查的人数越多，confidence interval越小 : ，也就是说 margin of error 越小。 : 其实不需要调查太多人，一千人已经很准确了，但然做到完全随机很难，这也是poll出 : 错的主要原因。像538网站那样把那么多polls的data放在一起分析，单从统计学上讲， : 应该非常非常准确
a****l 发帖数: 8211	10 统计学就是制造结论的工具,学术界几乎人人都擅长于此技术。【在 l**********3 的大作中提到】 : 难道不是poll调查选了谁就是谁嘛，哪里来的误差？系统误差？
q***0 发帖数: 225	11 那些制造结论的人恰恰是不懂统计学，滥用统计学里的概念，比如搞搞p-value 什么的，这不是统计学的错【在 a****l 的大作中提到】 : 统计学就是制造结论的工具,学术界几乎人人都擅长于此技术。
v*******e 发帖数: 11604	12 算出来也是然并卵。最大的问题是bias。你打电话调查，查的都是家里有电话的。你去街头调查，调查的都是逛街的。你去上门调查，调查的都是愿意给陌生人开门的。
q***0 发帖数: 225	13 很多样本是有bias，作统计的人时时刻刻在努力compensate，比如 Russmusen 的样本，多少年来一直倾向共和党，CNN今年的poll实际上也倾向共和党，当然川粉不承认，这在那些综合网站里都有纠正【在 m****r 的大作中提到】 : 如果每个poll的样本都是representative的并且是随机的，那么合起来确实可以减小误 : 差。但是如果每一个poll的样本都是biased，那加起来也没有用。就看抽样的可靠程度 : 了。 : : 95

1

(共1页)

进入USANews版参与讨论

相关主题
● Polls: McCain, Obama even in many Big Ten states	● 现在全国的poll大多数除开统计误差都是tie
● No exit poll today?	● 最新的NBC/WSJ民调显示希拉里
● Polls, Conspiracies, Common Sense, and Arguments	● TDB Poll of Polls: Romney leads 2% nationwide
● Obama's own Public Policy Poll: Romney 49 vs Obama 47	● NATE SILVER: Nov 5 Late Poll Gains for Obama
● 想讨论Poll，还是应该先学一些基本的统计学知识	● 关于poll results
● 预测一下poll吧	● So why Hillary is leading in polls?
● 538的poll是大规模更新了	● can't trust polls
● 非统计学理论分析poll	● 电话poll的另一大不靠谱

相关话题的讨论汇总
话题: 误差话题: poll话题: 统计话题: 调查话题: 3%

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)