由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
USANews版 - 学统计的来说说,为什么poll的统计会有3%的误差
相关主题
想讨论Poll,还是应该先学一些基本的统计学知识关于poll results
预测一下poll吧So why Hillary is leading in polls?
538的poll是大规模更新了can't trust polls
非统计学理论分析poll电话poll的另一大不靠谱
现在全国的poll大多数除开统计误差都是tie股债汇三杀之际,回忆一下当年日本泡沫的缘起缘灭
最新的NBC/WSJ民调显示希拉里Polls show warning signs for Obama
TDB Poll of Polls: Romney leads 2% nationwideBBC说巴马完了
NATE SILVER: Nov 5 Late Poll Gains for ObamaPolls: McCain, Obama even in many Big Ten states
相关话题的讨论汇总
话题: 误差话题: poll话题: 统计话题: 调查话题: 3%
进入USANews版参与讨论
1 (共1页)
l**********3
发帖数: 10970
1
难道不是poll调查选了谁就是谁嘛,哪里来的误差?系统误差?
s******e
发帖数: 343
2
我们感兴趣的是整个population支持谁的比例有多少,但是我们不可能去问每个人,只
能选一个样本。样本越大越准确,多准确就用这个误差来描述
l**********3
发帖数: 10970
3
来说说,
如果总投票人口是1亿,他们抽1000人调查,误差是多少

【在 s******e 的大作中提到】
: 我们感兴趣的是整个population支持谁的比例有多少,但是我们不可能去问每个人,只
: 能选一个样本。样本越大越准确,多准确就用这个误差来描述

f**********n
发帖数: 29853
4
俺当年嘲笑日日日日的楼里,有个台湾连接有详细的解释。
t***n
发帖数: 546
5
解析解不会,搞个蒙特卡洛模拟应该很容易吧。
假定p1的几率的人投民主党,p2的几率的人弃权,1-p1-p2几率的人投共和党
产生1000个随机数,看各自投了多少。应该很接近p1:(1-p1-p2)
这样跑1000次,方差应该能算出来
找个码农10分钟就搞出来了吧
K*****2
发帖数: 9308
6
不是学统计的
粗略估算下,n个样本,投民主党的比例是p,投共和党的比例是1-p,那么民主党的
lead就是p-(1-p)=2p-1.
p的方差大概是p(1-p)/n, 标准差是这个数的平方根。p(1-p)最大值是1/4,假如n=1024
,那么标准差大概是1/2/32=1/64,也就是1.5625%。所以lead的标准差是这个数的两倍
,也就是3%.
w**d
发帖数: 2334
7
不是学统计的。不过那些poll里常提到的误差,并不是真的误差就那么大。定义完全不
一样的。
q***0
发帖数: 225
8
把这个3%叫做误差其实有点misleading,实际上这是给了一个 confidence interval。
也就是说,假设sampling完全随机,真实结果和统计结果的差别在3%以内的机率有 95
%,或者说有95%的信心真实结果的误差在3%以内。
这个 margin of error 的大小是由调查人数决定的,根据统计学里的大数原理,这个
分布接近正态分布,这个 confidence interval 的大小是由正态分布的方差决定的,
而这个方差是由调查人数的多少决定的。调查的人数越多,confidence interval越小
,也就是说 margin of error 越小。
其实不需要调查太多人,一千人已经很准确了,但然做到完全随机很难,这也是poll出
错的主要原因。像538网站那样把那么多polls的data放在一起分析,单从统计学上讲,
应该非常非常准确
m****r
发帖数: 237
9
如果每个poll的样本都是representative的并且是随机的,那么合起来确实可以减小误
差。但是如果每一个poll的样本都是biased,那加起来也没有用。就看抽样的可靠程度
了。

95

【在 q***0 的大作中提到】
: 把这个3%叫做误差其实有点misleading,实际上这是给了一个 confidence interval。
: 也就是说,假设sampling完全随机,真实结果和统计结果的差别在3%以内的机率有 95
: %,或者说有95%的信心真实结果的误差在3%以内。
: 这个 margin of error 的大小是由调查人数决定的,根据统计学里的大数原理,这个
: 分布接近正态分布,这个 confidence interval 的大小是由正态分布的方差决定的,
: 而这个方差是由调查人数的多少决定的。调查的人数越多,confidence interval越小
: ,也就是说 margin of error 越小。
: 其实不需要调查太多人,一千人已经很准确了,但然做到完全随机很难,这也是poll出
: 错的主要原因。像538网站那样把那么多polls的data放在一起分析,单从统计学上讲,
: 应该非常非常准确

a****l
发帖数: 8211
10
统计学就是制造结论的工具,学术界几乎人人都擅长于此技术。

【在 l**********3 的大作中提到】
: 难道不是poll调查选了谁就是谁嘛,哪里来的误差?系统误差?
q***0
发帖数: 225
11
那些制造结论的人恰恰是不懂统计学,滥用统计学里的概念,比如搞搞p-value 什么的
,这不是统计学的错

【在 a****l 的大作中提到】
: 统计学就是制造结论的工具,学术界几乎人人都擅长于此技术。
v*******e
发帖数: 11604
12
算出来也是然并卵。最大的问题是bias。你打电话调查,查的都是家里有电话的。你去
街头调查,调查的都是逛街的。你去上门调查,调查的都是愿意给陌生人开门的。
q***0
发帖数: 225
13
很多样本是有bias,作统计的人时时刻刻在努力compensate,比如 Russmusen 的样本
,多少年来一直倾向共和党,CNN今年的poll实际上也倾向共和党,当然川粉不承认,
这在那些综合网站里都有纠正

【在 m****r 的大作中提到】
: 如果每个poll的样本都是representative的并且是随机的,那么合起来确实可以减小误
: 差。但是如果每一个poll的样本都是biased,那加起来也没有用。就看抽样的可靠程度
: 了。
:
: 95

1 (共1页)
进入USANews版参与讨论
相关主题
Polls: McCain, Obama even in many Big Ten states现在全国的poll大多数除开统计误差都是tie
No exit poll today?最新的NBC/WSJ民调显示希拉里
Polls, Conspiracies, Common Sense, and ArgumentsTDB Poll of Polls: Romney leads 2% nationwide
Obama's own Public Policy Poll: Romney 49 vs Obama 47NATE SILVER: Nov 5 Late Poll Gains for Obama
想讨论Poll,还是应该先学一些基本的统计学知识关于poll results
预测一下poll吧So why Hillary is leading in polls?
538的poll是大规模更新了can't trust polls
非统计学理论分析poll电话poll的另一大不靠谱
相关话题的讨论汇总
话题: 误差话题: poll话题: 统计话题: 调查话题: 3%