由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 【预测】2016年总统大选得票数
相关主题
Re: 原来桑德斯人气也比老婊子高很多可还是输了 (转载)反川普的,还不去change.org签名?
my prediction -- Clinton Wins (270:268)特朗普可能无法当选总统,合法性受到cia质疑
30岁转行data science如何选举人不会让希拉里当选,选举人制度也不会废除
【2016总统大选得票数预测】不讲政治,但是客观数据告诉我左弊别指望了,选举人不会让希拉里成为总统的
希粉把亚利桑那州11个选举人的电话都打爆了NYT: How Would the Electoral College Dump Trump?
六个三粉electors的奇葩战术BREAKING NEWS:床铺当选的合法性受到严重质疑
六个三粉electors的奇葩战术 (转载)主党真难伺候,又内讧了
我早就看出来了我们华人绝对不能选特郎普上台 (转载)“Hillary
相关话题的讨论汇总
话题: 预测话题: silver话题: trump话题: 结果话题: nate
进入DataSciences版参与讨论
1 (共1页)
l********7
发帖数: 2974
1
这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会
以压倒性的优势,胜过Clinton,出任下一届美国总统。
下面是我做的一个定量模型预测的得票数结果。
------------------------
2016 美国总统选举得票数(Electoral Votes)预测:
------------------------
总票数(Total Electoral Votes):538
可能的得票数范围:
Clinton:117 - 184 (21% - 35%)
Trump:354 - 421 (65% - 79%)
最可能或者平均期望得票数范围:
Clinton:149 - 156 (27% - 29%)
Trump:382 - 389 (71% - 73%)
顺便提一下对Clinton最有利、对Trump最不利的两个州:
首先,Mississippi,Clinton最有可能取胜,Trump最有可能失利。
其次,Iowa,Clinton也有较大胜算,Trump的胜算较低。
(注意:模型给出的这两个州的结果,没有基于任何政治方面的因素和信息)
立帖为证,拭目以待大选结果的证实、或者证伪,呵呵。
【声明】:希望不要讨论太多政治观点(比如Trump如何如何,Hillary如何如何),因
为这些没必要,也不是本贴关心的重点。
l********7
发帖数: 2974
2
另外说明一下:
1、我的结果是基于:大数据(Google Trends) + 简单的模型和算法。
2、模型基本不需要任何的参数调节,或者说对参数调节有非常可靠的鲁棒性。
l********7
发帖数: 2974
3
昨天,我得出上面的预测结果后,出于好奇,上网搜索了关于今年大选的(基于客观和
科学方法的)预测,竟然找到一个非常有趣的结果。
Prof. Allan Lichtman, Distinguished Professor Of History At American 原来早
就做过自己的预测。他从1984年开始,已经用他的理论成功预测了至今为止的所有8次
美国竞选的结果。不过他的预测和我的不同之处在于,他只做二值分类预测,不做得票
数的定量预测。比如,这是他2006年发表的关于2008年竞选结果的预测论文:
http://previsaosimples.pbworks.com/w/file/fetch/55120417/Samohyl%20-%202006%20-%20The%20International%20Journal%20of%20Applied%20Forecasting.pdf#page=7
还有他2012年关于成功预测的讨论:
https://forecasters.org/wp-content/uploads/Oracle_Dec2012.pdf
看看他对今年大选的预测吧:
Who Will Win The 2016 U.S. Presidential Election?
Election Forecasting Guru Allan Lichtman Predicts Donald Trump Will Win 2016
Election
R*********4
发帖数: 293
4
我预测很简单
希拉里 300+
床铺 160+
( ̄▽ ̄)",我就回帖为证吧。
M****g
发帖数: 52
5
Mark
s**********r
发帖数: 286
6
Mississippi是传统红州,如果希婆赢下,说明老床不妙。能否把你模式中各州的预测
结果分享一下?
d******t
发帖数: 216
7
如果希赢就是blowout,如果川赢就是险胜,不可能两头都blowout,你当人家几十年民
意调查的技术是吃干饭的啊。。。
r****y
发帖数: 524
8
今年的选举可能和以往的版图大不相同,因为传普并不是那种传统的共和党候选人,他
和红脖子没有那么近的感觉。同时他也许可能会赢一些意外的蓝州。
t******g
发帖数: 1815
9
能不能展开讲讲你是如何建模的。谢谢。
F********k
发帖数: 27
10
说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
人家专家是怎么搞的。
==================================================================
澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测
与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结
果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。
相关主题
六个三粉electors的奇葩战术反川普的,还不去change.org签名?
六个三粉electors的奇葩战术 (转载)特朗普可能无法当选总统,合法性受到cia质疑
我早就看出来了我们华人绝对不能选特郎普上台 (转载)选举人不会让希拉里当选,选举人制度也不会废除
进入DataSciences版参与讨论
l********7
发帖数: 2974
11
好的,多谢你的538网站信息。这些结果都是可以证伪、或者证实的。
我的结果完全可能错的很离谱,就当是胡说八道的笑话好了。

发信人: ForestMonk (林僧), 信区: DataSciences
标 题: Re: 【预测】2016年总统大选得票数
发信站: BBS 未名空间站 (Sun Oct 23 11:23:01 2016, 美东)
说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
人家专家是怎么搞的。

【在 F********k 的大作中提到】
: 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
: http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
: 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
: 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
: 人家专家是怎么搞的。
: ==================================================================
: 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测
: 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结
: 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。

l********7
发帖数: 2974
12
多谢,应该没有人这么理解,呵呵。
顺便我也把538网站的预测图贴一下,以便今后对比验证。

【在 F********k 的大作中提到】
: 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
: http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
: 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
: 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
: 人家专家是怎么搞的。
: ==================================================================
: 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测
: 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结
: 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。

l********7
发帖数: 2974
13
另外,个人评论一下poll-based的建模和预测。
这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选
民数目。
如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化,
定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。

【在 F********k 的大作中提到】
: 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
: http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
: 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
: 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
: 人家专家是怎么搞的。
: ==================================================================
: 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测
: 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结
: 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。

z***s
发帖数: 91
14
支持你一下!

【在 l********7 的大作中提到】
: 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会
: 以压倒性的优势,胜过Clinton,出任下一届美国总统。
: 下面是我做的一个定量模型预测的得票数结果。
: ------------------------
: 2016 美国总统选举得票数(Electoral Votes)预测:
: ------------------------
: 总票数(Total Electoral Votes):538
: 可能的得票数范围:
: Clinton:117 - 184 (21% - 35%)
: Trump:354 - 421 (65% - 79%)

i****x
发帖数: 17565
15
Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都
是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接
拍脑袋吧。

【在 l********7 的大作中提到】
: 另外,个人评论一下poll-based的建模和预测。
: 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选
: 民数目。
: 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化,
: 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。

c****h
发帖数: 20
16
一没有模型, 二没有数据. 就有结果, 算命的? 中国特色的
F********k
发帖数: 27
17
看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货
有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服
这信息量与杂讯量共存的问题。简单地说:
1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠
地堆积起来,然后再据此进行它自己的分析与预测。
2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。
3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分
细致。依各州选民的种族,性别,年龄来进行预测。
4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中,
Nate Silver 准确地预测了 99 个。
谢谢阁下从 538 网站转来的两张图。可是我最喜爱的其实下面这张分时
走势图。清楚地说明该网站对此次美国总统大选在各个不同时点的预测。

【在 l********7 的大作中提到】
: 另外,个人评论一下poll-based的建模和预测。
: 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选
: 民数目。
: 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化,
: 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。

F********k
发帖数: 27
18
@icefox:All polls are "somewhat" biased。这是所有民意调查的基本共识。
好的民意预测分析师(像 Nate Silver)能堆叠所能收集到的所有 polls,滤除
杂讯,作出尽可能不偏倚的预测。根据 leibniz137 的说法,他也不是拍脑袋
得出的结果。我期待他对本帖能有所更新,将他的方法跟大家分享一下。

【在 i****x 的大作中提到】
: Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都
: 是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接
: 拍脑袋吧。

i****x
发帖数: 17565
19
没错。从时间走势图上能清楚看到以下关键时间点:
7/18-21 RNC,T上行直到一瞬间超过H
7/25-28 DNC,H飞速反扑直到87%胜率的峰值
9/11,H生病,T顺势攻城略地
9/26,first debate,T狂吠不知所云,H扭转颓势迅速上行
10/7-9,T pussy gate+second debate,T跌至谷底
10/19,third debate,T表现稍好,选情稳中略升
要知道NS的基本模型完全不加入任何新闻因素的影响,是纯粹的poll data驱动,但能
从其中看到新闻。这就是典型的data speaks

【在 F********k 的大作中提到】
: 看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货
: 有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服
: 这信息量与杂讯量共存的问题。简单地说:
: 1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠
: 地堆积起来,然后再据此进行它自己的分析与预测。
: 2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。
: 3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分
: 细致。依各州选民的种族,性别,年龄来进行预测。
: 4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中,
: Nate Silver 准确地预测了 99 个。

l********7
发帖数: 2974
20
首先,进一步说说我关于poll偏差,及加权建模的看法。
1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一
边倒的偏差时,这个如何处理?
2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越
差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎
么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。
其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测
的巨大差异:
(1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机
制处理和纠正这个关键的问题
(2)或许我的数据的偏差非常大 - 也许作为输入到我模型的Google Trend大数据并
不符合我的假设。这个假设即,我所用到的Google Trend数据“是显著无偏的”。尽管
分析预处理数据尽可能朝这个努力,不排除这个假设失效的可能性。

【在 F********k 的大作中提到】
: 看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货
: 有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服
: 这信息量与杂讯量共存的问题。简单地说:
: 1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠
: 地堆积起来,然后再据此进行它自己的分析与预测。
: 2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。
: 3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分
: 细致。依各州选民的种族,性别,年龄来进行预测。
: 4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中,
: Nate Silver 准确地预测了 99 个。

相关主题
左弊别指望了,选举人不会让希拉里成为总统的主党真难伺候,又内讧了
NYT: How Would the Electoral College Dump Trump?“Hillary
BREAKING NEWS:床铺当选的合法性受到严重质疑最权威的大选预测网站538现在预测Trump vs Clinton概率
进入DataSciences版参与讨论
l********7
发帖数: 2974
21
我说的是,用小数据量,建模和估计高维参数空间分布的两难困境原理;而不是什么偏
差的问题。
你说的我的数据(google trends)可能是有偏、并非常显著,这个可能性是存在的。
这是我预测的所有潜在问题中,相对最可能的一个问题。
但我不是拍脑袋处理数据的,更不是拍脑袋给出结果的。

【在 i****x 的大作中提到】
: Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都
: 是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接
: 拍脑袋吧。

j*******r
发帖数: 412
22
楼主高人。不知道舞弊的因素有没有考虑,权重如何。
最后结果如果不一致,这也可能是证实和证伪的障碍。
x**l
发帖数: 2337
23
楼主输定了,结果应该是倒过来。
x**l
发帖数: 2337
24
楼主输定了,结果应该是倒过来。
D*********e
发帖数: 646
25
GoogleTrends主要反映的是Internet user的意志,偏向Trump是明显的。但是红蓝双方
大量选民可能都对Internet没有影响。相对来说,如果没有人为作假,各大民调数据来
源覆盖比GTrends要好得多。简单的从数据来源和基础假设来说,538的结果比你的更可
靠。

【在 l********7 的大作中提到】
: 首先,进一步说说我关于poll偏差,及加权建模的看法。
: 1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一
: 边倒的偏差时,这个如何处理?
: 2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越
: 差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎
: 么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。
: 其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测
: 的巨大差异:
: (1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机
: 制处理和纠正这个关键的问题

t******g
发帖数: 1815
26
能不能用一个州比如宾州为例解释一下为啥川普会赢这个州。
F********k
发帖数: 27
27
阁下今日的见解让我难以认同。首先,你说 "如果大多数新闻机构的 poll 呈
现一边倒的偏差时,这个如何处理?" 我搞不清楚上面这个陈述的前半段是个
疑问还是你观察的结论。如果是疑问,我的回答是 "大多数新闻机构的 poll
会有偏差。但不致于是一边倒的偏差"(原因容后详论)。如果是你观察的结论,
我反倒要请问你是如何观察(或测量)出 poll 中偏差的大小? 除非你有一客观
公正的方法测量出 poll 中偏差的大小,否则如何推论出 "大多数新闻机构的
poll 呈现一边倒的偏差" 这样的陈述?
现在回头来解释为何我说 "大多数新闻机构的 poll 会有偏差。但不致于是
一边倒的偏差"。美国大部分的新闻机构(电视台,报纸)都有其政治立场。
这是美国社会可以接受的常态。但是政治立场归政治立场,说到民意调查,
还是有其底限。这底限就是:数字不能作假。如果今天福斯电台电话访问了
1000 名合格选民,600 个说要投希拉蕊。它就不能指鹿为马,说川普的支持
率是 60%。在此限制之下,新闻机构最常动的手脚便是在取样(sampling)。
譬如福斯电台知道它的观众大多是共和党的支持者。如果它今天要做 Ohio
的 presidential polls,它会找出 Ohio 州该电视台的核心阅众。然后在
抽样时,多抽一些它核心阅众的电话进行调查。这样一来,就可以既不做假,
又营造出与电视台官方政治立场相符的 polls。
这是偏差吗?是!这会使得所有的 polls 都不可信吗?不致于!因为严谨的
polls 不是只报候选人的支持率。它还得详述受访者的种族,性别,年龄,
学历甚至登记的政党。有了这些讯息,厉害的统计学家(例如 Nate Silver),
就能据此降低,甚至剔除在取样过程中,有意无意所引入的偏差。
说到这里,就提到我的第二处不同意:阁下说 "Silver 的模型没有机制
处理和纠正这个关键的问题 (前述 polls 中的偏差)"。这是大错特错。
要知到老美用民调,统计来预测总统大选结果,早已行之有年,不是一朝
一夕之举。可前人从未像 Nate 一般,准确预测每一州的结果。Nate 的
独门功夫,便是藉由受访者讯息,以贝氏定理剔除在取样过程中,有意无
意所引入的偏差。
我看阁下之前的回文。好像在我提 Nate Silver 之前,你并不知此人背景。
结果忽然天外飞来一句 "Silver 的模型没有机制处理和纠正这个关键的问
题"。这话未免太托大,太以己度人了。更何况据我所知,他迄今并未公布
其模型中的数学细节。我是看了他的大著 "The Signal and the Noise"
才约略了解他操作的手法与数学依据。你侃侃而谈说 Silver 的模型如何
如何,实在没有说服力。
最后,阁下若有各州依你模型的结果预测,望君不吝公布分享。与君所言,
这件事(预测总统大选结果)要证伪,证实都是清清楚楚,半点虚假不来的。

看法。
新闻机
;数对数据的
加,需要
的理论原理
Silver模型预测的
倒的偏差 - 而Silver
#38382;题

【在 l********7 的大作中提到】
: 首先,进一步说说我关于poll偏差,及加权建模的看法。
: 1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一
: 边倒的偏差时,这个如何处理?
: 2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越
: 差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎
: 么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。
: 其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测
: 的巨大差异:
: (1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机
: 制处理和纠正这个关键的问题

k**i
发帖数: 10191
28
有趣.两周后来看.538的结果看起来不太令人信服.看看过去几百年美国总统不会连续被
一个政党把持3届的铁律能不能被希老太打破吧.话说美国这几十年,这一届的候选人是
最差的吧?
Y****N
发帖数: 8694
29
garbage in, garbage out 的典型案例

【在 l********7 的大作中提到】
: 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会
: 以压倒性的优势,胜过Clinton,出任下一届美国总统。
: 下面是我做的一个定量模型预测的得票数结果。
: ------------------------
: 2016 美国总统选举得票数(Electoral Votes)预测:
: ------------------------
: 总票数(Total Electoral Votes):538
: 可能的得票数范围:
: Clinton:117 - 184 (21% - 35%)
: Trump:354 - 421 (65% - 79%)

F********k
发帖数: 27
30
含泪同意。

是最差的吧?

【在 k**i 的大作中提到】
: 有趣.两周后来看.538的结果看起来不太令人信服.看看过去几百年美国总统不会连续被
: 一个政党把持3届的铁律能不能被希老太打破吧.话说美国这几十年,这一届的候选人是
: 最差的吧?

相关主题
疮破根本没法赢Electoral Collegemy prediction -- Clinton Wins (270:268)
Poll: Clinton leads Trump by 48 points among millennials30岁转行data science如何
Re: 原来桑德斯人气也比老婊子高很多可还是输了 (转载)【2016总统大选得票数预测】不讲政治,但是客观数据告诉我
进入DataSciences版参与讨论
C******n
发帖数: 284
31
我觉得你可能不是很了解sampling and survey methodology;理论上小样本(n<1k)也
是可以得到unbiased estimate,样本量与variance之间的关系也不是线形的;你说的模
型优化可能是指已经收集到一个样本数据之后的事,但是即使如此,也可以引入
auxillary data来增加信息量,比如利用census data做 post-stratification,pool
data across multiple surveys, small area estimation, etc.

【在 l********7 的大作中提到】
: 另外,个人评论一下poll-based的建模和预测。
: 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选
: 民数目。
: 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化,
: 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。

S*********n
发帖数: 387
32
我的数据来源于美新版的帖子,经过七七四十九天的运算,穷尽八八六十四卦,川大大
99%,老太婆1%

【在 Y****N 的大作中提到】
: garbage in, garbage out 的典型案例
D*********e
发帖数: 646
33
538的概率已经从85-15变成65-35,直观上非常符合最近的行情变化。楼主你的model现
在是什么结果?
l********7
发帖数: 2974
34
这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会
以压倒性的优势,胜过Clinton,出任下一届美国总统。
下面是我做的一个定量模型预测的得票数结果。
------------------------
2016 美国总统选举得票数(Electoral Votes)预测:
------------------------
总票数(Total Electoral Votes):538
可能的得票数范围:
Clinton:117 - 184 (21% - 35%)
Trump:354 - 421 (65% - 79%)
最可能或者平均期望得票数范围:
Clinton:149 - 156 (27% - 29%)
Trump:382 - 389 (71% - 73%)
顺便提一下对Clinton最有利、对Trump最不利的两个州:
首先,Mississippi,Clinton最有可能取胜,Trump最有可能失利。
其次,Iowa,Clinton也有较大胜算,Trump的胜算较低。
(注意:模型给出的这两个州的结果,没有基于任何政治方面的因素和信息)
立帖为证,拭目以待大选结果的证实、或者证伪,呵呵。
【声明】:希望不要讨论太多政治观点(比如Trump如何如何,Hillary如何如何),因
为这些没必要,也不是本贴关心的重点。
l********7
发帖数: 2974
35
另外说明一下:
1、我的结果是基于:大数据(Google Trends) + 简单的模型和算法。
2、模型基本不需要任何的参数调节,或者说对参数调节有非常可靠的鲁棒性。
l********7
发帖数: 2974
36
昨天,我得出上面的预测结果后,出于好奇,上网搜索了关于今年大选的(基于客观和
科学方法的)预测,竟然找到一个非常有趣的结果。
Prof. Allan Lichtman, Distinguished Professor Of History At American 原来早
就做过自己的预测。他从1984年开始,已经用他的理论成功预测了至今为止的所有8次
美国竞选的结果。不过他的预测和我的不同之处在于,他只做二值分类预测,不做得票
数的定量预测。比如,这是他2006年发表的关于2008年竞选结果的预测论文:
http://previsaosimples.pbworks.com/w/file/fetch/55120417/Samohyl%20-%202006%20-%20The%20International%20Journal%20of%20Applied%20Forecasting.pdf#page=7
还有他2012年关于成功预测的讨论:
https://forecasters.org/wp-content/uploads/Oracle_Dec2012.pdf
看看他对今年大选的预测吧:
Who Will Win The 2016 U.S. Presidential Election?
Election Forecasting Guru Allan Lichtman Predicts Donald Trump Will Win 2016
Election
R*********4
发帖数: 293
37
我预测很简单
希拉里 300+
床铺 160+
( ̄▽ ̄)",我就回帖为证吧。
M****g
发帖数: 52
38
Mark
s**********r
发帖数: 286
39
Mississippi是传统红州,如果希婆赢下,说明老床不妙。能否把你模式中各州的预测
结果分享一下?
d******t
发帖数: 216
40
如果希赢就是blowout,如果川赢就是险胜,不可能两头都blowout,你当人家几十年民
意调查的技术是吃干饭的啊。。。
相关主题
【2016总统大选得票数预测】不讲政治,但是客观数据告诉我六个三粉electors的奇葩战术 (转载)
希粉把亚利桑那州11个选举人的电话都打爆了我早就看出来了我们华人绝对不能选特郎普上台 (转载)
六个三粉electors的奇葩战术反川普的,还不去change.org签名?
进入DataSciences版参与讨论
r****y
发帖数: 524
41
今年的选举可能和以往的版图大不相同,因为传普并不是那种传统的共和党候选人,他
和红脖子没有那么近的感觉。同时他也许可能会赢一些意外的蓝州。
t******g
发帖数: 1815
42
能不能展开讲讲你是如何建模的。谢谢。
F********k
发帖数: 27
43
说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
人家专家是怎么搞的。
==================================================================
澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测
与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结
果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。
l********7
发帖数: 2974
44
好的,多谢你的538网站信息。这些结果都是可以证伪、或者证实的。
我的结果完全可能错的很离谱,就当是胡说八道的笑话好了。

发信人: ForestMonk (林僧), 信区: DataSciences
标 题: Re: 【预测】2016年总统大选得票数
发信站: BBS 未名空间站 (Sun Oct 23 11:23:01 2016, 美东)
说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
人家专家是怎么搞的。

【在 F********k 的大作中提到】
: 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
: http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
: 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
: 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
: 人家专家是怎么搞的。
: ==================================================================
: 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测
: 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结
: 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。

l********7
发帖数: 2974
45
多谢,应该没有人这么理解,呵呵。
顺便我也把538网站的预测图贴一下,以便今后对比验证。

【在 F********k 的大作中提到】
: 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
: http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
: 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
: 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
: 人家专家是怎么搞的。
: ==================================================================
: 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测
: 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结
: 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。

l********7
发帖数: 2974
46
另外,个人评论一下poll-based的建模和预测。
这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选
民数目。
如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化,
定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。

【在 F********k 的大作中提到】
: 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
: http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
: 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
: 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
: 人家专家是怎么搞的。
: ==================================================================
: 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测
: 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结
: 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。

z***s
发帖数: 91
47
支持你一下!

【在 l********7 的大作中提到】
: 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会
: 以压倒性的优势,胜过Clinton,出任下一届美国总统。
: 下面是我做的一个定量模型预测的得票数结果。
: ------------------------
: 2016 美国总统选举得票数(Electoral Votes)预测:
: ------------------------
: 总票数(Total Electoral Votes):538
: 可能的得票数范围:
: Clinton:117 - 184 (21% - 35%)
: Trump:354 - 421 (65% - 79%)

i****x
发帖数: 17565
48
Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都
是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接
拍脑袋吧。

【在 l********7 的大作中提到】
: 另外,个人评论一下poll-based的建模和预测。
: 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选
: 民数目。
: 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化,
: 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。

c****h
发帖数: 20
49
一没有模型, 二没有数据. 就有结果, 算命的? 中国特色的
F********k
发帖数: 27
50
看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货
有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服
这信息量与杂讯量共存的问题。简单地说:
1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠
地堆积起来,然后再据此进行它自己的分析与预测。
2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。
3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分
细致。依各州选民的种族,性别,年龄来进行预测。
4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中,
Nate Silver 准确地预测了 99 个。
谢谢阁下从 538 网站转来的两张图。可是我最喜爱的其实下面这张分时
走势图。清楚地说明该网站对此次美国总统大选在各个不同时点的预测。

【在 l********7 的大作中提到】
: 另外,个人评论一下poll-based的建模和预测。
: 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选
: 民数目。
: 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化,
: 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。

相关主题
特朗普可能无法当选总统,合法性受到cia质疑NYT: How Would the Electoral College Dump Trump?
选举人不会让希拉里当选,选举人制度也不会废除BREAKING NEWS:床铺当选的合法性受到严重质疑
左弊别指望了,选举人不会让希拉里成为总统的主党真难伺候,又内讧了
进入DataSciences版参与讨论
F********k
发帖数: 27
51
@icefox:All polls are "somewhat" biased。这是所有民意调查的基本共识。
好的民意预测分析师(像 Nate Silver)能堆叠所能收集到的所有 polls,滤除
杂讯,作出尽可能不偏倚的预测。根据 leibniz137 的说法,他也不是拍脑袋
得出的结果。我期待他对本帖能有所更新,将他的方法跟大家分享一下。

【在 i****x 的大作中提到】
: Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都
: 是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接
: 拍脑袋吧。

i****x
发帖数: 17565
52
没错。从时间走势图上能清楚看到以下关键时间点:
7/18-21 RNC,T上行直到一瞬间超过H
7/25-28 DNC,H飞速反扑直到87%胜率的峰值
9/11,H生病,T顺势攻城略地
9/26,first debate,T狂吠不知所云,H扭转颓势迅速上行
10/7-9,T pussy gate+second debate,T跌至谷底
10/19,third debate,T表现稍好,选情稳中略升
要知道NS的基本模型完全不加入任何新闻因素的影响,是纯粹的poll data驱动,但能
从其中看到新闻。这就是典型的data speaks

【在 F********k 的大作中提到】
: 看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货
: 有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服
: 这信息量与杂讯量共存的问题。简单地说:
: 1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠
: 地堆积起来,然后再据此进行它自己的分析与预测。
: 2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。
: 3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分
: 细致。依各州选民的种族,性别,年龄来进行预测。
: 4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中,
: Nate Silver 准确地预测了 99 个。

l********7
发帖数: 2974
53
首先,进一步说说我关于poll偏差,及加权建模的看法。
1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一
边倒的偏差时,这个如何处理?
2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越
差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎
么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。
其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测
的巨大差异:
(1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机
制处理和纠正这个关键的问题
(2)或许我的数据的偏差非常大 - 也许作为输入到我模型的Google Trend大数据并
不符合我的假设。这个假设即,我所用到的Google Trend数据“是显著无偏的”。尽管
分析预处理数据尽可能朝这个努力,不排除这个假设失效的可能性。

【在 F********k 的大作中提到】
: 看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货
: 有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服
: 这信息量与杂讯量共存的问题。简单地说:
: 1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠
: 地堆积起来,然后再据此进行它自己的分析与预测。
: 2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。
: 3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分
: 细致。依各州选民的种族,性别,年龄来进行预测。
: 4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中,
: Nate Silver 准确地预测了 99 个。

l********7
发帖数: 2974
54
我说的是,用小数据量,建模和估计高维参数空间分布的两难困境原理;而不是什么偏
差的问题。
你说的我的数据(google trends)可能是有偏、并非常显著,这个可能性是存在的。
这是我预测的所有潜在问题中,相对最可能的一个问题。
但我不是拍脑袋处理数据的,更不是拍脑袋给出结果的。

【在 i****x 的大作中提到】
: Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都
: 是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接
: 拍脑袋吧。

j*******r
发帖数: 412
55
楼主高人。不知道舞弊的因素有没有考虑,权重如何。
最后结果如果不一致,这也可能是证实和证伪的障碍。
x**l
发帖数: 2337
56
楼主输定了,结果应该是倒过来。
x**l
发帖数: 2337
57
楼主输定了,结果应该是倒过来。
D*********e
发帖数: 646
58
GoogleTrends主要反映的是Internet user的意志,偏向Trump是明显的。但是红蓝双方
大量选民可能都对Internet没有影响。相对来说,如果没有人为作假,各大民调数据来
源覆盖比GTrends要好得多。简单的从数据来源和基础假设来说,538的结果比你的更可
靠。

【在 l********7 的大作中提到】
: 首先,进一步说说我关于poll偏差,及加权建模的看法。
: 1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一
: 边倒的偏差时,这个如何处理?
: 2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越
: 差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎
: 么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。
: 其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测
: 的巨大差异:
: (1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机
: 制处理和纠正这个关键的问题

t******g
发帖数: 1815
59
能不能用一个州比如宾州为例解释一下为啥川普会赢这个州。
F********k
发帖数: 27
60
阁下今日的见解让我难以认同。首先,你说 "如果大多数新闻机构的 poll 呈
现一边倒的偏差时,这个如何处理?" 我搞不清楚上面这个陈述的前半段是个
疑问还是你观察的结论。如果是疑问,我的回答是 "大多数新闻机构的 poll
会有偏差。但不致于是一边倒的偏差"(原因容后详论)。如果是你观察的结论,
我反倒要请问你是如何观察(或测量)出 poll 中偏差的大小? 除非你有一客观
公正的方法测量出 poll 中偏差的大小,否则如何推论出 "大多数新闻机构的
poll 呈现一边倒的偏差" 这样的陈述?
现在回头来解释为何我说 "大多数新闻机构的 poll 会有偏差。但不致于是
一边倒的偏差"。美国大部分的新闻机构(电视台,报纸)都有其政治立场。
这是美国社会可以接受的常态。但是政治立场归政治立场,说到民意调查,
还是有其底限。这底限就是:数字不能作假。如果今天福斯电台电话访问了
1000 名合格选民,600 个说要投希拉蕊。它就不能指鹿为马,说川普的支持
率是 60%。在此限制之下,新闻机构最常动的手脚便是在取样(sampling)。
譬如福斯电台知道它的观众大多是共和党的支持者。如果它今天要做 Ohio
的 presidential polls,它会找出 Ohio 州该电视台的核心阅众。然后在
抽样时,多抽一些它核心阅众的电话进行调查。这样一来,就可以既不做假,
又营造出与电视台官方政治立场相符的 polls。
这是偏差吗?是!这会使得所有的 polls 都不可信吗?不致于!因为严谨的
polls 不是只报候选人的支持率。它还得详述受访者的种族,性别,年龄,
学历甚至登记的政党。有了这些讯息,厉害的统计学家(例如 Nate Silver),
就能据此降低,甚至剔除在取样过程中,有意无意所引入的偏差。
说到这里,就提到我的第二处不同意:阁下说 "Silver 的模型没有机制
处理和纠正这个关键的问题 (前述 polls 中的偏差)"。这是大错特错。
要知到老美用民调,统计来预测总统大选结果,早已行之有年,不是一朝
一夕之举。可前人从未像 Nate 一般,准确预测每一州的结果。Nate 的
独门功夫,便是藉由受访者讯息,以贝氏定理剔除在取样过程中,有意无
意所引入的偏差。
我看阁下之前的回文。好像在我提 Nate Silver 之前,你并不知此人背景。
结果忽然天外飞来一句 "Silver 的模型没有机制处理和纠正这个关键的问
题"。这话未免太托大,太以己度人了。更何况据我所知,他迄今并未公布
其模型中的数学细节。我是看了他的大著 "The Signal and the Noise"
才约略了解他操作的手法与数学依据。你侃侃而谈说 Silver 的模型如何
如何,实在没有说服力。
最后,阁下若有各州依你模型的结果预测,望君不吝公布分享。与君所言,
这件事(预测总统大选结果)要证伪,证实都是清清楚楚,半点虚假不来的。

看法。
新闻机
;数对数据的
加,需要
的理论原理
Silver模型预测的
倒的偏差 - 而Silver
#38382;题

【在 l********7 的大作中提到】
: 首先,进一步说说我关于poll偏差,及加权建模的看法。
: 1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一
: 边倒的偏差时,这个如何处理?
: 2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越
: 差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎
: 么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。
: 其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测
: 的巨大差异:
: (1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机
: 制处理和纠正这个关键的问题

相关主题
“HillaryPoll: Clinton leads Trump by 48 points among millennials
最权威的大选预测网站538现在预测Trump vs Clinton概率Re: 原来桑德斯人气也比老婊子高很多可还是输了 (转载)
疮破根本没法赢Electoral Collegemy prediction -- Clinton Wins (270:268)
进入DataSciences版参与讨论
k**i
发帖数: 10191
61
有趣.两周后来看.538的结果看起来不太令人信服.看看过去几百年美国总统不会连续被
一个政党把持3届的铁律能不能被希老太打破吧.话说美国这几十年,这一届的候选人是
最差的吧?
Y****N
发帖数: 8694
62
garbage in, garbage out 的典型案例

【在 l********7 的大作中提到】
: 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会
: 以压倒性的优势,胜过Clinton,出任下一届美国总统。
: 下面是我做的一个定量模型预测的得票数结果。
: ------------------------
: 2016 美国总统选举得票数(Electoral Votes)预测:
: ------------------------
: 总票数(Total Electoral Votes):538
: 可能的得票数范围:
: Clinton:117 - 184 (21% - 35%)
: Trump:354 - 421 (65% - 79%)

F********k
发帖数: 27
63
含泪同意。

是最差的吧?

【在 k**i 的大作中提到】
: 有趣.两周后来看.538的结果看起来不太令人信服.看看过去几百年美国总统不会连续被
: 一个政党把持3届的铁律能不能被希老太打破吧.话说美国这几十年,这一届的候选人是
: 最差的吧?

C******n
发帖数: 284
64
我觉得你可能不是很了解sampling and survey methodology;理论上小样本(n<1k)也
是可以得到unbiased estimate,样本量与variance之间的关系也不是线形的;你说的模
型优化可能是指已经收集到一个样本数据之后的事,但是即使如此,也可以引入
auxillary data来增加信息量,比如利用census data做 post-stratification,pool
data across multiple surveys, small area estimation, etc.

【在 l********7 的大作中提到】
: 另外,个人评论一下poll-based的建模和预测。
: 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选
: 民数目。
: 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化,
: 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。

S*********n
发帖数: 387
65
我的数据来源于美新版的帖子,经过七七四十九天的运算,穷尽八八六十四卦,川大大
99%,老太婆1%

【在 Y****N 的大作中提到】
: garbage in, garbage out 的典型案例
D*********e
发帖数: 646
66
538的概率已经从85-15变成65-35,直观上非常符合最近的行情变化。楼主你的model现
在是什么结果?
F********k
发帖数: 27
67
已经是周日晚。原 LZ -- leibniz137 (莱布尼兹) 没敢再
更新他自己的模式。估计又是一名忽悠侠。我依原计划会
于明晚(11月7日)在此上贴 538 网站最终预测结果。
选举结果公布之后,再贴一帖来比对 Nate
Silver 今年预
测的准确率如何。
D*********e
发帖数: 646
68
这位大师好好笑。莱布尼兹的结果再不准好歹自己动手做的,您贴538的结果算怎么回
事儿?当别人上不了网吗

【在 F********k 的大作中提到】
: 已经是周日晚。原 LZ -- leibniz137 (莱布尼兹) 没敢再
: 更新他自己的模式。估计又是一名忽悠侠。我依原计划会
: 于明晚(11月7日)在此上贴 538 网站最终预测结果。
: 选举结果公布之后,再贴一帖来比对 Nate
: Silver 今年预
: 测的准确率如何。

k**i
发帖数: 10191
69
明天就揭晓了。另外楼上别太mean了,这些模型准和不准,就是一乐呵的事,你那么叫
真做啥。
F********k
发帖数: 27
70
兄台莫笑。贴538的结果因为∶
1. 我是 Nate Silver 的粉丝.
2. 本论坛上一群人压根儿没听过 538. 我想
quote 高水准的的来源给大家长长见识。
我今天也会野人□曝一下,贴自己的预测结果。

不了网吗

【在 D*********e 的大作中提到】
: 这位大师好好笑。莱布尼兹的结果再不准好歹自己动手做的,您贴538的结果算怎么回
: 事儿?当别人上不了网吗

相关主题
my prediction -- Clinton Wins (270:268)希粉把亚利桑那州11个选举人的电话都打爆了
30岁转行data science如何六个三粉electors的奇葩战术
【2016总统大选得票数预测】不讲政治,但是客观数据告诉我六个三粉electors的奇葩战术 (转载)
进入DataSciences版参与讨论
F********k
发帖数: 27
l********7
发帖数: 2974
72
http://www.mitbbs.com/article/USANews/32501625_0.html
发信人: leibniz137 (莱布尼兹), 信区: USANews
标 题: Re: 【2016总统大选得票数预测】不讲政治,但是客观数据告诉我
发信站: BBS 未名空间站 (Sun Nov 6 22:50:46 2016, 美东)
用了更新到昨天的数据,结果没实质性差别,就不更新了。
Congrats to President Trump 2016!
+++++++++++++++++++++++++++++++++++++++++++++++++++

【在 F********k 的大作中提到】
: http://www.mitbbs.com/article_t0/DataSciences/21415.html
l********7
发帖数: 2974
73
我的定量结果被证伪了。
而我的数据本身所显示的分类(classification)模式,比媒体polling bias小得多,
Trump大概率取胜在数据里呈现的非常清晰。
所以,我猜测我模型的问题出在variance上,这个非常合理。我一个晚上,加半个周末
搞的结果,模型非常简单一般化。

【在 D*********e 的大作中提到】
: 这位大师好好笑。莱布尼兹的结果再不准好歹自己动手做的,您贴538的结果算怎么回
: 事儿?当别人上不了网吗

l********7
发帖数: 2974
74
不是不敢,我没那么多时间。我就一两天做的好玩的模型。
Nate Silver 做了多久?连Trump大概率取胜这个定性结果他都没预测准,大选前一天
Trump只有29%胜率?LOL!

【在 F********k 的大作中提到】
: http://www.mitbbs.com/article_t0/DataSciences/21415.html
l********7
发帖数: 2974
75
大错特错。。。
Nice long “theory" - thanks!

:处理和纠正这个关键的问题 (前述 polls 中的偏差)"。这是大错特错。

【在 F********k 的大作中提到】
: http://www.mitbbs.com/article_t0/DataSciences/21415.html
t****g
发帖数: 120
76
楼主的预测的结果已经很了不起了!如果引入Bayesian's prior probability of 红州
蓝州,可能预测结果的Mean会更好!
l********7
发帖数: 2974
77
那你,帮主流媒体这么多polling/sampling/survey专业人士解释下,这次对Trump的
poll,他们为啥如此牛逼咯。。。LOL!

pool

【在 C******n 的大作中提到】
: 我觉得你可能不是很了解sampling and survey methodology;理论上小样本(n<1k)也
: 是可以得到unbiased estimate,样本量与variance之间的关系也不是线形的;你说的模
: 型优化可能是指已经收集到一个样本数据之后的事,但是即使如此,也可以引入
: auxillary data来增加信息量,比如利用census data做 post-stratification,pool
: data across multiple surveys, small area estimation, etc.

l********7
发帖数: 2974
78
舞弊的因素没有考虑,考虑这些只会加入更多的偏差和模型复杂度,个人不认为是个特
别必要的trade-off策略。

【在 j*******r 的大作中提到】
: 楼主高人。不知道舞弊的因素有没有考虑,权重如何。
: 最后结果如果不一致,这也可能是证实和证伪的障碍。

l********7
发帖数: 2974
79
我的建模基本思想就是想尽可能地避免bias,所以没加入任何prior info。
不过你这个建议也是可以考虑,以后有空试试;关键难点是如何客观地引入这个prior
bias,而且这么做很反而容易使得模型对新”经验“的学习和弹朔性降低。所以这是个
双刃剑。

【在 t****g 的大作中提到】
: 楼主的预测的结果已经很了不起了!如果引入Bayesian's prior probability of 红州
: 蓝州,可能预测结果的Mean会更好!

w***g
发帖数: 5958
80
过来膜拜一下.

【在 l********7 的大作中提到】
: 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会
: 以压倒性的优势,胜过Clinton,出任下一届美国总统。
: 下面是我做的一个定量模型预测的得票数结果。
: ------------------------
: 2016 美国总统选举得票数(Electoral Votes)预测:
: ------------------------
: 总票数(Total Electoral Votes):538
: 可能的得票数范围:
: Clinton:117 - 184 (21% - 35%)
: Trump:354 - 421 (65% - 79%)

相关主题
我早就看出来了我们华人绝对不能选特郎普上台 (转载)选举人不会让希拉里当选,选举人制度也不会废除
反川普的,还不去change.org签名?左弊别指望了,选举人不会让希拉里成为总统的
特朗普可能无法当选总统,合法性受到cia质疑NYT: How Would the Electoral College Dump Trump?
进入DataSciences版参与讨论
l********7
发帖数: 2974
81
见笑了,我预测的票数错得比较离谱,呵呵。
记得好像您是编程、还是哪个版的,也做机器学习的吧

【在 w***g 的大作中提到】
: 过来膜拜一下.
1 (共1页)
进入DataSciences版参与讨论
相关主题
“Hillary希粉把亚利桑那州11个选举人的电话都打爆了
最权威的大选预测网站538现在预测Trump vs Clinton概率六个三粉electors的奇葩战术
疮破根本没法赢Electoral College六个三粉electors的奇葩战术 (转载)
Poll: Clinton leads Trump by 48 points among millennials我早就看出来了我们华人绝对不能选特郎普上台 (转载)
Re: 原来桑德斯人气也比老婊子高很多可还是输了 (转载)反川普的,还不去change.org签名?
my prediction -- Clinton Wins (270:268)特朗普可能无法当选总统,合法性受到cia质疑
30岁转行data science如何选举人不会让希拉里当选,选举人制度也不会废除
【2016总统大选得票数预测】不讲政治,但是客观数据告诉我左弊别指望了,选举人不会让希拉里成为总统的
相关话题的讨论汇总
话题: 预测话题: silver话题: trump话题: 结果话题: nate