l********7 发帖数: 2974 | 1 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会
以压倒性的优势,胜过Clinton,出任下一届美国总统。
下面是我做的一个定量模型预测的得票数结果。
------------------------
2016 美国总统选举得票数(Electoral Votes)预测:
------------------------
总票数(Total Electoral Votes):538
可能的得票数范围:
Clinton:117 - 184 (21% - 35%)
Trump:354 - 421 (65% - 79%)
最可能或者平均期望得票数范围:
Clinton:149 - 156 (27% - 29%)
Trump:382 - 389 (71% - 73%)
顺便提一下对Clinton最有利、对Trump最不利的两个州:
首先,Mississippi,Clinton最有可能取胜,Trump最有可能失利。
其次,Iowa,Clinton也有较大胜算,Trump的胜算较低。
(注意:模型给出的这两个州的结果,没有基于任何政治方面的因素和信息)
立帖为证,拭目以待大选结果的证实、或者证伪,呵呵。
【声明】:希望不要讨论太多政治观点(比如Trump如何如何,Hillary如何如何),因
为这些没必要,也不是本贴关心的重点。 |
l********7 发帖数: 2974 | 2 另外说明一下:
1、我的结果是基于:大数据(Google Trends) + 简单的模型和算法。
2、模型基本不需要任何的参数调节,或者说对参数调节有非常可靠的鲁棒性。 |
l********7 发帖数: 2974 | 3 昨天,我得出上面的预测结果后,出于好奇,上网搜索了关于今年大选的(基于客观和
科学方法的)预测,竟然找到一个非常有趣的结果。
Prof. Allan Lichtman, Distinguished Professor Of History At American 原来早
就做过自己的预测。他从1984年开始,已经用他的理论成功预测了至今为止的所有8次
美国竞选的结果。不过他的预测和我的不同之处在于,他只做二值分类预测,不做得票
数的定量预测。比如,这是他2006年发表的关于2008年竞选结果的预测论文:
http://previsaosimples.pbworks.com/w/file/fetch/55120417/Samohyl%20-%202006%20-%20The%20International%20Journal%20of%20Applied%20Forecasting.pdf#page=7
还有他2012年关于成功预测的讨论:
https://forecasters.org/wp-content/uploads/Oracle_Dec2012.pdf
看看他对今年大选的预测吧:
Who Will Win The 2016 U.S. Presidential Election?
Election Forecasting Guru Allan Lichtman Predicts Donald Trump Will Win 2016
Election |
R*********4 发帖数: 293 | 4 我预测很简单
希拉里 300+
床铺 160+
( ̄▽ ̄)",我就回帖为证吧。 |
M****g 发帖数: 52 | |
s**********r 发帖数: 286 | 6 Mississippi是传统红州,如果希婆赢下,说明老床不妙。能否把你模式中各州的预测
结果分享一下? |
d******t 发帖数: 216 | 7 如果希赢就是blowout,如果川赢就是险胜,不可能两头都blowout,你当人家几十年民
意调查的技术是吃干饭的啊。。。 |
r****y 发帖数: 524 | 8 今年的选举可能和以往的版图大不相同,因为传普并不是那种传统的共和党候选人,他
和红脖子没有那么近的感觉。同时他也许可能会赢一些意外的蓝州。 |
t******g 发帖数: 1815 | |
F********k 发帖数: 27 | 10 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
人家专家是怎么搞的。
==================================================================
澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测
与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结
果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。 |
|
|
l********7 发帖数: 2974 | 11 好的,多谢你的538网站信息。这些结果都是可以证伪、或者证实的。
我的结果完全可能错的很离谱,就当是胡说八道的笑话好了。
发信人: ForestMonk (林僧), 信区: DataSciences
标 题: Re: 【预测】2016年总统大选得票数
发信站: BBS 未名空间站 (Sun Oct 23 11:23:01 2016, 美东)
说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
人家专家是怎么搞的。
【在 F********k 的大作中提到】 : 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站: : http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast : 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站 : 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看 : 人家专家是怎么搞的。 : ================================================================== : 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测 : 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结 : 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。
|
l********7 发帖数: 2974 | 12 多谢,应该没有人这么理解,呵呵。
顺便我也把538网站的预测图贴一下,以便今后对比验证。
【在 F********k 的大作中提到】 : 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站: : http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast : 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站 : 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看 : 人家专家是怎么搞的。 : ================================================================== : 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测 : 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结 : 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。
|
l********7 发帖数: 2974 | 13 另外,个人评论一下poll-based的建模和预测。
这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选
民数目。
如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化,
定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。
【在 F********k 的大作中提到】 : 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站: : http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast : 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站 : 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看 : 人家专家是怎么搞的。 : ================================================================== : 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测 : 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结 : 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。
|
z***s 发帖数: 91 | 14 支持你一下!
【在 l********7 的大作中提到】 : 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会 : 以压倒性的优势,胜过Clinton,出任下一届美国总统。 : 下面是我做的一个定量模型预测的得票数结果。 : ------------------------ : 2016 美国总统选举得票数(Electoral Votes)预测: : ------------------------ : 总票数(Total Electoral Votes):538 : 可能的得票数范围: : Clinton:117 - 184 (21% - 35%) : Trump:354 - 421 (65% - 79%)
|
i****x 发帖数: 17565 | 15 Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都
是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接
拍脑袋吧。
【在 l********7 的大作中提到】 : 另外,个人评论一下poll-based的建模和预测。 : 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选 : 民数目。 : 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化, : 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。
|
c****h 发帖数: 20 | 16 一没有模型, 二没有数据. 就有结果, 算命的? 中国特色的 |
F********k 发帖数: 27 | 17 看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货
有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服
这信息量与杂讯量共存的问题。简单地说:
1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠
地堆积起来,然后再据此进行它自己的分析与预测。
2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。
3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分
细致。依各州选民的种族,性别,年龄来进行预测。
4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中,
Nate Silver 准确地预测了 99 个。
谢谢阁下从 538 网站转来的两张图。可是我最喜爱的其实下面这张分时
走势图。清楚地说明该网站对此次美国总统大选在各个不同时点的预测。
【在 l********7 的大作中提到】 : 另外,个人评论一下poll-based的建模和预测。 : 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选 : 民数目。 : 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化, : 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。
|
F********k 发帖数: 27 | 18 @icefox:All polls are "somewhat" biased。这是所有民意调查的基本共识。
好的民意预测分析师(像 Nate Silver)能堆叠所能收集到的所有 polls,滤除
杂讯,作出尽可能不偏倚的预测。根据 leibniz137 的说法,他也不是拍脑袋
得出的结果。我期待他对本帖能有所更新,将他的方法跟大家分享一下。
【在 i****x 的大作中提到】 : Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都 : 是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接 : 拍脑袋吧。
|
i****x 发帖数: 17565 | 19 没错。从时间走势图上能清楚看到以下关键时间点:
7/18-21 RNC,T上行直到一瞬间超过H
7/25-28 DNC,H飞速反扑直到87%胜率的峰值
9/11,H生病,T顺势攻城略地
9/26,first debate,T狂吠不知所云,H扭转颓势迅速上行
10/7-9,T pussy gate+second debate,T跌至谷底
10/19,third debate,T表现稍好,选情稳中略升
要知道NS的基本模型完全不加入任何新闻因素的影响,是纯粹的poll data驱动,但能
从其中看到新闻。这就是典型的data speaks
【在 F********k 的大作中提到】 : 看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货 : 有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服 : 这信息量与杂讯量共存的问题。简单地说: : 1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠 : 地堆积起来,然后再据此进行它自己的分析与预测。 : 2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。 : 3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分 : 细致。依各州选民的种族,性别,年龄来进行预测。 : 4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中, : Nate Silver 准确地预测了 99 个。
|
l********7 发帖数: 2974 | 20 首先,进一步说说我关于poll偏差,及加权建模的看法。
1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一
边倒的偏差时,这个如何处理?
2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越
差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎
么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。
其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测
的巨大差异:
(1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机
制处理和纠正这个关键的问题
(2)或许我的数据的偏差非常大 - 也许作为输入到我模型的Google Trend大数据并
不符合我的假设。这个假设即,我所用到的Google Trend数据“是显著无偏的”。尽管
分析预处理数据尽可能朝这个努力,不排除这个假设失效的可能性。
【在 F********k 的大作中提到】 : 看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货 : 有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服 : 这信息量与杂讯量共存的问题。简单地说: : 1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠 : 地堆积起来,然后再据此进行它自己的分析与预测。 : 2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。 : 3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分 : 细致。依各州选民的种族,性别,年龄来进行预测。 : 4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中, : Nate Silver 准确地预测了 99 个。
|
|
|
l********7 发帖数: 2974 | 21 我说的是,用小数据量,建模和估计高维参数空间分布的两难困境原理;而不是什么偏
差的问题。
你说的我的数据(google trends)可能是有偏、并非常显著,这个可能性是存在的。
这是我预测的所有潜在问题中,相对最可能的一个问题。
但我不是拍脑袋处理数据的,更不是拍脑袋给出结果的。
【在 i****x 的大作中提到】 : Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都 : 是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接 : 拍脑袋吧。
|
j*******r 发帖数: 412 | 22 楼主高人。不知道舞弊的因素有没有考虑,权重如何。
最后结果如果不一致,这也可能是证实和证伪的障碍。 |
x**l 发帖数: 2337 | |
x**l 发帖数: 2337 | |
D*********e 发帖数: 646 | 25 GoogleTrends主要反映的是Internet user的意志,偏向Trump是明显的。但是红蓝双方
大量选民可能都对Internet没有影响。相对来说,如果没有人为作假,各大民调数据来
源覆盖比GTrends要好得多。简单的从数据来源和基础假设来说,538的结果比你的更可
靠。
【在 l********7 的大作中提到】 : 首先,进一步说说我关于poll偏差,及加权建模的看法。 : 1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一 : 边倒的偏差时,这个如何处理? : 2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越 : 差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎 : 么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。 : 其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测 : 的巨大差异: : (1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机 : 制处理和纠正这个关键的问题
|
t******g 发帖数: 1815 | 26 能不能用一个州比如宾州为例解释一下为啥川普会赢这个州。 |
F********k 发帖数: 27 | 27 阁下今日的见解让我难以认同。首先,你说 "如果大多数新闻机构的 poll 呈
现一边倒的偏差时,这个如何处理?" 我搞不清楚上面这个陈述的前半段是个
疑问还是你观察的结论。如果是疑问,我的回答是 "大多数新闻机构的 poll
会有偏差。但不致于是一边倒的偏差"(原因容后详论)。如果是你观察的结论,
我反倒要请问你是如何观察(或测量)出 poll 中偏差的大小? 除非你有一客观
公正的方法测量出 poll 中偏差的大小,否则如何推论出 "大多数新闻机构的
poll 呈现一边倒的偏差" 这样的陈述?
现在回头来解释为何我说 "大多数新闻机构的 poll 会有偏差。但不致于是
一边倒的偏差"。美国大部分的新闻机构(电视台,报纸)都有其政治立场。
这是美国社会可以接受的常态。但是政治立场归政治立场,说到民意调查,
还是有其底限。这底限就是:数字不能作假。如果今天福斯电台电话访问了
1000 名合格选民,600 个说要投希拉蕊。它就不能指鹿为马,说川普的支持
率是 60%。在此限制之下,新闻机构最常动的手脚便是在取样(sampling)。
譬如福斯电台知道它的观众大多是共和党的支持者。如果它今天要做 Ohio
的 presidential polls,它会找出 Ohio 州该电视台的核心阅众。然后在
抽样时,多抽一些它核心阅众的电话进行调查。这样一来,就可以既不做假,
又营造出与电视台官方政治立场相符的 polls。
这是偏差吗?是!这会使得所有的 polls 都不可信吗?不致于!因为严谨的
polls 不是只报候选人的支持率。它还得详述受访者的种族,性别,年龄,
学历甚至登记的政党。有了这些讯息,厉害的统计学家(例如 Nate Silver),
就能据此降低,甚至剔除在取样过程中,有意无意所引入的偏差。
说到这里,就提到我的第二处不同意:阁下说 "Silver 的模型没有机制
处理和纠正这个关键的问题 (前述 polls 中的偏差)"。这是大错特错。
要知到老美用民调,统计来预测总统大选结果,早已行之有年,不是一朝
一夕之举。可前人从未像 Nate 一般,准确预测每一州的结果。Nate 的
独门功夫,便是藉由受访者讯息,以贝氏定理剔除在取样过程中,有意无
意所引入的偏差。
我看阁下之前的回文。好像在我提 Nate Silver 之前,你并不知此人背景。
结果忽然天外飞来一句 "Silver 的模型没有机制处理和纠正这个关键的问
题"。这话未免太托大,太以己度人了。更何况据我所知,他迄今并未公布
其模型中的数学细节。我是看了他的大著 "The Signal and the Noise"
才约略了解他操作的手法与数学依据。你侃侃而谈说 Silver 的模型如何
如何,实在没有说服力。
最后,阁下若有各州依你模型的结果预测,望君不吝公布分享。与君所言,
这件事(预测总统大选结果)要证伪,证实都是清清楚楚,半点虚假不来的。
看法。
新闻机
;数对数据的
加,需要
的理论原理
Silver模型预测的
倒的偏差 - 而Silver
#38382;题
【在 l********7 的大作中提到】 : 首先,进一步说说我关于poll偏差,及加权建模的看法。 : 1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一 : 边倒的偏差时,这个如何处理? : 2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越 : 差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎 : 么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。 : 其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测 : 的巨大差异: : (1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机 : 制处理和纠正这个关键的问题
|
k**i 发帖数: 10191 | 28 有趣.两周后来看.538的结果看起来不太令人信服.看看过去几百年美国总统不会连续被
一个政党把持3届的铁律能不能被希老太打破吧.话说美国这几十年,这一届的候选人是
最差的吧? |
Y****N 发帖数: 8694 | 29 garbage in, garbage out 的典型案例
【在 l********7 的大作中提到】 : 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会 : 以压倒性的优势,胜过Clinton,出任下一届美国总统。 : 下面是我做的一个定量模型预测的得票数结果。 : ------------------------ : 2016 美国总统选举得票数(Electoral Votes)预测: : ------------------------ : 总票数(Total Electoral Votes):538 : 可能的得票数范围: : Clinton:117 - 184 (21% - 35%) : Trump:354 - 421 (65% - 79%)
|
F********k 发帖数: 27 | 30 含泪同意。
是最差的吧?
【在 k**i 的大作中提到】 : 有趣.两周后来看.538的结果看起来不太令人信服.看看过去几百年美国总统不会连续被 : 一个政党把持3届的铁律能不能被希老太打破吧.话说美国这几十年,这一届的候选人是 : 最差的吧?
|
|
|
C******n 发帖数: 284 | 31 我觉得你可能不是很了解sampling and survey methodology;理论上小样本(n<1k)也
是可以得到unbiased estimate,样本量与variance之间的关系也不是线形的;你说的模
型优化可能是指已经收集到一个样本数据之后的事,但是即使如此,也可以引入
auxillary data来增加信息量,比如利用census data做 post-stratification,pool
data across multiple surveys, small area estimation, etc.
【在 l********7 的大作中提到】 : 另外,个人评论一下poll-based的建模和预测。 : 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选 : 民数目。 : 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化, : 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。
|
S*********n 发帖数: 387 | 32 我的数据来源于美新版的帖子,经过七七四十九天的运算,穷尽八八六十四卦,川大大
99%,老太婆1%
【在 Y****N 的大作中提到】 : garbage in, garbage out 的典型案例
|
D*********e 发帖数: 646 | 33 538的概率已经从85-15变成65-35,直观上非常符合最近的行情变化。楼主你的model现
在是什么结果? |
l********7 发帖数: 2974 | 34 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会
以压倒性的优势,胜过Clinton,出任下一届美国总统。
下面是我做的一个定量模型预测的得票数结果。
------------------------
2016 美国总统选举得票数(Electoral Votes)预测:
------------------------
总票数(Total Electoral Votes):538
可能的得票数范围:
Clinton:117 - 184 (21% - 35%)
Trump:354 - 421 (65% - 79%)
最可能或者平均期望得票数范围:
Clinton:149 - 156 (27% - 29%)
Trump:382 - 389 (71% - 73%)
顺便提一下对Clinton最有利、对Trump最不利的两个州:
首先,Mississippi,Clinton最有可能取胜,Trump最有可能失利。
其次,Iowa,Clinton也有较大胜算,Trump的胜算较低。
(注意:模型给出的这两个州的结果,没有基于任何政治方面的因素和信息)
立帖为证,拭目以待大选结果的证实、或者证伪,呵呵。
【声明】:希望不要讨论太多政治观点(比如Trump如何如何,Hillary如何如何),因
为这些没必要,也不是本贴关心的重点。 |
l********7 发帖数: 2974 | 35 另外说明一下:
1、我的结果是基于:大数据(Google Trends) + 简单的模型和算法。
2、模型基本不需要任何的参数调节,或者说对参数调节有非常可靠的鲁棒性。 |
l********7 发帖数: 2974 | 36 昨天,我得出上面的预测结果后,出于好奇,上网搜索了关于今年大选的(基于客观和
科学方法的)预测,竟然找到一个非常有趣的结果。
Prof. Allan Lichtman, Distinguished Professor Of History At American 原来早
就做过自己的预测。他从1984年开始,已经用他的理论成功预测了至今为止的所有8次
美国竞选的结果。不过他的预测和我的不同之处在于,他只做二值分类预测,不做得票
数的定量预测。比如,这是他2006年发表的关于2008年竞选结果的预测论文:
http://previsaosimples.pbworks.com/w/file/fetch/55120417/Samohyl%20-%202006%20-%20The%20International%20Journal%20of%20Applied%20Forecasting.pdf#page=7
还有他2012年关于成功预测的讨论:
https://forecasters.org/wp-content/uploads/Oracle_Dec2012.pdf
看看他对今年大选的预测吧:
Who Will Win The 2016 U.S. Presidential Election?
Election Forecasting Guru Allan Lichtman Predicts Donald Trump Will Win 2016
Election |
R*********4 发帖数: 293 | 37 我预测很简单
希拉里 300+
床铺 160+
( ̄▽ ̄)",我就回帖为证吧。 |
M****g 发帖数: 52 | |
s**********r 发帖数: 286 | 39 Mississippi是传统红州,如果希婆赢下,说明老床不妙。能否把你模式中各州的预测
结果分享一下? |
d******t 发帖数: 216 | 40 如果希赢就是blowout,如果川赢就是险胜,不可能两头都blowout,你当人家几十年民
意调查的技术是吃干饭的啊。。。 |
|
|
r****y 发帖数: 524 | 41 今年的选举可能和以往的版图大不相同,因为传普并不是那种传统的共和党候选人,他
和红脖子没有那么近的感觉。同时他也许可能会赢一些意外的蓝州。 |
t******g 发帖数: 1815 | |
F********k 发帖数: 27 | 43 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
人家专家是怎么搞的。
==================================================================
澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测
与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结
果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。 |
l********7 发帖数: 2974 | 44 好的,多谢你的538网站信息。这些结果都是可以证伪、或者证实的。
我的结果完全可能错的很离谱,就当是胡说八道的笑话好了。
发信人: ForestMonk (林僧), 信区: DataSciences
标 题: Re: 【预测】2016年总统大选得票数
发信站: BBS 未名空间站 (Sun Oct 23 11:23:01 2016, 美东)
说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站:
http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast
我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站
关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看
人家专家是怎么搞的。
【在 F********k 的大作中提到】 : 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站: : http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast : 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站 : 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看 : 人家专家是怎么搞的。 : ================================================================== : 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测 : 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结 : 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。
|
l********7 发帖数: 2974 | 45 多谢,应该没有人这么理解,呵呵。
顺便我也把538网站的预测图贴一下,以便今后对比验证。
【在 F********k 的大作中提到】 : 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站: : http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast : 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站 : 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看 : 人家专家是怎么搞的。 : ================================================================== : 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测 : 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结 : 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。
|
l********7 发帖数: 2974 | 46 另外,个人评论一下poll-based的建模和预测。
这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选
民数目。
如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化,
定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。
【在 F********k 的大作中提到】 : 说到预测2016年总统大选得票数,怎能不提到 Nate Silver 的 538 网站: : http://projects.fivethirtyeight.com/2016-election-forecast/?ex_cid=2016-senate-forecast : 我不是川粉,希粉。可我是内粉呀。我要在 11 月 7 日晚间将 538 网站 : 关于总统大选得票数的最后预测贴上来。让版上这些胡说八道的假货看看 : 人家专家是怎么搞的。 : ================================================================== : 澄清:我不是骂开帖的 leibniz137 (莱布尼兹) 是假货。虽然他的预测 : 与 538 网站大相迳庭。可人家已经说是他自己建模分析预测的结 : 果。在此立帖为证。不管准不准,起码他的胸襟是坦坦荡荡的。
|
z***s 发帖数: 91 | 47 支持你一下!
【在 l********7 的大作中提到】 : 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会 : 以压倒性的优势,胜过Clinton,出任下一届美国总统。 : 下面是我做的一个定量模型预测的得票数结果。 : ------------------------ : 2016 美国总统选举得票数(Electoral Votes)预测: : ------------------------ : 总票数(Total Electoral Votes):538 : 可能的得票数范围: : Clinton:117 - 184 (21% - 35%) : Trump:354 - 421 (65% - 79%)
|
i****x 发帖数: 17565 | 48 Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都
是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接
拍脑袋吧。
【在 l********7 的大作中提到】 : 另外,个人评论一下poll-based的建模和预测。 : 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选 : 民数目。 : 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化, : 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。
|
c****h 发帖数: 20 | 49 一没有模型, 二没有数据. 就有结果, 算命的? 中国特色的 |
F********k 发帖数: 27 | 50 看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货
有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服
这信息量与杂讯量共存的问题。简单地说:
1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠
地堆积起来,然后再据此进行它自己的分析与预测。
2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。
3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分
细致。依各州选民的种族,性别,年龄来进行预测。
4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中,
Nate Silver 准确地预测了 99 个。
谢谢阁下从 538 网站转来的两张图。可是我最喜爱的其实下面这张分时
走势图。清楚地说明该网站对此次美国总统大选在各个不同时点的预测。
【在 l********7 的大作中提到】 : 另外,个人评论一下poll-based的建模和预测。 : 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选 : 民数目。 : 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化, : 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。
|
|
|
F********k 发帖数: 27 | 51 @icefox:All polls are "somewhat" biased。这是所有民意调查的基本共识。
好的民意预测分析师(像 Nate Silver)能堆叠所能收集到的所有 polls,滤除
杂讯,作出尽可能不偏倚的预测。根据 leibniz137 的说法,他也不是拍脑袋
得出的结果。我期待他对本帖能有所更新,将他的方法跟大家分享一下。
【在 i****x 的大作中提到】 : Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都 : 是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接 : 拍脑袋吧。
|
i****x 发帖数: 17565 | 52 没错。从时间走势图上能清楚看到以下关键时间点:
7/18-21 RNC,T上行直到一瞬间超过H
7/25-28 DNC,H飞速反扑直到87%胜率的峰值
9/11,H生病,T顺势攻城略地
9/26,first debate,T狂吠不知所云,H扭转颓势迅速上行
10/7-9,T pussy gate+second debate,T跌至谷底
10/19,third debate,T表现稍好,选情稳中略升
要知道NS的基本模型完全不加入任何新闻因素的影响,是纯粹的poll data驱动,但能
从其中看到新闻。这就是典型的data speaks
【在 F********k 的大作中提到】 : 看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货 : 有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服 : 这信息量与杂讯量共存的问题。简单地说: : 1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠 : 地堆积起来,然后再据此进行它自己的分析与预测。 : 2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。 : 3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分 : 细致。依各州选民的种族,性别,年龄来进行预测。 : 4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中, : Nate Silver 准确地预测了 99 个。
|
l********7 发帖数: 2974 | 53 首先,进一步说说我关于poll偏差,及加权建模的看法。
1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一
边倒的偏差时,这个如何处理?
2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越
差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎
么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。
其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测
的巨大差异:
(1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机
制处理和纠正这个关键的问题
(2)或许我的数据的偏差非常大 - 也许作为输入到我模型的Google Trend大数据并
不符合我的假设。这个假设即,我所用到的Google Trend数据“是显著无偏的”。尽管
分析预处理数据尽可能朝这个努力,不排除这个假设失效的可能性。
【在 F********k 的大作中提到】 : 看阁下进一步的发言,便知是此间行家。与本论坛美国新闻版上的众假货 : 有云泥之别。如果我的了解正确,Nate Silver 的预测手法就是试图克服 : 这信息量与杂讯量共存的问题。简单地说: : 1. 538 网站从来不自己作民调。它是将其他新闻机构所作的民调层层叠叠 : 地堆积起来,然后再据此进行它自己的分析与预测。 : 2. 数学理论方面,其实就是高中程度的贝氏定理(Bayesian Theory)。 : 3. Nate Silver 厉害的地方便是将贝氏定理的条件机率的部分玩转地十分 : 细致。依各州选民的种族,性别,年龄来进行预测。 : 4. Obama 的两次总统选举,51 个选区(50州+DC特区)共 102 个样本点中, : Nate Silver 准确地预测了 99 个。
|
l********7 发帖数: 2974 | 54 我说的是,用小数据量,建模和估计高维参数空间分布的两难困境原理;而不是什么偏
差的问题。
你说的我的数据(google trends)可能是有偏、并非常显著,这个可能性是存在的。
这是我预测的所有潜在问题中,相对最可能的一个问题。
但我不是拍脑袋处理数据的,更不是拍脑袋给出结果的。
【在 i****x 的大作中提到】 : Nate silver 08年至今所有的总统大选和中期选举都是50州至少预测对49个的水平,都 : 是poll based。你说poll是biased的,结果恐怕是改用了更biased的input,甚至直接 : 拍脑袋吧。
|
j*******r 发帖数: 412 | 55 楼主高人。不知道舞弊的因素有没有考虑,权重如何。
最后结果如果不一致,这也可能是证实和证伪的障碍。 |
x**l 发帖数: 2337 | |
x**l 发帖数: 2337 | |
D*********e 发帖数: 646 | 58 GoogleTrends主要反映的是Internet user的意志,偏向Trump是明显的。但是红蓝双方
大量选民可能都对Internet没有影响。相对来说,如果没有人为作假,各大民调数据来
源覆盖比GTrends要好得多。简单的从数据来源和基础假设来说,538的结果比你的更可
靠。
【在 l********7 的大作中提到】 : 首先,进一步说说我关于poll偏差,及加权建模的看法。 : 1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一 : 边倒的偏差时,这个如何处理? : 2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越 : 差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎 : 么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。 : 其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测 : 的巨大差异: : (1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机 : 制处理和纠正这个关键的问题
|
t******g 发帖数: 1815 | 59 能不能用一个州比如宾州为例解释一下为啥川普会赢这个州。 |
F********k 发帖数: 27 | 60 阁下今日的见解让我难以认同。首先,你说 "如果大多数新闻机构的 poll 呈
现一边倒的偏差时,这个如何处理?" 我搞不清楚上面这个陈述的前半段是个
疑问还是你观察的结论。如果是疑问,我的回答是 "大多数新闻机构的 poll
会有偏差。但不致于是一边倒的偏差"(原因容后详论)。如果是你观察的结论,
我反倒要请问你是如何观察(或测量)出 poll 中偏差的大小? 除非你有一客观
公正的方法测量出 poll 中偏差的大小,否则如何推论出 "大多数新闻机构的
poll 呈现一边倒的偏差" 这样的陈述?
现在回头来解释为何我说 "大多数新闻机构的 poll 会有偏差。但不致于是
一边倒的偏差"。美国大部分的新闻机构(电视台,报纸)都有其政治立场。
这是美国社会可以接受的常态。但是政治立场归政治立场,说到民意调查,
还是有其底限。这底限就是:数字不能作假。如果今天福斯电台电话访问了
1000 名合格选民,600 个说要投希拉蕊。它就不能指鹿为马,说川普的支持
率是 60%。在此限制之下,新闻机构最常动的手脚便是在取样(sampling)。
譬如福斯电台知道它的观众大多是共和党的支持者。如果它今天要做 Ohio
的 presidential polls,它会找出 Ohio 州该电视台的核心阅众。然后在
抽样时,多抽一些它核心阅众的电话进行调查。这样一来,就可以既不做假,
又营造出与电视台官方政治立场相符的 polls。
这是偏差吗?是!这会使得所有的 polls 都不可信吗?不致于!因为严谨的
polls 不是只报候选人的支持率。它还得详述受访者的种族,性别,年龄,
学历甚至登记的政党。有了这些讯息,厉害的统计学家(例如 Nate Silver),
就能据此降低,甚至剔除在取样过程中,有意无意所引入的偏差。
说到这里,就提到我的第二处不同意:阁下说 "Silver 的模型没有机制
处理和纠正这个关键的问题 (前述 polls 中的偏差)"。这是大错特错。
要知到老美用民调,统计来预测总统大选结果,早已行之有年,不是一朝
一夕之举。可前人从未像 Nate 一般,准确预测每一州的结果。Nate 的
独门功夫,便是藉由受访者讯息,以贝氏定理剔除在取样过程中,有意无
意所引入的偏差。
我看阁下之前的回文。好像在我提 Nate Silver 之前,你并不知此人背景。
结果忽然天外飞来一句 "Silver 的模型没有机制处理和纠正这个关键的问
题"。这话未免太托大,太以己度人了。更何况据我所知,他迄今并未公布
其模型中的数学细节。我是看了他的大著 "The Signal and the Noise"
才约略了解他操作的手法与数学依据。你侃侃而谈说 Silver 的模型如何
如何,实在没有说服力。
最后,阁下若有各州依你模型的结果预测,望君不吝公布分享。与君所言,
这件事(预测总统大选结果)要证伪,证实都是清清楚楚,半点虚假不来的。
看法。
新闻机
;数对数据的
加,需要
的理论原理
Silver模型预测的
倒的偏差 - 而Silver
#38382;题
【在 l********7 的大作中提到】 : 首先,进一步说说我关于poll偏差,及加权建模的看法。 : 1、各美国新闻机构的poll偏差的程度如何?尤其,如果大多数新闻机构的poll呈现一 : 边倒的偏差时,这个如何处理? : 2、加权参数越多,引入的模型偏差越大,具体就是模型参数对数据的偏差鲁棒性就越 : 差。所以,参数增加导致的模型复杂度增加,需要相应的大数据量增加来消除偏差。怎 : 么增加?从一般性的理论原理来看,也符合所谓的“无免费午餐原理”。 : 其次,存在两种可能的理论假设,似乎可以解释我的模型预测和Nate Silver模型预测 : 的巨大差异: : (1)或许今年的大多数新闻机构的poll呈现一边倒的偏差 - 而Silver的模型没有机 : 制处理和纠正这个关键的问题
|
|
|
k**i 发帖数: 10191 | 61 有趣.两周后来看.538的结果看起来不太令人信服.看看过去几百年美国总统不会连续被
一个政党把持3届的铁律能不能被希老太打破吧.话说美国这几十年,这一届的候选人是
最差的吧? |
Y****N 发帖数: 8694 | 62 garbage in, garbage out 的典型案例
【在 l********7 的大作中提到】 : 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会 : 以压倒性的优势,胜过Clinton,出任下一届美国总统。 : 下面是我做的一个定量模型预测的得票数结果。 : ------------------------ : 2016 美国总统选举得票数(Electoral Votes)预测: : ------------------------ : 总票数(Total Electoral Votes):538 : 可能的得票数范围: : Clinton:117 - 184 (21% - 35%) : Trump:354 - 421 (65% - 79%)
|
F********k 发帖数: 27 | 63 含泪同意。
是最差的吧?
【在 k**i 的大作中提到】 : 有趣.两周后来看.538的结果看起来不太令人信服.看看过去几百年美国总统不会连续被 : 一个政党把持3届的铁律能不能被希老太打破吧.话说美国这几十年,这一届的候选人是 : 最差的吧?
|
C******n 发帖数: 284 | 64 我觉得你可能不是很了解sampling and survey methodology;理论上小样本(n<1k)也
是可以得到unbiased estimate,样本量与variance之间的关系也不是线形的;你说的模
型优化可能是指已经收集到一个样本数据之后的事,但是即使如此,也可以引入
auxillary data来增加信息量,比如利用census data做 post-stratification,pool
data across multiple surveys, small area estimation, etc.
【在 l********7 的大作中提到】 : 另外,个人评论一下poll-based的建模和预测。 : 这所有的poll,都存在一个关键的问题:取样数据量太小,而现实的结果是上亿的的选 : 民数目。 : 如果几千样本点建模,永远面临bias-vs-variance的问题,不管你的模型如何优化, : 定量都会和现实结果差距非常大。理论原理就是,小数据量只能给出你有限的信息量。
|
S*********n 发帖数: 387 | 65 我的数据来源于美新版的帖子,经过七七四十九天的运算,穷尽八八六十四卦,川大大
99%,老太婆1%
【在 Y****N 的大作中提到】 : garbage in, garbage out 的典型案例
|
D*********e 发帖数: 646 | 66 538的概率已经从85-15变成65-35,直观上非常符合最近的行情变化。楼主你的model现
在是什么结果? |
F********k 发帖数: 27 | 67 已经是周日晚。原 LZ -- leibniz137 (莱布尼兹) 没敢再
更新他自己的模式。估计又是一名忽悠侠。我依原计划会
于明晚(11月7日)在此上贴 538 网站最终预测结果。
选举结果公布之后,再贴一帖来比对 Nate
Silver 今年预
测的准确率如何。 |
D*********e 发帖数: 646 | 68 这位大师好好笑。莱布尼兹的结果再不准好歹自己动手做的,您贴538的结果算怎么回
事儿?当别人上不了网吗
【在 F********k 的大作中提到】 : 已经是周日晚。原 LZ -- leibniz137 (莱布尼兹) 没敢再 : 更新他自己的模式。估计又是一名忽悠侠。我依原计划会 : 于明晚(11月7日)在此上贴 538 网站最终预测结果。 : 选举结果公布之后,再贴一帖来比对 Nate : Silver 今年预 : 测的准确率如何。
|
k**i 发帖数: 10191 | 69 明天就揭晓了。另外楼上别太mean了,这些模型准和不准,就是一乐呵的事,你那么叫
真做啥。 |
F********k 发帖数: 27 | 70 兄台莫笑。贴538的结果因为∶
1. 我是 Nate Silver 的粉丝.
2. 本论坛上一群人压根儿没听过 538. 我想
quote 高水准的的来源给大家长长见识。
我今天也会野人□曝一下,贴自己的预测结果。
不了网吗
【在 D*********e 的大作中提到】 : 这位大师好好笑。莱布尼兹的结果再不准好歹自己动手做的,您贴538的结果算怎么回 : 事儿?当别人上不了网吗
|
|
|
F********k 发帖数: 27 | |
l********7 发帖数: 2974 | 72 http://www.mitbbs.com/article/USANews/32501625_0.html
发信人: leibniz137 (莱布尼兹), 信区: USANews
标 题: Re: 【2016总统大选得票数预测】不讲政治,但是客观数据告诉我
发信站: BBS 未名空间站 (Sun Nov 6 22:50:46 2016, 美东)
用了更新到昨天的数据,结果没实质性差别,就不更新了。
Congrats to President Trump 2016!
+++++++++++++++++++++++++++++++++++++++++++++++++++
【在 F********k 的大作中提到】 : http://www.mitbbs.com/article_t0/DataSciences/21415.html
|
l********7 发帖数: 2974 | 73 我的定量结果被证伪了。
而我的数据本身所显示的分类(classification)模式,比媒体polling bias小得多,
Trump大概率取胜在数据里呈现的非常清晰。
所以,我猜测我模型的问题出在variance上,这个非常合理。我一个晚上,加半个周末
搞的结果,模型非常简单一般化。
【在 D*********e 的大作中提到】 : 这位大师好好笑。莱布尼兹的结果再不准好歹自己动手做的,您贴538的结果算怎么回 : 事儿?当别人上不了网吗
|
l********7 发帖数: 2974 | 74 不是不敢,我没那么多时间。我就一两天做的好玩的模型。
Nate Silver 做了多久?连Trump大概率取胜这个定性结果他都没预测准,大选前一天
Trump只有29%胜率?LOL!
【在 F********k 的大作中提到】 : http://www.mitbbs.com/article_t0/DataSciences/21415.html
|
l********7 发帖数: 2974 | 75 大错特错。。。
Nice long “theory" - thanks!
:处理和纠正这个关键的问题 (前述 polls 中的偏差)"。这是大错特错。
【在 F********k 的大作中提到】 : http://www.mitbbs.com/article_t0/DataSciences/21415.html
|
t****g 发帖数: 120 | 76 楼主的预测的结果已经很了不起了!如果引入Bayesian's prior probability of 红州
蓝州,可能预测结果的Mean会更好! |
l********7 发帖数: 2974 | 77 那你,帮主流媒体这么多polling/sampling/survey专业人士解释下,这次对Trump的
poll,他们为啥如此牛逼咯。。。LOL!
pool
【在 C******n 的大作中提到】 : 我觉得你可能不是很了解sampling and survey methodology;理论上小样本(n<1k)也 : 是可以得到unbiased estimate,样本量与variance之间的关系也不是线形的;你说的模 : 型优化可能是指已经收集到一个样本数据之后的事,但是即使如此,也可以引入 : auxillary data来增加信息量,比如利用census data做 post-stratification,pool : data across multiple surveys, small area estimation, etc.
|
l********7 发帖数: 2974 | 78 舞弊的因素没有考虑,考虑这些只会加入更多的偏差和模型复杂度,个人不认为是个特
别必要的trade-off策略。
【在 j*******r 的大作中提到】 : 楼主高人。不知道舞弊的因素有没有考虑,权重如何。 : 最后结果如果不一致,这也可能是证实和证伪的障碍。
|
l********7 发帖数: 2974 | 79 我的建模基本思想就是想尽可能地避免bias,所以没加入任何prior info。
不过你这个建议也是可以考虑,以后有空试试;关键难点是如何客观地引入这个prior
bias,而且这么做很反而容易使得模型对新”经验“的学习和弹朔性降低。所以这是个
双刃剑。
【在 t****g 的大作中提到】 : 楼主的预测的结果已经很了不起了!如果引入Bayesian's prior probability of 红州 : 蓝州,可能预测结果的Mean会更好!
|
w***g 发帖数: 5958 | 80 过来膜拜一下.
【在 l********7 的大作中提到】 : 这里有人自己建模分析预测今年大选结果么?不讲政治,但是客观数据告诉我Trump会 : 以压倒性的优势,胜过Clinton,出任下一届美国总统。 : 下面是我做的一个定量模型预测的得票数结果。 : ------------------------ : 2016 美国总统选举得票数(Electoral Votes)预测: : ------------------------ : 总票数(Total Electoral Votes):538 : 可能的得票数范围: : Clinton:117 - 184 (21% - 35%) : Trump:354 - 421 (65% - 79%)
|
|
|
l********7 发帖数: 2974 | 81 见笑了,我预测的票数错得比较离谱,呵呵。
记得好像您是编程、还是哪个版的,也做机器学习的吧
【在 w***g 的大作中提到】 : 过来膜拜一下.
|