由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 大数据时代的最大挑战(一)?
相关主题
报面筋求实习合租 (转载)Colah 关于 neural network 的一篇博客
用10-fold cross-validation 之后怎么挑Model?PCA拟合问题
我觉得neural network应用范围不大啊做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)
SE/Data scientist找工作总结[F/G/L/T/D/P/U…] (转载)怎么处理categorical variable有很多个level的
一个面试题(predictive model) (转载)请问关于小的dataset evaluation的问题
最近deep learning那么火请教一道面试题
kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?请教如何用matlab贝叶斯方法拟合曲线(Bayesian for curve fitting)?
一般data scientist都是什么背景,一定要phd吗?困惑: 用cross validationce 来评估performance的时候,还需要把原始的dataset区分为train 和test吗?
相关话题的讨论汇总
话题: data话题: 数据话题: 此文话题: miners话题: 文中
进入DataSciences版参与讨论
1 (共1页)
l******o
发帖数: 52
1
挑战一: 数据挖掘者的陷阱或"愚蠢把戏"。
海量数据,"大数据",和高频数据---由 “Big Data” 说开去之二
这个"愚蠢把戏"是直译。见下文:
http://bit.ly/StpdDtMnrTrck
文中有更加强烈的用词,像”evil data miners”,不过也还有的放矢,我们再做解释
。.此文发表于 The Journal of Investing 2007年第1期。大家可以验证一下此文的出
处:
Leinweber, David J. "Stupid data miner tricks: overfitting the S&P 500."
 The Journal of Investing 16.1 (2007): 15-22.
在“Big Data”热潮涌动的今天,似乎人人都要学习机器学习,数据发掘,文中论点仍
然振聋发聩,现摘要一下:
“The new data miners pore over large, diffuse sets of raw data trying to
discern patterns that would otherwise go undetected....
<> ...(A) good (and real) example of how data mining can work well, (is)
when it is applied to extracting a simple pattern from a large data set...
<> The dark side of data mining is to pick and choose from a large set of
data to try to explain a small one.”
文中主要提到了两个问题,一是用复杂模型去拟合(或过度拟合)数据,另一个是大海
捞针回归法(用海量数据拟合少量数据)的弊端。虽然有运用数据过简之嫌,但文中给
出了一个石破天惊的回归实例:标普500 和以下三个序列的99%相关度:
1. 孟加拉的黄油产量;2. 美国芝士产量;3.美国和孟加拉的绵羊总数
作者继续指出:
”Evil data miners often specialized in “explaining” financial data,
especially the US stock market“, 就好像那些 “superball effect” 之类的。
而且,”When data mining techniques are used to scour a vast selection of
data to explain a small piece of financial market history, the results are
often ridiculous.”
笔者对类似问题,一直有同感。读完此文之后,更茅塞顿开。以此和其它相关研究成果
,我想提出“大数据时代”的第一大挑战: 如何避免盲目数据挖掘和罪恶数据挖掘者
(挖)的陷阱?
以此文抛砖引玉,与大家共同探讨!
l******o
发帖数: 52
2
更正: 倒数第八行中"superball effect" 应是“super bowl effect”,拼写错误。
关于 “super bowl effect”,可查阅
http://bit.ly/SprBl_Ind
l******o
发帖数: 52
3
有兴趣的同好可以读一下这篇文章,总结一下作者建议的避免初学者陷阱和别人设的陷
阱的办法?可能对初学者和准备面试的人有用。另外,对于自己或朋友投资,怎么看别
人给的回归测试,也可能有用。
http://bit.ly/StpdDtMnrTrck
g********s
发帖数: 3652
4
感谢分享!
P*****6
发帖数: 273
5
你这个问题做数据分析干一段时间都知道,就是high-dimension变量和/或 multiple
tests的问题.
有统计的,和domain knowledge 的方法来检测和矫正,如果是真心为结果负责的话。

."

【在 l******o 的大作中提到】
: 挑战一: 数据挖掘者的陷阱或"愚蠢把戏"。
: 海量数据,"大数据",和高频数据---由 “Big Data” 说开去之二
: 这个"愚蠢把戏"是直译。见下文:
: http://bit.ly/StpdDtMnrTrck
: 文中有更加强烈的用词,像”evil data miners”,不过也还有的放矢,我们再做解释
: 。.此文发表于 The Journal of Investing 2007年第1期。大家可以验证一下此文的出
: 处:
: Leinweber, David J. "Stupid data miner tricks: overfitting the S&P 500."
:  The Journal of Investing 16.1 (2007): 15-22.
: 在“Big Data”热潮涌动的今天,似乎人人都要学习机器学习,数据发掘,文中论点仍

1 (共1页)
进入DataSciences版参与讨论
相关主题
困惑: 用cross validationce 来评估performance的时候,还需要把原始的dataset区分为train 和test吗?一个面试题(predictive model) (转载)
究竟stacking是怎么做的最近deep learning那么火
Re: 请问大数据问题和以前的数据挖掘有什么区别? (转载)kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
数据科学就是大数据应用?一般data scientist都是什么背景,一定要phd吗?
报面筋求实习合租 (转载)Colah 关于 neural network 的一篇博客
用10-fold cross-validation 之后怎么挑Model?PCA拟合问题
我觉得neural network应用范围不大啊做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)
SE/Data scientist找工作总结[F/G/L/T/D/P/U…] (转载)怎么处理categorical variable有很多个level的
相关话题的讨论汇总
话题: data话题: 数据话题: 此文话题: miners话题: 文中