大数据时代的最大挑战(一）? - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 大数据时代的最大挑战(一）?

相关主题
● 报面筋求实习合租 (转载)	● Colah 关于 neural network 的一篇博客
● 用10-fold cross-validation 之后怎么挑Model？	● PCA拟合问题
● 我觉得neural network应用范围不大啊	● 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)
● SE/Data scientist找工作总结[F/G/L/T/D/P/U…] (转载)	● 怎么处理categorical variable有很多个level的
● 一个面试题（predictive model） (转载)	● 请问关于小的dataset evaluation的问题
● 最近deep learning那么火	● 请教一道面试题
● kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?	● 请教如何用matlab贝叶斯方法拟合曲线(Bayesian for curve fitting)?
● 一般data scientist都是什么背景，一定要phd吗？	● 困惑：用cross validationce 来评估performance的时候，还需要把原始的dataset区分为train 和test吗？

相关话题的讨论汇总
话题: data话题: 数据话题: 此文话题: miners话题: 文中

进入DataSciences版参与讨论

1

(共1页)

l******o 发帖数: 52	1 挑战一: 数据挖掘者的陷阱或"愚蠢把戏"。海量数据，"大数据"，和高频数据---由 “Big Data” 说开去之二这个"愚蠢把戏"是直译。见下文： http://bit.ly/StpdDtMnrTrck 文中有更加强烈的用词，像”evil data miners”，不过也还有的放矢，我们再做解释。.此文发表于 The Journal of Investing 2007年第1期。大家可以验证一下此文的出处： Leinweber, David J. "Stupid data miner tricks: overfitting the S&P 500." The Journal of Investing 16.1 (2007): 15-22. 在“Big Data”热潮涌动的今天，似乎人人都要学习机器学习，数据发掘，文中论点仍然振聋发聩，现摘要一下： “The new data miners pore over large, diffuse sets of raw data trying to discern patterns that would otherwise go undetected.... <> ...（A) good (and real) example of how data mining can work well, （is） when it is applied to extracting a simple pattern from a large data set... <> The dark side of data mining is to pick and choose from a large set of data to try to explain a small one.” 文中主要提到了两个问题，一是用复杂模型去拟合（或过度拟合）数据，另一个是大海捞针回归法（用海量数据拟合少量数据）的弊端。虽然有运用数据过简之嫌，但文中给出了一个石破天惊的回归实例：标普500 和以下三个序列的99%相关度： 1. 孟加拉的黄油产量；2. 美国芝士产量；3.美国和孟加拉的绵羊总数作者继续指出： ”Evil data miners often specialized in “explaining” financial data, especially the US stock market“，就好像那些 “superball effect” 之类的。而且，”When data mining techniques are used to scour a vast selection of data to explain a small piece of financial market history, the results are often ridiculous.” 笔者对类似问题，一直有同感。读完此文之后，更茅塞顿开。以此和其它相关研究成果，我想提出“大数据时代”的第一大挑战：如何避免盲目数据挖掘和罪恶数据挖掘者（挖）的陷阱？以此文抛砖引玉，与大家共同探讨！
l******o 发帖数: 52	2 更正：倒数第八行中"superball effect" 应是“super bowl effect”，拼写错误。关于 “super bowl effect”，可查阅 http://bit.ly/SprBl_Ind
l******o 发帖数: 52	3 有兴趣的同好可以读一下这篇文章，总结一下作者建议的避免初学者陷阱和别人设的陷阱的办法？可能对初学者和准备面试的人有用。另外，对于自己或朋友投资，怎么看别人给的回归测试，也可能有用。 http://bit.ly/StpdDtMnrTrck
g********s 发帖数: 3652	4 感谢分享！
P*****6 发帖数: 273	5 你这个问题做数据分析干一段时间都知道，就是high-dimension变量和/或 multiple tests的问题. 有统计的，和domain knowledge 的方法来检测和矫正，如果是真心为结果负责的话。 ." 【在 l******o 的大作中提到】 : 挑战一: 数据挖掘者的陷阱或"愚蠢把戏"。 : 海量数据，"大数据"，和高频数据---由 “Big Data” 说开去之二 : 这个"愚蠢把戏"是直译。见下文： : http://bit.ly/StpdDtMnrTrck : 文中有更加强烈的用词，像”evil data miners”，不过也还有的放矢，我们再做解释 : 。.此文发表于 The Journal of Investing 2007年第1期。大家可以验证一下此文的出 : 处： : Leinweber, David J. "Stupid data miner tricks: overfitting the S&P 500." : The Journal of Investing 16.1 (2007): 15-22. : 在“Big Data”热潮涌动的今天，似乎人人都要学习机器学习，数据发掘，文中论点仍

1

(共1页)

进入DataSciences版参与讨论

相关主题
● 困惑：用cross validationce 来评估performance的时候，还需要把原始的dataset区分为train 和test吗？	● 一个面试题（predictive model） (转载)
● 究竟stacking是怎么做的	● 最近deep learning那么火
● Re: 请问大数据问题和以前的数据挖掘有什么区别？ (转载)	● kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
● 数据科学就是大数据应用?	● 一般data scientist都是什么背景，一定要phd吗？
● 报面筋求实习合租 (转载)	● Colah 关于 neural network 的一篇博客
● 用10-fold cross-validation 之后怎么挑Model？	● PCA拟合问题
● 我觉得neural network应用范围不大啊	● 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)
● SE/Data scientist找工作总结[F/G/L/T/D/P/U…] (转载)	● 怎么处理categorical variable有很多个level的

相关话题的讨论汇总
话题: data话题: 数据话题: 此文话题: miners话题: 文中

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)