现在的大数据技术的价值和功用有些被夸大了 - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 现在的大数据技术的价值和功用有些被夸大了

相关主题
● 求Google 的 Data Science 有关的位置内推 (转载)	● 请问DS的面试主要要准备什么？
● Data scientist / Machine Learning Engineer 相关面试题 (转载)	● 内推 - Data scientist Or Consultant (医药咨询领域)
● 刚入行新人的两个问题	● 求教! how to run python programs on a hadoop cluster
● 请问哪些算法是可以用python写的，然后输入PMML	● Data Scientist的编程能力
● 回馈本版~ 最近面的面经和收集来的面经~	● 求handle missing data的好方法
● Looking for a Data Scientist	● 有人考虑过kaggle上这个预测CTR的题目么？
● hive 里面的UDF会被几个node同时运行么？	● 我想写个survey报告关于KNN classification algorithms
● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？	● spark 问题

相关话题的讨论汇总
话题: 数据话题: data话题: 整理话题: big话题: reduce

进入DataSciences版参与讨论

(共1页)

n****n
发帖数: 11

现在大家都说大数据，个人翻了翻一些资料，发现相关的内容大致有两类：
１－Map-Reduce：就是用所谓的Pig /Hive/Hbase来调用Hadoop系统里众多Cluster的一
个不断搜索，查询，分类和整理的过程。这个过程的性质和现在大家普遍所熟悉的ＳＱ
Ｌ功能相似，只不过是针对更大的量（PB/TB）和更复杂的结构（来自Web log/网络交
易/Social/甚至物理终端设备）。所以Map + Reduce就是个便于在这些数据中不断查，
不断合并的过程。
整理完的结果可以生成现在的RDBMS（彻底淘汰RDBMS是需要相当勇气的）。也就是说，
基本上，一旦数据整理完成，还是依然可以采用现在的方式来做模型，Predictive
Modeling, Scoring, Forecasting.　该怎么，就怎么，方法和程序不会太变化。尤其
是在金融行业，面对行业准则和政府法规，很难有大的变化在这上面。可能影响到的职
业或许会是：Business Intelligent, DBA, Database Programmer..etc　以数据准备
、整理和规范化作为主要职业的。这些是统计建模的前端。
２－Machine Learning:　机器学习方法就是自动化地高效地完成知识的分类和预测。
其实，这些方法都是近60年来已经成熟的方法：智能分类，Random Forests, SVM,
ANN
, Decision Tree, etc.　以往这些人工智能方法坐冷板凳，只不过最近赶上网络交易
和社交网站才时来运转，赶上了春天。大多数这些方法的一个致命弱点就是难于解释。
没有背后的理论解释支持，就很难应用到更多更广的领域，不能提炼综合为一个共同认
知或规律，也很难有发展壮大的机会。预测模型是希望用现在的数据说明问题，进而应
用到将来的环境中。靠机器学习的发法预测建模，分类整理很好，Testing data结果也
很棒，就是不知道该怎样合理解释这些背后的因果。做模型往往是data driven,
Batch
by Batch，很容易一锤子买卖，不行下次再试另一个模型。真正需要归纳，到最后还
是要靠统计的来支招。
我不知道那些公司做大数据的，他们做线上建模 scoring /marketing Campaign的具体
案例和实际效果怎样，是否可延续？　个人感觉是，现在的大数据的价值和功用有些被
夸大了。

k*z
发帖数: 4704

楼上的虽然说的有点极端，但是基本是正确的。其实就是一群坐冷板凳的人，想上位，
自吹自擂。

w*****e
发帖数: 748

一看你就不了解大数据啊，几个问题，sequence分析查询统计，你传统数据库怎么做？
大规模近实时数数，怎么做？或者任何大规模的messaging，email之类的怎么做？2亿
用户，根据行为数据的实时分类，怎么做？你要只盯着跟现有的BI比，当然什么都行，
excel到目前为止还是最流行的BI工具。你着两类也不对，搜索引擎为代表的KNN才是处
理大数据的一大类技术。另外，做大数据的谁在乎那几个算法啊，feature extraction
，或者说data acquisition才是核心。

的一
ＳＱ
查，
说，
的职

【在 n****n 的大作中提到】

: 现在大家都说大数据，个人翻了翻一些资料，发现相关的内容大致有两类：
: １－Map-Reduce：就是用所谓的Pig /Hive/Hbase来调用Hadoop系统里众多Cluster的一
: 个不断搜索，查询，分类和整理的过程。这个过程的性质和现在大家普遍所熟悉的ＳＱ
: Ｌ功能相似，只不过是针对更大的量（PB/TB）和更复杂的结构（来自Web log/网络交
: 易/Social/甚至物理终端设备）。所以Map + Reduce就是个便于在这些数据中不断查，
: 不断合并的过程。
: 整理完的结果可以生成现在的RDBMS（彻底淘汰RDBMS是需要相当勇气的）。也就是说，
: 基本上，一旦数据整理完成，还是依然可以采用现在的方式来做模型，Predictive
: Modeling, Scoring, Forecasting.　该怎么，就怎么，方法和程序不会太变化。尤其
: 是在金融行业，面对行业准则和政府法规，很难有大的变化在这上面。可能影响到的职

f********x
发帖数: 99

楼主具体调研过吗？big data 是不是泡沫是有据可查的：
Big Data Vendor Revenue and Market Forecast 2012-2017：
http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Fo

的一
ＳＱ
查，
说，
的职

【在 n****n 的大作中提到】

c***z
发帖数: 6348

The impact of big data to business, is comparable to personal computers and
the Internet.

G***n
发帖数: 877

不要认为学了点hadoop的知识就懂大数据了。要知道map/reduce只是big data程序的表
现方式, machine learning只是big data的一个不错的应用扩展。big data的
functionality还在完善中。当他在某天能取代普通的数据库的功能的时候，试想想有
多少企业在用Database，你就明白他的前景了。

n****n
发帖数: 11

这不正是第一点讲的需要MAP－REDUCE或类似来做的东西吗？数据结构再复杂，再实时
，过程上也是数据的组织、整理和查询。从功能和意义上来说，和传统的结构式查询组
织是类似的，这不是什么新东西。况且，现在已经有不少的接口／shell 可以做到用
类SQL来调用或间接查询Hadoop，将来也会是最有潜力的一个方向，因为公司往往喜欢
沿用已有的资源、人力。
其次，你说的各种复杂结构的data Acquisition 之后呢？整理抽取数据之后的状态是
什么？需要储存吗？什么样的格式？在哪里？所有这些都是为了进一步建立模型分析做
准备。 Point在于,一旦数据整理好了，后面的建模分析过程就和以往类似了。
关于第2点，KNN已经是很老的东西了。但Point不在这里，是在说ML的弱势。如果这次
建模之后，结果“左拐”了，下一季度换新数据，你的算法告诉你‘右拐’了，你老板
问你为什么？你说不知道，数据就是这样算出来的。那他的STRATEGY怎么延续？
REVENUE怎么预算？

extraction

【在 w*****e 的大作中提到】

: 一看你就不了解大数据啊，几个问题，sequence分析查询统计，你传统数据库怎么做？
: 大规模近实时数数，怎么做？或者任何大规模的messaging，email之类的怎么做？2亿
: 用户，根据行为数据的实时分类，怎么做？你要只盯着跟现有的BI比，当然什么都行，
: excel到目前为止还是最流行的BI工具。你着两类也不对，搜索引擎为代表的KNN才是处
: 理大数据的一大类技术。另外，做大数据的谁在乎那几个算法啊，feature extraction
: ，或者说data acquisition才是核心。
:
: 的一
: ＳＱ
: 查，

d****n
发帖数: 12461

这是把数据看成了静态的吧。

【在 n****n 的大作中提到】

: 这不正是第一点讲的需要MAP－REDUCE或类似来做的东西吗？数据结构再复杂，再实时
: ，过程上也是数据的组织、整理和查询。从功能和意义上来说，和传统的结构式查询组
: 织是类似的，这不是什么新东西。况且，现在已经有不少的接口／shell 可以做到用
: 类SQL来调用或间接查询Hadoop，将来也会是最有潜力的一个方向，因为公司往往喜欢
: 沿用已有的资源、人力。
: 其次，你说的各种复杂结构的data Acquisition 之后呢？整理抽取数据之后的状态是
: 什么？需要储存吗？什么样的格式？在哪里？所有这些都是为了进一步建立模型分析做
: 准备。 Point在于,一旦数据整理好了，后面的建模分析过程就和以往类似了。
: 关于第2点，KNN已经是很老的东西了。但Point不在这里，是在说ML的弱势。如果这次
: 建模之后，结果“左拐”了，下一季度换新数据，你的算法告诉你‘右拐’了，你老板

w*****e
发帖数: 748

你什么都往high level的词上凑合，当然可以，反正不管什么技术你都可以叫它处理数
据，这不跟没说一样么。Point在于，“一旦数据整理好了”，这个概念在大数据里面
基本上没用，大部分数据工作都是在“整理”数据。给你举个例子，给你个新闻网站的
用户访问，让你看看什么关键词最热，你认为统计词频就整理好了？那到底是unigram
还是bigram还是ngram？能不能加入句子？习惯用语（中间隔几个词的）？关键词要不
要引申（比如alzheimer disease，要不要算dementia），要不要归类？是每个visit算
一次还是每个unique算一次？多少时间以内的算一次？要不要分国家，分state，分性
别，分设备？就算这些都整理好了，再问问要不要考虑时间性？上班时间和晚上的区别
？周末？节日？夏天，冬天？是用server的时间，还是用用户的时间？long term
trend, short term trend? 跟其他event的correlation？这么多feature，这么多维度
，你就算整理好了，怎么用RDBMS记录？怎么查询？feature 组合永远是无穷的，你也
永远不知道别人要问什么，而且客户永远会根据你给的报告要更多的报告。
另外，ML弱势？你平时工作是不是没接触过上百万量级的用户或者个体单位？Google为
什么改动一个算法收入多几亿？那叫统计规律好不好。个例即便判断有80%的可能对，
他还是有可能错。你的评估如果建立在一个case上，那叫赌博，那不叫ML。好歹你也要
判断个几十次，看看是大多数对还是大多数错啊。

【在 n****n 的大作中提到】

D******n
发帖数: 2836

我想newren跟我一样，很多时候都是从ananlytics角度去看这个“大数据”。
对于很多business所需要解决的问题，小数据一般就够了。数据再大，也就顶多令结果
或预测
更精确而不是更准确。database啊之类的东西永远不会过时，对于这些问题。
你们的角度就是一些本身非常复杂庞大而又实时的系统上产上的数据怎么去处理。
这些系统上产生的问题，的确无可厚非成为“大数据”问题，的确用传统的办法不给力。
问题是，现在到处都在鼓吹大数据。好像大数据可以apply到任何已有的问题上，就让
人觉得
很奇怪。

unigram

【在 w*****e 的大作中提到】

: 你什么都往high level的词上凑合，当然可以，反正不管什么技术你都可以叫它处理数
: 据，这不跟没说一样么。Point在于，“一旦数据整理好了”，这个概念在大数据里面
: 基本上没用，大部分数据工作都是在“整理”数据。给你举个例子，给你个新闻网站的
: 用户访问，让你看看什么关键词最热，你认为统计词频就整理好了？那到底是unigram
: 还是bigram还是ngram？能不能加入句子？习惯用语（中间隔几个词的）？关键词要不
: 要引申（比如alzheimer disease，要不要算dementia），要不要归类？是每个visit算
: 一次还是每个unique算一次？多少时间以内的算一次？要不要分国家，分state，分性
: 别，分设备？就算这些都整理好了，再问问要不要考虑时间性？上班时间和晚上的区别
: ？周末？节日？夏天，冬天？是用server的时间，还是用用户的时间？long term
: trend, short term trend? 跟其他event的correlation？这么多feature，这么多维度

相关主题
● Looking for a Data Scientist	● 请问DS的面试主要要准备什么？
● hive 里面的UDF会被几个node同时运行么？	● 内推 - Data scientist Or Consultant (医药咨询领域)
● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？	● 求教! how to run python programs on a hadoop cluster
进入DataSciences版参与讨论

w*****e
发帖数: 748

这不奇怪，新技术提供新的可能性，以前数据库满足商业需求，商业需求本身也被限制
在那个框框里，新的技术提供更多的可能性。在有计算机之前，账本就够了，刚出计算
机的时候也不是所有公司都认为需要计算机；出现互联网之前大家觉得也不是非得有互
联网，到现在还是有很多商家只用excel。我也不确定大数据会不会是划时代的技术，
但你也不用奇怪很多人试图用新的技术找到更好更多的可能性。

力。

【在 D******n 的大作中提到】

: 我想newren跟我一样，很多时候都是从ananlytics角度去看这个“大数据”。
: 对于很多business所需要解决的问题，小数据一般就够了。数据再大，也就顶多令结果
: 或预测
: 更精确而不是更准确。database啊之类的东西永远不会过时，对于这些问题。
: 你们的角度就是一些本身非常复杂庞大而又实时的系统上产上的数据怎么去处理。
: 这些系统上产生的问题，的确无可厚非成为“大数据”问题，的确用传统的办法不给力。
: 问题是，现在到处都在鼓吹大数据。好像大数据可以apply到任何已有的问题上，就让
: 人觉得
: 很奇怪。
:

n****n
发帖数: 11

你最后也不得不重新回到“统计规律”上来。ＭＬ的弱势是历来已久的，也是纠缠这个
领域多年的问题，你不能期待去解释第N层后向的节点参数就是对结果有功用，也不能
期待那几个随机的小树就是非那么长不可。这是由这种人工智能的特性决定的，除非在
设计思想上有革命性的重大变革。
之所以提到这个topic,　本意是希望从多个角度来和大家探讨一下大数据的深层意义和
将来的发展，不要动不动就一头扎下去，花了大量时间精力，发现只是管中看豹子，丧
失全局的把握。这样的事情在技术领域发生太多了。互联网在９５－２０００是高峰，
人人都在做网站，搞WEB/HTML静态的动态的。现在10多年过去了，泡沫也经历了，当下
的关键技术和热点，云计算，网络视频，Social Network, TW, WeChat etc,,都是当时
很少提及和关注的。即便单纯做网页也很少用HTML网页编辑而是改Blog了吧。
现在真正在做大数据的公司不足１％，想到近期要升级到大数据的不到１０％，要直接
移植换代为大数据系统的更少之又少。大多数公司在观望甚至根本没有提上日程。这里
面，成本，资源，人力，知识，法规都是问题。Ｆ没有办法直接用消费者信息不得不绕
道就是法规问题。
好在除了那几个G／F／A奠基者外，大家也都是零起点，因为大数据的概念提出也才没
多久吧。

unigram

【在 w*****e 的大作中提到】

n****n
发帖数: 11

静态动态一个道理，都需要最后来提炼整理和分析，都是一个过程。如果是因为”动态
”而不能把控数据里面实质因素的整理是没有意义的。

【在 d****n 的大作中提到】

: 这是把数据看成了静态的吧。

w*****e
发帖数: 748

从多个角度讨论问题是不错，我就喜欢跟marketing 和sales的人讨论问题，他们的角
度跟你差不多，总喜欢从高层次看问题，关心技术但对技术并不十分了解。你的原本论
点很清晰，就是说大数据没什么发展前途（功用价值很小，大部分事情不需要它也可以
用传统的方式做）。我的论点也很清晰，你所能见的事情都可以做这不错，但很多事情
是你所不能见，而这就是他的前途所在，你认为你所不能见的事情很少，我认为很多，
如此而已。

【在 n****n 的大作中提到】

: 你最后也不得不重新回到“统计规律”上来。ＭＬ的弱势是历来已久的，也是纠缠这个
: 领域多年的问题，你不能期待去解释第N层后向的节点参数就是对结果有功用，也不能
: 期待那几个随机的小树就是非那么长不可。这是由这种人工智能的特性决定的，除非在
: 设计思想上有革命性的重大变革。
: 之所以提到这个topic,　本意是希望从多个角度来和大家探讨一下大数据的深层意义和
: 将来的发展，不要动不动就一头扎下去，花了大量时间精力，发现只是管中看豹子，丧
: 失全局的把握。这样的事情在技术领域发生太多了。互联网在９５－２０００是高峰，
: 人人都在做网站，搞WEB/HTML静态的动态的。现在10多年过去了，泡沫也经历了，当下
: 的关键技术和热点，云计算，网络视频，Social Network, TW, WeChat etc,,都是当时
: 很少提及和关注的。即便单纯做网页也很少用HTML网页编辑而是改Blog了吧。

l***y
发帖数: 4671

那啥，你得真正做一两个 big data 的项目才好评论啊。看了一下，基本上没有涉及到
big data 的真正的 challenges and promises。
举一个例子哈：dynamic indexing。这是 big data science 的核心之一，google 啊
NSA 啊都是这个领域的佼佼者。对这个方向有了足够的认识，可能会帮助你从新评价
big data。

的一
ＳＱ
查，
说，
的职

【在 n****n 的大作中提到】

g****l
发帖数: 213

静态动态虽说一个道理，但实现起来完全两码事。试想瞬息万变的数据并不能够重现，
不能让你放到数据库里慢慢分析。
大数据是结合了IT infrustructure 跟统计两家特长的新产物，尤其体现在网络数据
的应用上，但不限于网络。凡是大数量，多来源，多变化，传统数据库装不下的，传统
分析方法不适用的，都可以算大数据，比如测试分析全国每家每户每秒电表的使用
pattern。
在这个结合中，两方面的知识都很重要，而且需要动态结合在一起，不是数据存在那儿
了接下来就一样了，数据存不下来知道不?
以上只是俺的胡思乱想，欢迎拍砖 :)

【在 n****n 的大作中提到】

: 静态动态一个道理，都需要最后来提炼整理和分析，都是一个过程。如果是因为”动态
: ”而不能把控数据里面实质因素的整理是没有意义的。

(共1页)

进入DataSciences版参与讨论

相关主题
● spark 问题	● 回馈本版~ 最近面的面经和收集来的面经~
● 有关归类	● Looking for a Data Scientist
● 怎样能才能快速的找到KNN	● hive 里面的UDF会被几个node同时运行么？
● 哪些公司在用大数据? Big Data?	● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？
● 求Google 的 Data Science 有关的位置内推 (转载)	● 请问DS的面试主要要准备什么？
● Data scientist / Machine Learning Engineer 相关面试题 (转载)	● 内推 - Data scientist Or Consultant (医药咨询领域)
● 刚入行新人的两个问题	● 求教! how to run python programs on a hadoop cluster
● 请问哪些算法是可以用python写的，然后输入PMML	● Data Scientist的编程能力

相关话题的讨论汇总
话题: 数据话题: data话题: 整理话题: big话题: reduce

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天