l******0 发帖数: 244 | 1 更多的是一个工程问题。网络数据规模越来越大,而且很多是半结构,或非结构的数据
,或几种的混合。如何获取,存储,管理,分析,并提供有效的检索手段给用户,都涉
及到软件工程的问题。
对于 data scientist 来说,其实 big data 与其关系并不是太大。即使数据规模再大
,你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。给你
1G 的数据,你就会撑死。所以大数据时代,对 data engineer 的需求要远远大于
data scientist. 什么是 data engineer? 就是传统的 software engineer,但有机器
学习,统计或自然语言,信息检索的背景,并主要工作于网络数据处理的方方面面。
当然,数据规模大了,数据来源多样化了,对以数据分析和建模为主要工作内容的
data scientist/analyst 也提出了一些新的挑战。比如,如何采样数据?多大合适?
如何评估系统或模型? 如何干掉数据中的垃圾成分?等等 |
c***z 发帖数: 6348 | 2 你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。
sorry, have to disagree |
d****n 发帖数: 12461 | 3 如何处理拿不到的数据呢?
例如我们不是NSA,拿不到所有人的家庭住址和电费帐单。但是如果我们有所有人的家
庭住址和电费帐单的话,建模就会容易一些...
所有的DS都有这样的困惑吧。拿到手的数据只是别人手里数据的千分之一,做起来都很
没劲。
【在 c***z 的大作中提到】 : 你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。 : sorry, have to disagree
|
c***z 发帖数: 6348 | 4 That is exactly what we are doing in the bias correction project...
【在 d****n 的大作中提到】 : 如何处理拿不到的数据呢? : 例如我们不是NSA,拿不到所有人的家庭住址和电费帐单。但是如果我们有所有人的家 : 庭住址和电费帐单的话,建模就会容易一些... : 所有的DS都有这样的困惑吧。拿到手的数据只是别人手里数据的千分之一,做起来都很 : 没劲。
|
l******0 发帖数: 244 | 5 展开说说? 你最大用到多大的数据量
【在 c***z 的大作中提到】 : 你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。 : sorry, have to disagree
|
k*z 发帖数: 4704 | 6 大数据对分析的人来说就是个噱头,就是大家找不到理由给自己加工资了,变个方式骗
资方骗老板骗自己。 |
d****n 发帖数: 12461 | 7 数据库的话,一般都是1 bil以上吧
如果是文件数据的话,一般每个文件几个到几十个g,大概上千个文件吧
小于这个数都不好叫big data。当然你设计的时候可以先用比这些小100倍的东西试,
但是最后都要用大的set来测试的。
其实这都不是挑战的地方。挑战的地方在于分布存储,实时数据和历史数据结合等等,
所以最后要上map reduce,要把数据整合的过程前移。
当然很多olap不需要符合ACID,这点就好很多了。而要求ACID的数据库单个多数不大,
所以这就好多了。
【在 l******0 的大作中提到】 : 展开说说? 你最大用到多大的数据量
|
d****n 发帖数: 12461 | 8 当然,我认为你说一个好的data engineer抵得上一个team的data scientist是对的。
【在 l******0 的大作中提到】 : 更多的是一个工程问题。网络数据规模越来越大,而且很多是半结构,或非结构的数据 : ,或几种的混合。如何获取,存储,管理,分析,并提供有效的检索手段给用户,都涉 : 及到软件工程的问题。 : 对于 data scientist 来说,其实 big data 与其关系并不是太大。即使数据规模再大 : ,你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。给你 : 1G 的数据,你就会撑死。所以大数据时代,对 data engineer 的需求要远远大于 : data scientist. 什么是 data engineer? 就是传统的 software engineer,但有机器 : 学习,统计或自然语言,信息检索的背景,并主要工作于网络数据处理的方方面面。 : 当然,数据规模大了,数据来源多样化了,对以数据分析和建模为主要工作内容的 : data scientist/analyst 也提出了一些新的挑战。比如,如何采样数据?多大合适?
|
l******0 发帖数: 244 | 9 big data 从量上来说,当然都是以 terabyte 计。但我说的是,作为分析建模的数据
,你能用得了多少,可能 work 的 case 不一样。通常机器学习的分类任务,要大规模
的标注好的数据,几乎不可能;即使可能,一般的机器学习算法,也用不着那么多数据
,也处理不了那么多数据。而且数据到一定量,再添加,对模型也没有什么帮助。数据
不在于量大,关键在于如何组织好一个很有代表性的小数据集用来学习,测试和评估。
举个例子,如果要根据 Twitter 上用户的发言(tweets),判断他的年龄段,或再粗
略一点,判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。
如果性能不好,原因可能不是由于数据量小。增加再多,也不一定有帮助。
能不能举个例子,需要多少个 G 或 T 的数据来做模型?交流,学习一下
【在 d****n 的大作中提到】 : 数据库的话,一般都是1 bil以上吧 : 如果是文件数据的话,一般每个文件几个到几十个g,大概上千个文件吧 : 小于这个数都不好叫big data。当然你设计的时候可以先用比这些小100倍的东西试, : 但是最后都要用大的set来测试的。 : 其实这都不是挑战的地方。挑战的地方在于分布存储,实时数据和历史数据结合等等, : 所以最后要上map reduce,要把数据整合的过程前移。 : 当然很多olap不需要符合ACID,这点就好很多了。而要求ACID的数据库单个多数不大, : 所以这就好多了。
|
d****n 发帖数: 12461 | 10 其实最开始的data set都不大,例如给你10万张不知道主题的图片,让你找出其中和其
他大部分不一样的图片。
但是几乎所有的算法里面都有个data enrichment和data association的过程。例如对
于图片分类的问题,最容易想到的方法就是计算两两之间的相似度,那就是50亿对相似
度了。
现在讲的big data,很多时候连要解决的问题本身都不清楚,所以连最基本的feature
extraction, categorizing/labelling之类的都失效了。
【在 l******0 的大作中提到】 : big data 从量上来说,当然都是以 terabyte 计。但我说的是,作为分析建模的数据 : ,你能用得了多少,可能 work 的 case 不一样。通常机器学习的分类任务,要大规模 : 的标注好的数据,几乎不可能;即使可能,一般的机器学习算法,也用不着那么多数据 : ,也处理不了那么多数据。而且数据到一定量,再添加,对模型也没有什么帮助。数据 : 不在于量大,关键在于如何组织好一个很有代表性的小数据集用来学习,测试和评估。 : 举个例子,如果要根据 Twitter 上用户的发言(tweets),判断他的年龄段,或再粗 : 略一点,判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。 : 如果性能不好,原因可能不是由于数据量小。增加再多,也不一定有帮助。 : 能不能举个例子,需要多少个 G 或 T 的数据来做模型?交流,学习一下
|
l*******m 发帖数: 1096 | 11 应该这样说如果数据十分dense,不用太多的samples。但是如果数据十分sparse,是
samples越多越好。比如netflix prize,矩阵就是电影数目x用户数。
我刚做了个model,2G个features, 0.5G个samples。samples数目比feature都少。如果
数据再多些,性能还会有提升。
【在 l******0 的大作中提到】 : big data 从量上来说,当然都是以 terabyte 计。但我说的是,作为分析建模的数据 : ,你能用得了多少,可能 work 的 case 不一样。通常机器学习的分类任务,要大规模 : 的标注好的数据,几乎不可能;即使可能,一般的机器学习算法,也用不着那么多数据 : ,也处理不了那么多数据。而且数据到一定量,再添加,对模型也没有什么帮助。数据 : 不在于量大,关键在于如何组织好一个很有代表性的小数据集用来学习,测试和评估。 : 举个例子,如果要根据 Twitter 上用户的发言(tweets),判断他的年龄段,或再粗 : 略一点,判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。 : 如果性能不好,原因可能不是由于数据量小。增加再多,也不一定有帮助。 : 能不能举个例子,需要多少个 G 或 T 的数据来做模型?交流,学习一下
|
B********4 发帖数: 7156 | 12
我给你个例子。我们公司适时监控多伦多所有GSM手机的位置,一天就有1.5-2.0M个ID,
每个ID大概有平均20-30条记录。我们会保留大概一年的手机位置数据。
【在 l******0 的大作中提到】 : 展开说说? 你最大用到多大的数据量
|
l******n 发帖数: 9344 | 13 有意思。知道各行各业的应用非常有意思。我也说说我接触的例子
某大石油公司的油井分布在世界各地,每个油井上有无数sensors,测量各种不同参数
,然后需要实时监控这些油田的状态,并且需要对肯能出现问题做出预警
某大公司给某国的航空管理做的系统,实时监控系统中所有机场的航班动态,根据所知
信息做合理预测,提供解决方案。
这2个都是巨大的工程,现在是大公司+startup一起在做。
ID,
【在 B********4 的大作中提到】 : : 我给你个例子。我们公司适时监控多伦多所有GSM手机的位置,一天就有1.5-2.0M个ID, : 每个ID大概有平均20-30条记录。我们会保留大概一年的手机位置数据。
|