由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 所谓的大数据
相关主题
恭喜新版成立。什么背景的人会成为data scientist有考虑回国发展的同学吗?招大量咨询师、大数据机器学习、算法、神经网络、自然语言工程师...
组建互联网公司数据团队30+零经验大妈求转行DS建议
一个困扰我一段时间的问题:big data为什么要搞ml那些algorithm?如何 对播放广告对销量的影响建模
求职招聘高薪IT,你想不成功都难建模过程中对于outlier的处理问题
不知这样的大数据培训怎样?我想求职Big data Architect......招数据科学家
欢迎加入“机器学习实践” 俱乐部数学phd可以再读一个cs的master,偏向data analytics?
一个经常会用到的问题,和推荐算法有点关系。想不到有什么直接简单的方法。DS 现在是有大泡泡吗?
机器学习日报 2015年3月楼真诚求审稿机会 物理 大数据 统计 金融建模 机器算法相关方向
相关话题的讨论汇总
话题: 数据话题: data话题: 建模话题: scientist话题: engineer
进入DataSciences版参与讨论
1 (共1页)
l******0
发帖数: 244
1
更多的是一个工程问题。网络数据规模越来越大,而且很多是半结构,或非结构的数据
,或几种的混合。如何获取,存储,管理,分析,并提供有效的检索手段给用户,都涉
及到软件工程的问题。
对于 data scientist 来说,其实 big data 与其关系并不是太大。即使数据规模再大
,你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。给你
1G 的数据,你就会撑死。所以大数据时代,对 data engineer 的需求要远远大于
data scientist. 什么是 data engineer? 就是传统的 software engineer,但有机器
学习,统计或自然语言,信息检索的背景,并主要工作于网络数据处理的方方面面。
当然,数据规模大了,数据来源多样化了,对以数据分析和建模为主要工作内容的
data scientist/analyst 也提出了一些新的挑战。比如,如何采样数据?多大合适?
如何评估系统或模型? 如何干掉数据中的垃圾成分?等等
c***z
发帖数: 6348
2
你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。
sorry, have to disagree
d****n
发帖数: 12461
3
如何处理拿不到的数据呢?
例如我们不是NSA,拿不到所有人的家庭住址和电费帐单。但是如果我们有所有人的家
庭住址和电费帐单的话,建模就会容易一些...
所有的DS都有这样的困惑吧。拿到手的数据只是别人手里数据的千分之一,做起来都很
没劲。

【在 c***z 的大作中提到】
: 你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。
: sorry, have to disagree

c***z
发帖数: 6348
4
That is exactly what we are doing in the bias correction project...

【在 d****n 的大作中提到】
: 如何处理拿不到的数据呢?
: 例如我们不是NSA,拿不到所有人的家庭住址和电费帐单。但是如果我们有所有人的家
: 庭住址和电费帐单的话,建模就会容易一些...
: 所有的DS都有这样的困惑吧。拿到手的数据只是别人手里数据的千分之一,做起来都很
: 没劲。

l******0
发帖数: 244
5
展开说说? 你最大用到多大的数据量

【在 c***z 的大作中提到】
: 你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。
: sorry, have to disagree

k*z
发帖数: 4704
6
大数据对分析的人来说就是个噱头,就是大家找不到理由给自己加工资了,变个方式骗
资方骗老板骗自己。
d****n
发帖数: 12461
7
数据库的话,一般都是1 bil以上吧
如果是文件数据的话,一般每个文件几个到几十个g,大概上千个文件吧
小于这个数都不好叫big data。当然你设计的时候可以先用比这些小100倍的东西试,
但是最后都要用大的set来测试的。
其实这都不是挑战的地方。挑战的地方在于分布存储,实时数据和历史数据结合等等,
所以最后要上map reduce,要把数据整合的过程前移。
当然很多olap不需要符合ACID,这点就好很多了。而要求ACID的数据库单个多数不大,
所以这就好多了。

【在 l******0 的大作中提到】
: 展开说说? 你最大用到多大的数据量
d****n
发帖数: 12461
8
当然,我认为你说一个好的data engineer抵得上一个team的data scientist是对的。

【在 l******0 的大作中提到】
: 更多的是一个工程问题。网络数据规模越来越大,而且很多是半结构,或非结构的数据
: ,或几种的混合。如何获取,存储,管理,分析,并提供有效的检索手段给用户,都涉
: 及到软件工程的问题。
: 对于 data scientist 来说,其实 big data 与其关系并不是太大。即使数据规模再大
: ,你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。给你
: 1G 的数据,你就会撑死。所以大数据时代,对 data engineer 的需求要远远大于
: data scientist. 什么是 data engineer? 就是传统的 software engineer,但有机器
: 学习,统计或自然语言,信息检索的背景,并主要工作于网络数据处理的方方面面。
: 当然,数据规模大了,数据来源多样化了,对以数据分析和建模为主要工作内容的
: data scientist/analyst 也提出了一些新的挑战。比如,如何采样数据?多大合适?

l******0
发帖数: 244
9
big data 从量上来说,当然都是以 terabyte 计。但我说的是,作为分析建模的数据
,你能用得了多少,可能 work 的 case 不一样。通常机器学习的分类任务,要大规模
的标注好的数据,几乎不可能;即使可能,一般的机器学习算法,也用不着那么多数据
,也处理不了那么多数据。而且数据到一定量,再添加,对模型也没有什么帮助。数据
不在于量大,关键在于如何组织好一个很有代表性的小数据集用来学习,测试和评估。
举个例子,如果要根据 Twitter 上用户的发言(tweets),判断他的年龄段,或再粗
略一点,判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。
如果性能不好,原因可能不是由于数据量小。增加再多,也不一定有帮助。
能不能举个例子,需要多少个 G 或 T 的数据来做模型?交流,学习一下

【在 d****n 的大作中提到】
: 数据库的话,一般都是1 bil以上吧
: 如果是文件数据的话,一般每个文件几个到几十个g,大概上千个文件吧
: 小于这个数都不好叫big data。当然你设计的时候可以先用比这些小100倍的东西试,
: 但是最后都要用大的set来测试的。
: 其实这都不是挑战的地方。挑战的地方在于分布存储,实时数据和历史数据结合等等,
: 所以最后要上map reduce,要把数据整合的过程前移。
: 当然很多olap不需要符合ACID,这点就好很多了。而要求ACID的数据库单个多数不大,
: 所以这就好多了。

d****n
发帖数: 12461
10
其实最开始的data set都不大,例如给你10万张不知道主题的图片,让你找出其中和其
他大部分不一样的图片。
但是几乎所有的算法里面都有个data enrichment和data association的过程。例如对
于图片分类的问题,最容易想到的方法就是计算两两之间的相似度,那就是50亿对相似
度了。
现在讲的big data,很多时候连要解决的问题本身都不清楚,所以连最基本的feature
extraction, categorizing/labelling之类的都失效了。

【在 l******0 的大作中提到】
: big data 从量上来说,当然都是以 terabyte 计。但我说的是,作为分析建模的数据
: ,你能用得了多少,可能 work 的 case 不一样。通常机器学习的分类任务,要大规模
: 的标注好的数据,几乎不可能;即使可能,一般的机器学习算法,也用不着那么多数据
: ,也处理不了那么多数据。而且数据到一定量,再添加,对模型也没有什么帮助。数据
: 不在于量大,关键在于如何组织好一个很有代表性的小数据集用来学习,测试和评估。
: 举个例子,如果要根据 Twitter 上用户的发言(tweets),判断他的年龄段,或再粗
: 略一点,判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。
: 如果性能不好,原因可能不是由于数据量小。增加再多,也不一定有帮助。
: 能不能举个例子,需要多少个 G 或 T 的数据来做模型?交流,学习一下

l*******m
发帖数: 1096
11
应该这样说如果数据十分dense,不用太多的samples。但是如果数据十分sparse,是
samples越多越好。比如netflix prize,矩阵就是电影数目x用户数。
我刚做了个model,2G个features, 0.5G个samples。samples数目比feature都少。如果
数据再多些,性能还会有提升。

【在 l******0 的大作中提到】
: big data 从量上来说,当然都是以 terabyte 计。但我说的是,作为分析建模的数据
: ,你能用得了多少,可能 work 的 case 不一样。通常机器学习的分类任务,要大规模
: 的标注好的数据,几乎不可能;即使可能,一般的机器学习算法,也用不着那么多数据
: ,也处理不了那么多数据。而且数据到一定量,再添加,对模型也没有什么帮助。数据
: 不在于量大,关键在于如何组织好一个很有代表性的小数据集用来学习,测试和评估。
: 举个例子,如果要根据 Twitter 上用户的发言(tweets),判断他的年龄段,或再粗
: 略一点,判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。
: 如果性能不好,原因可能不是由于数据量小。增加再多,也不一定有帮助。
: 能不能举个例子,需要多少个 G 或 T 的数据来做模型?交流,学习一下

B********4
发帖数: 7156
12

我给你个例子。我们公司适时监控多伦多所有GSM手机的位置,一天就有1.5-2.0M个ID,
每个ID大概有平均20-30条记录。我们会保留大概一年的手机位置数据。

【在 l******0 的大作中提到】
: 展开说说? 你最大用到多大的数据量
l******n
发帖数: 9344
13
有意思。知道各行各业的应用非常有意思。我也说说我接触的例子
某大石油公司的油井分布在世界各地,每个油井上有无数sensors,测量各种不同参数
,然后需要实时监控这些油田的状态,并且需要对肯能出现问题做出预警
某大公司给某国的航空管理做的系统,实时监控系统中所有机场的航班动态,根据所知
信息做合理预测,提供解决方案。
这2个都是巨大的工程,现在是大公司+startup一起在做。

ID,

【在 B********4 的大作中提到】
:
: 我给你个例子。我们公司适时监控多伦多所有GSM手机的位置,一天就有1.5-2.0M个ID,
: 每个ID大概有平均20-30条记录。我们会保留大概一年的手机位置数据。

1 (共1页)
进入DataSciences版参与讨论
相关主题
真诚求审稿机会 物理 大数据 统计 金融建模 机器算法相关方向不知这样的大数据培训怎样?我想求职Big data Architect......
关于统计专业毕业生在美国找工作的一些建议欢迎加入“机器学习实践” 俱乐部
替国内朋友贴个 (转载)一个经常会用到的问题,和推荐算法有点关系。想不到有什么直接简单的方法。
[找工作]求内推entry level data analyst/analytics机器学习日报 2015年3月楼
恭喜新版成立。什么背景的人会成为data scientist有考虑回国发展的同学吗?招大量咨询师、大数据机器学习、算法、神经网络、自然语言工程师...
组建互联网公司数据团队30+零经验大妈求转行DS建议
一个困扰我一段时间的问题:big data为什么要搞ml那些algorithm?如何 对播放广告对销量的影响建模
求职招聘高薪IT,你想不成功都难建模过程中对于outlier的处理问题
相关话题的讨论汇总
话题: 数据话题: data话题: 建模话题: scientist话题: engineer