所谓的大数据 - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 所谓的大数据

相关主题
● 恭喜新版成立。什么背景的人会成为data scientist	● 有考虑回国发展的同学吗？招大量咨询师、大数据机器学习、算法、神经网络、自然语言工程师...
● 组建互联网公司数据团队	● 30+零经验大妈求转行DS建议
● 一个困扰我一段时间的问题：big data为什么要搞ml那些algorithm？	● 如何对播放广告对销量的影响建模
● 求职招聘高薪IT,你想不成功都难	● 建模过程中对于outlier的处理问题
● 不知这样的大数据培训怎样？我想求职Big data Architect......	● 招数据科学家
● 欢迎加入“机器学习实践” 俱乐部	● 数学phd可以再读一个cs的master，偏向data analytics?
● 一个经常会用到的问题，和推荐算法有点关系。想不到有什么直接简单的方法。	● DS 现在是有大泡泡吗？
● 机器学习日报 2015年3月楼	● 真诚求审稿机会物理大数据统计金融建模机器算法相关方向

相关话题的讨论汇总
话题: 数据话题: data话题: 建模话题: scientist话题: engineer

进入DataSciences版参与讨论

1

(共1页)

l******0 发帖数: 244	1 更多的是一个工程问题。网络数据规模越来越大，而且很多是半结构，或非结构的数据，或几种的混合。如何获取，存储，管理，分析，并提供有效的检索手段给用户，都涉及到软件工程的问题。对于 data scientist 来说，其实 big data 与其关系并不是太大。即使数据规模再大，你用来分析并建模的数据量还是相当小，只是其中一个微不足道的很小的子集。给你 1G 的数据，你就会撑死。所以大数据时代，对 data engineer 的需求要远远大于 data scientist. 什么是 data engineer？就是传统的 software engineer,但有机器学习，统计或自然语言，信息检索的背景，并主要工作于网络数据处理的方方面面。当然，数据规模大了，数据来源多样化了，对以数据分析和建模为主要工作内容的 data scientist/analyst 也提出了一些新的挑战。比如，如何采样数据？多大合适？如何评估系统或模型？如何干掉数据中的垃圾成分？等等
c***z 发帖数: 6348	2 你用来分析并建模的数据量还是相当小，只是其中一个微不足道的很小的子集。 sorry, have to disagree
d****n 发帖数: 12461	3 如何处理拿不到的数据呢？例如我们不是NSA，拿不到所有人的家庭住址和电费帐单。但是如果我们有所有人的家庭住址和电费帐单的话，建模就会容易一些... 所有的DS都有这样的困惑吧。拿到手的数据只是别人手里数据的千分之一，做起来都很没劲。【在 c***z 的大作中提到】 : 你用来分析并建模的数据量还是相当小，只是其中一个微不足道的很小的子集。 : sorry, have to disagree
c***z 发帖数: 6348	4 That is exactly what we are doing in the bias correction project... 【在 d****n 的大作中提到】 : 如何处理拿不到的数据呢？ : 例如我们不是NSA，拿不到所有人的家庭住址和电费帐单。但是如果我们有所有人的家 : 庭住址和电费帐单的话，建模就会容易一些... : 所有的DS都有这样的困惑吧。拿到手的数据只是别人手里数据的千分之一，做起来都很 : 没劲。
l******0 发帖数: 244	5 展开说说? 你最大用到多大的数据量【在 c***z 的大作中提到】 : 你用来分析并建模的数据量还是相当小，只是其中一个微不足道的很小的子集。 : sorry, have to disagree
k*z 发帖数: 4704	6 大数据对分析的人来说就是个噱头，就是大家找不到理由给自己加工资了，变个方式骗资方骗老板骗自己。
d****n 发帖数: 12461	7 数据库的话，一般都是1 bil以上吧如果是文件数据的话，一般每个文件几个到几十个g，大概上千个文件吧小于这个数都不好叫big data。当然你设计的时候可以先用比这些小100倍的东西试，但是最后都要用大的set来测试的。其实这都不是挑战的地方。挑战的地方在于分布存储，实时数据和历史数据结合等等，所以最后要上map reduce，要把数据整合的过程前移。当然很多olap不需要符合ACID，这点就好很多了。而要求ACID的数据库单个多数不大，所以这就好多了。【在 l******0 的大作中提到】 : 展开说说? 你最大用到多大的数据量
d****n 发帖数: 12461	8 当然，我认为你说一个好的data engineer抵得上一个team的data scientist是对的。【在 l******0 的大作中提到】 : 更多的是一个工程问题。网络数据规模越来越大，而且很多是半结构，或非结构的数据 : ，或几种的混合。如何获取，存储，管理，分析，并提供有效的检索手段给用户，都涉 : 及到软件工程的问题。 : 对于 data scientist 来说，其实 big data 与其关系并不是太大。即使数据规模再大 : ，你用来分析并建模的数据量还是相当小，只是其中一个微不足道的很小的子集。给你 : 1G 的数据，你就会撑死。所以大数据时代，对 data engineer 的需求要远远大于 : data scientist. 什么是 data engineer？就是传统的 software engineer,但有机器 : 学习，统计或自然语言，信息检索的背景，并主要工作于网络数据处理的方方面面。 : 当然，数据规模大了，数据来源多样化了，对以数据分析和建模为主要工作内容的 : data scientist/analyst 也提出了一些新的挑战。比如，如何采样数据？多大合适？
l******0 发帖数: 244	9 big data 从量上来说，当然都是以 terabyte 计。但我说的是，作为分析建模的数据，你能用得了多少，可能 work 的 case 不一样。通常机器学习的分类任务，要大规模的标注好的数据，几乎不可能；即使可能，一般的机器学习算法，也用不着那么多数据，也处理不了那么多数据。而且数据到一定量，再添加，对模型也没有什么帮助。数据不在于量大，关键在于如何组织好一个很有代表性的小数据集用来学习，测试和评估。举个例子，如果要根据 Twitter 上用户的发言（tweets），判断他的年龄段，或再粗略一点，判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。如果性能不好，原因可能不是由于数据量小。增加再多，也不一定有帮助。能不能举个例子，需要多少个 G 或 T 的数据来做模型？交流，学习一下【在 d****n 的大作中提到】 : 数据库的话，一般都是1 bil以上吧 : 如果是文件数据的话，一般每个文件几个到几十个g，大概上千个文件吧 : 小于这个数都不好叫big data。当然你设计的时候可以先用比这些小100倍的东西试， : 但是最后都要用大的set来测试的。 : 其实这都不是挑战的地方。挑战的地方在于分布存储，实时数据和历史数据结合等等， : 所以最后要上map reduce，要把数据整合的过程前移。 : 当然很多olap不需要符合ACID，这点就好很多了。而要求ACID的数据库单个多数不大， : 所以这就好多了。
d****n 发帖数: 12461	10 其实最开始的data set都不大，例如给你10万张不知道主题的图片，让你找出其中和其他大部分不一样的图片。但是几乎所有的算法里面都有个data enrichment和data association的过程。例如对于图片分类的问题，最容易想到的方法就是计算两两之间的相似度，那就是50亿对相似度了。现在讲的big data，很多时候连要解决的问题本身都不清楚，所以连最基本的feature extraction, categorizing/labelling之类的都失效了。【在 l******0 的大作中提到】 : big data 从量上来说，当然都是以 terabyte 计。但我说的是，作为分析建模的数据 : ，你能用得了多少，可能 work 的 case 不一样。通常机器学习的分类任务，要大规模 : 的标注好的数据，几乎不可能；即使可能，一般的机器学习算法，也用不着那么多数据 : ，也处理不了那么多数据。而且数据到一定量，再添加，对模型也没有什么帮助。数据 : 不在于量大，关键在于如何组织好一个很有代表性的小数据集用来学习，测试和评估。 : 举个例子，如果要根据 Twitter 上用户的发言（tweets），判断他的年龄段，或再粗 : 略一点，判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。 : 如果性能不好，原因可能不是由于数据量小。增加再多，也不一定有帮助。 : 能不能举个例子，需要多少个 G 或 T 的数据来做模型？交流，学习一下
l*******m 发帖数: 1096	11 应该这样说如果数据十分dense，不用太多的samples。但是如果数据十分sparse，是 samples越多越好。比如netflix prize，矩阵就是电影数目x用户数。我刚做了个model，2G个features, 0.5G个samples。samples数目比feature都少。如果数据再多些，性能还会有提升。【在 l******0 的大作中提到】 : big data 从量上来说，当然都是以 terabyte 计。但我说的是，作为分析建模的数据 : ，你能用得了多少，可能 work 的 case 不一样。通常机器学习的分类任务，要大规模 : 的标注好的数据，几乎不可能；即使可能，一般的机器学习算法，也用不着那么多数据 : ，也处理不了那么多数据。而且数据到一定量，再添加，对模型也没有什么帮助。数据 : 不在于量大，关键在于如何组织好一个很有代表性的小数据集用来学习，测试和评估。 : 举个例子，如果要根据 Twitter 上用户的发言（tweets），判断他的年龄段，或再粗 : 略一点，判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。 : 如果性能不好，原因可能不是由于数据量小。增加再多，也不一定有帮助。 : 能不能举个例子，需要多少个 G 或 T 的数据来做模型？交流，学习一下
B********4 发帖数: 7156	12 我给你个例子。我们公司适时监控多伦多所有GSM手机的位置，一天就有1.5-2.0M个ID, 每个ID大概有平均20-30条记录。我们会保留大概一年的手机位置数据。【在 l******0 的大作中提到】 : 展开说说? 你最大用到多大的数据量
l******n 发帖数: 9344	13 有意思。知道各行各业的应用非常有意思。我也说说我接触的例子某大石油公司的油井分布在世界各地，每个油井上有无数sensors，测量各种不同参数，然后需要实时监控这些油田的状态，并且需要对肯能出现问题做出预警某大公司给某国的航空管理做的系统，实时监控系统中所有机场的航班动态，根据所知信息做合理预测，提供解决方案。这2个都是巨大的工程，现在是大公司+startup一起在做。 ID, 【在 B********4 的大作中提到】 : : 我给你个例子。我们公司适时监控多伦多所有GSM手机的位置，一天就有1.5-2.0M个ID, : 每个ID大概有平均20-30条记录。我们会保留大概一年的手机位置数据。

1

(共1页)

进入DataSciences版参与讨论

相关主题
● 真诚求审稿机会物理大数据统计金融建模机器算法相关方向	● 不知这样的大数据培训怎样？我想求职Big data Architect......
● 关于统计专业毕业生在美国找工作的一些建议	● 欢迎加入“机器学习实践” 俱乐部
● 替国内朋友贴个 (转载)	● 一个经常会用到的问题，和推荐算法有点关系。想不到有什么直接简单的方法。
● [找工作]求内推entry level data analyst/analytics	● 机器学习日报 2015年3月楼
● 恭喜新版成立。什么背景的人会成为data scientist	● 有考虑回国发展的同学吗？招大量咨询师、大数据机器学习、算法、神经网络、自然语言工程师...
● 组建互联网公司数据团队	● 30+零经验大妈求转行DS建议
● 一个困扰我一段时间的问题：big data为什么要搞ml那些algorithm？	● 如何对播放广告对销量的影响建模
● 求职招聘高薪IT,你想不成功都难	● 建模过程中对于outlier的处理问题

相关话题的讨论汇总
话题: 数据话题: data话题: 建模话题: scientist话题: engineer

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)