由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 如何用python读取大数据
相关主题
NY Lead Data Scientist, Finance Creditretail bussiness预测客户的流失概率
报面筋求实习合租 (转载)问题:用VIF做feature selection
Re: 攒人品,发Google Statistician/Data Scientist电面面经python用起来没有matlab好使,尤其是数据处理
评价一个变量可预测性问题 (转载)求指点-怎样提高python水平?
model selection problemMemory Error in pandas.concat with Python
请问想找data scientist 工作应该怎么开始准备python 网络爬虫和数据处理
怎么建一个AWS的real time scoring engine?python for data analysis
lending club的notes 数据有没有人想报Cloudera的Data Scientist Certificate的
相关话题的讨论汇总
话题: 分块话题: 数据话题: 10gb话题: 读取话题: 如何
进入DataSciences版参与讨论
1 (共1页)
s********n
发帖数: 80
1
在做一个小项目,数据是50M行,50列,文件大小是10GB。如果用pandas直接读的话,
一个是慢,另一个是动不动就 memory error。
但是我觉得10GB还算不上大数据,一般如何处理这样的问题呢?
的确可以分块读入,然后计算也分块算吗?比如我算个logistic regression,也能支
持分块算吗
s****h
发帖数: 3979
2
没弄过。
不过刚才我在另一个帖子里贴的这个link,貌似几个G的数据,作者就是分块读入,然
后SGD logistic regression。SGD是每个sample update一次,分块处理应该没问题吧。
你可以看看他的这个git repository。
https://github.com/mkneierV/kaggle_avazu_benchmark/blob/master/run_model.py
w**2
发帖数: 147
3
不然用 EC2
m*********r
发帖数: 119
4
单机 你就只能分块读取了
h*****7
发帖数: 6781
5
难道不是调SQL?
1 (共1页)
进入DataSciences版参与讨论
相关主题
有没有人想报Cloudera的Data Scientist Certificate的model selection problem
40道经典DS/ML面试题解答,求指导请问想找data scientist 工作应该怎么开始准备
有人考虑过kaggle上这个预测CTR的题目么?怎么建一个AWS的real time scoring engine?
转行数据挖掘和机器学习lending club的notes 数据
NY Lead Data Scientist, Finance Creditretail bussiness预测客户的流失概率
报面筋求实习合租 (转载)问题:用VIF做feature selection
Re: 攒人品,发Google Statistician/Data Scientist电面面经python用起来没有matlab好使,尤其是数据处理
评价一个变量可预测性问题 (转载)求指点-怎样提高python水平?
相关话题的讨论汇总
话题: 分块话题: 数据话题: 10gb话题: 读取话题: 如何