由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 怎样用Python选一部分数据出来
相关主题
数据库小白请教:如果数据库文件很大,MySQL和Python Pandas分Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
用python分析big data,用哪个library好?那些做 big data 的公司到底需要什么样的人?
parsing file in node: js or python ?感觉flink出来之后,hadoop就显得不怎么再需要了
请教数据存储问题求助大神 如何迅速让DATA science 简历好看一点
CUDA 和 Hadoop 是不是算并行和分布的两个比较有前途的技术?各位大牛,Apache Apex 怎么样?
这波Big Data下来JVM大胜,.NET大败呀。Big data question
现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?cs这几个方向,哪个现在和未来的状况最好?
试了下spark,不过如此啊学Hadoop还是spark
相关话题的讨论汇总
话题: python话题: line话题: 数据话题: awk话题: open
进入Programming版参与讨论
1 (共1页)
s*****n
发帖数: 839
1
我有一个大的csv数据文件,超过 1 billion 条数据。 我们的数据库都不能处理这
么大的文件。
想用Python选一部分数据出来,就是做类似于sql: select *** from *** where ***;
这样的工作。 然后把选出来的小块数据读到数据库里去用。
有没有大侠给指点一二?
怎么做啊? 急等。
谢谢!
m*******l
发帖数: 12782
2
stream editor + regular expression

;

【在 s*****n 的大作中提到】
: 我有一个大的csv数据文件,超过 1 billion 条数据。 我们的数据库都不能处理这
: 么大的文件。
: 想用Python选一部分数据出来,就是做类似于sql: select *** from *** where ***;
: 这样的工作。 然后把选出来的小块数据读到数据库里去用。
: 有没有大侠给指点一二?
: 怎么做啊? 急等。
: 谢谢!

s*****n
发帖数: 839
3
能不能说得详细点? 我是菜鸟。
谢谢了!!

【在 m*******l 的大作中提到】
: stream editor + regular expression
:
: ;

s*********e
发帖数: 1051
4
do the chunk read with pandas package

;

【在 s*****n 的大作中提到】
: 我有一个大的csv数据文件,超过 1 billion 条数据。 我们的数据库都不能处理这
: 么大的文件。
: 想用Python选一部分数据出来,就是做类似于sql: select *** from *** where ***;
: 这样的工作。 然后把选出来的小块数据读到数据库里去用。
: 有没有大侠给指点一二?
: 怎么做啊? 急等。
: 谢谢!

a****e
发帖数: 9589
5
sed
http://linux.about.com/od/commands/l/blcmdl1_sed.htm
like:
sed '/regexp_of_what_you_want/p' file.csv > result.csv
o*******p
发帖数: 27
6
如果redirect输出到文件,只要4行就好了,
for line in open('big.csv'):
fields = line.split(',')
if fields[n] = 'keep': # the where clause
print line

;

【在 s*****n 的大作中提到】
: 我有一个大的csv数据文件,超过 1 billion 条数据。 我们的数据库都不能处理这
: 么大的文件。
: 想用Python选一部分数据出来,就是做类似于sql: select *** from *** where ***;
: 这样的工作。 然后把选出来的小块数据读到数据库里去用。
: 有没有大侠给指点一二?
: 怎么做啊? 急等。
: 谢谢!

s*****n
发帖数: 839
7
太谢谢楼上的各位哥哥姐姐弟弟妹妹了。
我真的是菜鸟,所以只看懂了oceandeep的回复。
不过怎么把选出来的数据存起来啊? 存到csv file.
a****e
发帖数: 9589
8
我是大叔
with open('result.csv', 'w+') as result:
with open('big.csv', 'r') as big:
for line in big:
if line.split(',')[n] == 'what you want':
result.write(line)

【在 s*****n 的大作中提到】
: 太谢谢楼上的各位哥哥姐姐弟弟妹妹了。
: 我真的是菜鸟,所以只看懂了oceandeep的回复。
: 不过怎么把选出来的数据存起来啊? 存到csv file.

s*********e
发帖数: 1051
9
SQLite?

【在 s*****n 的大作中提到】
: 太谢谢楼上的各位哥哥姐姐弟弟妹妹了。
: 我真的是菜鸟,所以只看懂了oceandeep的回复。
: 不过怎么把选出来的数据存起来啊? 存到csv file.

r*******n
发帖数: 3020
10
文件有多大?

;

【在 s*****n 的大作中提到】
: 我有一个大的csv数据文件,超过 1 billion 条数据。 我们的数据库都不能处理这
: 么大的文件。
: 想用Python选一部分数据出来,就是做类似于sql: select *** from *** where ***;
: 这样的工作。 然后把选出来的小块数据读到数据库里去用。
: 有没有大侠给指点一二?
: 怎么做啊? 急等。
: 谢谢!

相关主题
这波Big Data下来JVM大胜,.NET大败呀。Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?那些做 big data 的公司到底需要什么样的人?
试了下spark,不过如此啊感觉flink出来之后,hadoop就显得不怎么再需要了
进入Programming版参与讨论
t****a
发帖数: 1212
11
不要用python,用awk就够啦!awk是linux里处理csv,tsv之类的最好最方便的工具,不
用费力气去写python程序。google一下awk的wiki就知道怎么用了。
另外你的文件很大,我猜测你用的是多CPU的linux服务器。这种情况下并行处理可能会
更快一些。我知道的办法是split成小文件以后,ls|xargs awk...|cat 再加并行的参
数 (好像是-P)之后可以合并结果文件。

;

【在 s*****n 的大作中提到】
: 我有一个大的csv数据文件,超过 1 billion 条数据。 我们的数据库都不能处理这
: 么大的文件。
: 想用Python选一部分数据出来,就是做类似于sql: select *** from *** where ***;
: 这样的工作。 然后把选出来的小块数据读到数据库里去用。
: 有没有大侠给指点一二?
: 怎么做啊? 急等。
: 谢谢!

h***t
发帖数: 2540
12
check sqlite3 module in python, it provides interface for SQL commands in
python

;

【在 s*****n 的大作中提到】
: 我有一个大的csv数据文件,超过 1 billion 条数据。 我们的数据库都不能处理这
: 么大的文件。
: 想用Python选一部分数据出来,就是做类似于sql: select *** from *** where ***;
: 这样的工作。 然后把选出来的小块数据读到数据库里去用。
: 有没有大侠给指点一二?
: 怎么做啊? 急等。
: 谢谢!

r*****d
发帖数: 727
13
为什么不用perl写,里面有match pattern,方便简单。你稍微google一下就行
http://work.lauralemay.com/samples/perl.html
E*****m
发帖数: 25615
14
記得用這個,省很多麻煩
http://docs.python.org/2/library/csv.html
H****S
发帖数: 1359
15
这个用awk肯定最方便,没有之一。
awk -F',' '{if () print $0}'
http://www.grymoire.com/Unix/Awk.html

;

【在 s*****n 的大作中提到】
: 我有一个大的csv数据文件,超过 1 billion 条数据。 我们的数据库都不能处理这
: 么大的文件。
: 想用Python选一部分数据出来,就是做类似于sql: select *** from *** where ***;
: 这样的工作。 然后把选出来的小块数据读到数据库里去用。
: 有没有大侠给指点一二?
: 怎么做啊? 急等。
: 谢谢!

z*******h
发帖数: 346
16
build a Hadoop cluster and use Hive.

;

【在 s*****n 的大作中提到】
: 我有一个大的csv数据文件,超过 1 billion 条数据。 我们的数据库都不能处理这
: 么大的文件。
: 想用Python选一部分数据出来,就是做类似于sql: select *** from *** where ***;
: 这样的工作。 然后把选出来的小块数据读到数据库里去用。
: 有没有大侠给指点一二?
: 怎么做啊? 急等。
: 谢谢!

1 (共1页)
进入Programming版参与讨论
相关主题
学Hadoop还是sparkCUDA 和 Hadoop 是不是算并行和分布的两个比较有前途的技术?
big data,菜凉?这波Big Data下来JVM大胜,.NET大败呀。
java很快吗?比python 能快多少?现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?
请问python能否在一个子程序里边创立独立的命名空间?试了下spark,不过如此啊
数据库小白请教:如果数据库文件很大,MySQL和Python Pandas分Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
用python分析big data,用哪个library好?那些做 big data 的公司到底需要什么样的人?
parsing file in node: js or python ?感觉flink出来之后,hadoop就显得不怎么再需要了
请教数据存储问题求助大神 如何迅速让DATA science 简历好看一点
相关话题的讨论汇总
话题: python话题: line话题: 数据话题: awk话题: open