怎样用Python选一部分数据出来 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 怎样用Python选一部分数据出来

相关主题
● 数据库小白请教：如果数据库文件很大，MySQL和Python Pandas分	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● 用python分析big data，用哪个library好？	● 那些做 big data 的公司到底需要什么样的人？
● parsing file in node: js or python ?	● 感觉flink出来之后，hadoop就显得不怎么再需要了
● 请教数据存储问题	● 求助大神如何迅速让DATA science 简历好看一点
● CUDA 和 Hadoop 是不是算并行和分布的两个比较有前途的技术?	● 各位大牛，Apache Apex 怎么样？
● 这波Big Data下来JVM大胜，.NET大败呀。	● Big data question
● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？	● cs这几个方向，哪个现在和未来的状况最好？
● 试了下spark，不过如此啊	● 学Hadoop还是spark

相关话题的讨论汇总
话题: python话题: line话题: 数据话题: awk话题: open

进入Programming版参与讨论

(共1页)

s*****n
发帖数: 839

我有一个大的csv数据文件，超过 1 billion　条数据。　我们的数据库都不能处理这
么大的文件。
想用Python选一部分数据出来，就是做类似于sql: select *** from *** where ***;
这样的工作。　然后把选出来的小块数据读到数据库里去用。
有没有大侠给指点一二？
怎么做啊？　急等。
谢谢！

m*******l
发帖数: 12782

stream editor + regular expression

;

【在 s*****n 的大作中提到】

: 我有一个大的csv数据文件，超过 1 billion　条数据。　我们的数据库都不能处理这
: 么大的文件。
: 想用Python选一部分数据出来，就是做类似于sql: select *** from *** where ***;
: 这样的工作。　然后把选出来的小块数据读到数据库里去用。
: 有没有大侠给指点一二？
: 怎么做啊？　急等。
: 谢谢！

s*****n
发帖数: 839

能不能说得详细点？　我是菜鸟。
谢谢了！！

【在 m*******l 的大作中提到】

: stream editor + regular expression
:
: ;

s*********e
发帖数: 1051

do the chunk read with pandas package

;

【在 s*****n 的大作中提到】

a****e
发帖数: 9589

sed
http://linux.about.com/od/commands/l/blcmdl1_sed.htm
like:
sed '/regexp_of_what_you_want/p' file.csv > result.csv

o*******p
发帖数: 27

如果redirect输出到文件，只要4行就好了,
for line in open('big.csv'):
fields = line.split(',')
if fields[n] = 'keep': # the where clause
print line

;

【在 s*****n 的大作中提到】

s*****n
发帖数: 839

太谢谢楼上的各位哥哥姐姐弟弟妹妹了。
我真的是菜鸟，所以只看懂了oceandeep的回复。
不过怎么把选出来的数据存起来啊？　存到csv file.

a****e
发帖数: 9589

我是大叔
with open('result.csv', 'w+') as result:
with open('big.csv', 'r') as big:
for line in big:
if line.split(',')[n] == 'what you want':
result.write(line)

【在 s*****n 的大作中提到】

: 太谢谢楼上的各位哥哥姐姐弟弟妹妹了。
: 我真的是菜鸟，所以只看懂了oceandeep的回复。
: 不过怎么把选出来的数据存起来啊？　存到csv file.

s*********e
发帖数: 1051

SQLite?

【在 s*****n 的大作中提到】

: 太谢谢楼上的各位哥哥姐姐弟弟妹妹了。
: 我真的是菜鸟，所以只看懂了oceandeep的回复。
: 不过怎么把选出来的数据存起来啊？　存到csv file.

r*******n
发帖数: 3020

文件有多大？

;

【在 s*****n 的大作中提到】

相关主题
● 这波Big Data下来JVM大胜，.NET大败呀。	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？	● 那些做 big data 的公司到底需要什么样的人？
● 试了下spark，不过如此啊	● 感觉flink出来之后，hadoop就显得不怎么再需要了
进入Programming版参与讨论

t****a
发帖数: 1212

不要用python，用awk就够啦！awk是linux里处理csv,tsv之类的最好最方便的工具，不
用费力气去写python程序。google一下awk的wiki就知道怎么用了。
另外你的文件很大，我猜测你用的是多CPU的linux服务器。这种情况下并行处理可能会
更快一些。我知道的办法是split成小文件以后，ls|xargs awk...|cat 再加并行的参
数（好像是-P）之后可以合并结果文件。

;

【在 s*****n 的大作中提到】

h***t
发帖数: 2540

check sqlite3 module in python, it provides interface for SQL commands in
python

;

【在 s*****n 的大作中提到】

r*****d
发帖数: 727

为什么不用perl写，里面有match pattern，方便简单。你稍微google一下就行
http://work.lauralemay.com/samples/perl.html

E*****m
发帖数: 25615

記得用這個，省很多麻煩
http://docs.python.org/2/library/csv.html

H****S
发帖数: 1359

这个用awk肯定最方便，没有之一。
awk -F',' '{if () print $0}'
http://www.grymoire.com/Unix/Awk.html

;

【在 s*****n 的大作中提到】

z*******h
发帖数: 346

build a Hadoop cluster and use Hive.

;

【在 s*****n 的大作中提到】

(共1页)

进入Programming版参与讨论

相关主题
● 学Hadoop还是spark	● CUDA 和 Hadoop 是不是算并行和分布的两个比较有前途的技术?
● big data,菜凉?	● 这波Big Data下来JVM大胜，.NET大败呀。
● java很快吗？比python 能快多少？	● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？
● 请问python能否在一个子程序里边创立独立的命名空间？	● 试了下spark，不过如此啊
● 数据库小白请教：如果数据库文件很大，MySQL和Python Pandas分	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● 用python分析big data，用哪个library好？	● 那些做 big data 的公司到底需要什么样的人？
● parsing file in node: js or python ?	● 感觉flink出来之后，hadoop就显得不怎么再需要了
● 请教数据存储问题	● 求助大神如何迅速让DATA science 简历好看一点

相关话题的讨论汇总
话题: python话题: line话题: 数据话题: awk话题: open

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天