由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 【求助】Large Dataset Management
相关主题
怎么用SAS做加减乘除怎么用SAS transpose这两dataset呀?
SAS base questiondata reading question in SAS
SAS sampling的问题SAS新手问一个做很多次比较的问题
求教 SAS base 123 Q 16包子问,SAS里data long to wide format
新手请SAS合并数据集问题A SAS problem
SAS problem ask for help![合集] SAS里如何实现LOCF(LAST OBS CARRIED FORWARD)?
sas大牛们这个要怎么实现呀in =option的一道题
one quick question about concatenating data in SASAsk a SAS Base question?
相关话题的讨论汇总
话题: dataset话题: snp话题: management话题: large话题: iid
进入Statistics版参与讨论
1 (共1页)
a***r
发帖数: 420
1
需要生产一个格式为
FAMID IID F M Sex SNP1 SNP2 SNP3...的text file,
用作一个软件(MACH,版上搞生统的牛人应该知道)的input file
SNP的个数为2.5 million,IID有100个
原来的数据是以每个IID的每个SNP为一个observation存储在很长的dataset里的(250
million observation)
为了生成上述的文件,最直接的方法可能是对原dataset做proc transpose及其它相应操
作,生成一个上述格式的dataset然后export;
可是我仅仅是对原dataset的两个变量进行了一点改变,就从早上到现在还没跑完(服务
器上),服务器是32位的linux
我不知道要做完我计划的proc sql和proc transpose,会花多长时间
我完全没有处理这么大数据库的经验,实在有点了无头绪
要生成这样的text file,用SAS是合适的选择么?如果用SAS,有没有更好的方法呢?或
者,应该选择其他的软件和方法?
诚心求教,望大家指点!
先谢过~bow
d*******o
发帖数: 493
2
raw文本有多大,SNP是numeric还是character变量,多少level,怎么读进的,生成的
SAS dataset体积有多大?
a***r
发帖数: 420
3
raw文本是genomestudio产生的final report,text file,20G
用infile,input读入SAS,生成的dataset 30G...
SNP是char变量,还没有code成num,现在是“G G”的形式,所以level要说的话,应该
认为有16个
我原来也怀疑这么大的dataset行不行,因为这个读入就花了4,5个小时,但后来还是硬
着头皮上了
如果需要学习其他的软件来做data management,我也很乐意,但是不知道学什么好?
因为后面还有一个778G的final report,转成dataset380G,我还没有处理 ...
谢谢!

【在 d*******o 的大作中提到】
: raw文本有多大,SNP是numeric还是character变量,多少level,怎么读进的,生成的
: SAS dataset体积有多大?

s******r
发帖数: 1524
4
why use this format?
Why not
FAMID IID F M Sex SNP_ID, SNP_value?
Or break it into two tables like
IID SNP_ID, SNP_value

【在 a***r 的大作中提到】
: raw文本是genomestudio产生的final report,text file,20G
: 用infile,input读入SAS,生成的dataset 30G...
: SNP是char变量,还没有code成num,现在是“G G”的形式,所以level要说的话,应该
: 认为有16个
: 我原来也怀疑这么大的dataset行不行,因为这个读入就花了4,5个小时,但后来还是硬
: 着头皮上了
: 如果需要学习其他的软件来做data management,我也很乐意,但是不知道学什么好?
: 因为后面还有一个778G的final report,转成dataset380G,我还没有处理 ...
: 谢谢!

l*********s
发帖数: 5409
5
using SAS will incur lots of unnecessary overhead, it is best to write a
script to do the conversion.
i********f
发帖数: 206
6
用C或者C++应该是最快的吧
用Perl应该也还好
不知道数据的具体结构,也许可以用awk这些简单的linux命令做

250
应操
服务

【在 a***r 的大作中提到】
: 需要生产一个格式为
: FAMID IID F M Sex SNP1 SNP2 SNP3...的text file,
: 用作一个软件(MACH,版上搞生统的牛人应该知道)的input file
: SNP的个数为2.5 million,IID有100个
: 原来的数据是以每个IID的每个SNP为一个observation存储在很长的dataset里的(250
: million observation)
: 为了生成上述的文件,最直接的方法可能是对原dataset做proc transpose及其它相应操
: 作,生成一个上述格式的dataset然后export;
: 可是我仅仅是对原dataset的两个变量进行了一点改变,就从早上到现在还没跑完(服务
: 器上),服务器是32位的linux

a***r
发帖数: 420
7
嗯,原来的dataset就是这样的格式的
是因为需要上述格式的text input,我想做一个这样格式的dataset然后输出
现在看来可能不太行

【在 s******r 的大作中提到】
: why use this format?
: Why not
: FAMID IID F M Sex SNP_ID, SNP_value?
: Or break it into two tables like
: IID SNP_ID, SNP_value

a***r
发帖数: 420
8
嗯,试试看,谢谢

【在 l*********s 的大作中提到】
: using SAS will incur lots of unnecessary overhead, it is best to write a
: script to do the conversion.

a***r
发帖数: 420
9
请问您体会perl相比C/C++的优缺点有些什么?
一直想学,还没动手,
如果很有用,就这次开始学了

【在 i********f 的大作中提到】
: 用C或者C++应该是最快的吧
: 用Perl应该也还好
: 不知道数据的具体结构,也许可以用awk这些简单的linux命令做
:
: 250
: 应操
: 服务

q********i
发帖数: 795
10
100个样本个数的gwas数据有点鸡肋
s*r
发帖数: 2757
11
不是不做statgen吗
a***r
发帖数: 420
12
嗯,其实不用来找association
这是preliminary data

【在 q********i 的大作中提到】
: 100个样本个数的gwas数据有点鸡肋
a***r
发帖数: 420
13
呵呵,看来看去,觉得学校还是这方面强一些
数据资源丰富,方法上的可以尝试的选择也比较多
不过客观说,部分也是因为搞clinical trial的教授不鸟我囧
谢谢你还记得哈~

【在 s*r 的大作中提到】
: 不是不做statgen吗
1 (共1页)
进入Statistics版参与讨论
相关主题
Ask a SAS Base question?新手请SAS合并数据集问题
求问一道SAS adv 题SAS problem ask for help!
SAS应用问题sas大牛们这个要怎么实现呀
[提问]怎样提取SAS Dateset的observation number?one quick question about concatenating data in SAS
怎么用SAS做加减乘除怎么用SAS transpose这两dataset呀?
SAS base questiondata reading question in SAS
SAS sampling的问题SAS新手问一个做很多次比较的问题
求教 SAS base 123 Q 16包子问,SAS里data long to wide format
相关话题的讨论汇总
话题: dataset话题: snp话题: management话题: large话题: iid