由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 如何把1个文件分成22个以chromosone为单位的文件 (转载)
相关主题
[合集] 请教如何分析tag SNPs 以找出和疾病相关的Markers【R】关于R的variable type
急问有关SVM,randomforest的问题(gene expression data)有多少人在用plink
如何合并两个数据文件 (转载)我来白话两句 bioinformatics
[合集] 关于txt文件和excel文件转换的问题,急~linkage study 的软件选择
[SAS] number of missing values for character vars有人用过MERLIN 这个program吗?
[合集] 怎样fit 这个 gene-SNP 的mixed model?Student intern position open in biostatistics
Re: 请教一个统计学问题,需要多少个SNPs去鉴定一个人 (转载)请问:统计的MS, 想再读一个PHD,大概要多久
请教一下如何用ibs matrix 做cluster analysisGWAS前景
相关话题的讨论汇总
话题: 101001话题: 10100101话题: 10100102话题: 文件话题: 分成
进入Statistics版参与讨论
1 (共1页)
w*****1
发帖数: 473
1
【 以下文字转载自 DataSciences 讨论区 】
发信人: wz99331 (dotti), 信区: DataSciences
标 题: 如何把1个文件分成22个以chromosone为单位的文件
发信站: BBS 未名空间站 (Mon Mar 31 18:19:51 2014, 美东)
我想用merlin做gwas,结果说内存不够,问了作者,建议把我的ped 文件分成22个文
件,每个chromosome一个文件。请问plink里面有命令可以把包括22个chromosome的
ped file和map file分成以每个chromosome为单位的22个子文件吗?
另外分成22个后,如何产生merlin 需要的.dat file呢?谢谢!
S******y
发帖数: 1123
2
can you share some sample data here?
Python may be up to the task...

【在 w*****1 的大作中提到】
: 【 以下文字转载自 DataSciences 讨论区 】
: 发信人: wz99331 (dotti), 信区: DataSciences
: 标 题: 如何把1个文件分成22个以chromosone为单位的文件
: 发信站: BBS 未名空间站 (Mon Mar 31 18:19:51 2014, 美东)
: 我想用merlin做gwas,结果说内存不够,问了作者,建议把我的ped 文件分成22个文
: 件,每个chromosome一个文件。请问plink里面有命令可以把包括22个chromosome的
: ped file和map file分成以每个chromosome为单位的22个子文件吗?
: 另外分成22个后,如何产生merlin 需要的.dat file呢?谢谢!

a*******7
发帖数: 772
3
试试这个:
http://watson.hgen.pitt.edu/docs/mega2_html/mega2.html

【在 w*****1 的大作中提到】
: 【 以下文字转载自 DataSciences 讨论区 】
: 发信人: wz99331 (dotti), 信区: DataSciences
: 标 题: 如何把1个文件分成22个以chromosone为单位的文件
: 发信站: BBS 未名空间站 (Mon Mar 31 18:19:51 2014, 美东)
: 我想用merlin做gwas,结果说内存不够,问了作者,建议把我的ped 文件分成22个文
: 件,每个chromosome一个文件。请问plink里面有命令可以把包括22个chromosome的
: ped file和map file分成以每个chromosome为单位的22个子文件吗?
: 另外分成22个后,如何产生merlin 需要的.dat file呢?谢谢!

w*****1
发帖数: 473
4
这是.ped file: 一共3000多行,几十万列,包括22个chromosome的snps
没有head:
101001 10100100 10100101 10100102 1 0.83880973 0 0 C C C T...
101001 10100101 0     0  1 0 C C C G C C...
101001 10100102 0     0 2 0 C T G G C C ..
101001 10100103 10100101 10100102 1 -0.307705011 C C C G C T ..
101001 10100104 10100101 10100102 2 -0.530048238 T T G G C C ..
101001 10100105 10100101 10100102 1 -1.086252879 C T C G C T ..
.
.
.
还有.map file:
1 rs9629043 0 554636
1 rs11510103 0 557616
1 rs12565286 0 711153
1 rs12082473 0 730720
1 rs3094315 0 742429
1 rs2286139 0 751595
1 rs2980319 0 766985
1 rs2980300 0 775852
1 rs11240777 0 788822
1 rs3748597 0 878522
.
.
.
w********m
发帖数: 1137
5
cut or slice ?
H**n
发帖数: 43
6
UNIX?
it should be very easy
for i in {1..22}; do plink --file yourfile --chr ${i} --recode --out
yourfile_chr${i}; done
z******n
发帖数: 397
7
use option --chr

【在 w*****1 的大作中提到】
: 这是.ped file: 一共3000多行,几十万列,包括22个chromosome的snps
: 没有head:
: 101001 10100100 10100101 10100102 1 0.83880973 0 0 C C C T...
: 101001 10100101 0     0  1 0 C C C G C C...
: 101001 10100102 0     0 2 0 C T G G C C ..
: 101001 10100103 10100101 10100102 1 -0.307705011 C C C G C T ..
: 101001 10100104 10100101 10100102 2 -0.530048238 T T G G C C ..
: 101001 10100105 10100101 10100102 1 -1.086252879 C T C G C T ..
: .
: .

1 (共1页)
进入Statistics版参与讨论
相关主题
GWAS前景[SAS] number of missing values for character vars
想系统学一门计算机语言,是学c呢,还是c++?[合集] 怎样fit 这个 gene-SNP 的mixed model?
求推荐genetics入门Re: 请教一个统计学问题,需要多少个SNPs去鉴定一个人 (转载)
请问前辈们做genetics方向的话是不是不好找工作啊请教一下如何用ibs matrix 做cluster analysis
[合集] 请教如何分析tag SNPs 以找出和疾病相关的Markers【R】关于R的variable type
急问有关SVM,randomforest的问题(gene expression data)有多少人在用plink
如何合并两个数据文件 (转载)我来白话两句 bioinformatics
[合集] 关于txt文件和excel文件转换的问题,急~linkage study 的软件选择
相关话题的讨论汇总
话题: 101001话题: 10100101话题: 10100102话题: 文件话题: 分成