w*****y 发帖数: 130 | 1
tab
谢谢楼上的mm,我是想把第一列里的11 , asdsd and 890.00读出来。他们现在被存在
同一个变量
里。 |
|
p***r 发帖数: 920 | 2 要反复调用不同的 variables to fit the regression model, it's like
glm(y~x_i, data)
i=1,2,.....n, (n>30) 名字一般都很长
但是如果用
i=i+1
names(data)[i]
可以出来变量名,但是放到glm 里面就不对,请问这个问题有什么好的办法么?谢谢啦 |
|
m********n 发帖数: 11 | 3 不是。你看看帮助应该会发现idvar = "id",说明默认的idvar是id。如果没有一个变
量叫id的,会自动生成一个id变量,值是1,2,3,... |
|
D*******a 发帖数: 207 | 4 楼主哪里是搞明白了,分明是搞糊涂了。你看他说的:
“搞明白了,谢谢楼上各位的热心帮忙x1,x2,...,xn 虽然是独立抽样得到的,但是他
们是同一个分
布 X~N(0,V),他们的分布是不是独立的。所以,他们的方差是 n^2* V”
“他们的分布是不是独立的”是什么意思,只有说随机变量之间是不是独立的,没听说
分布(distribution)是不是独立的。楼主这里得到了一个完全错误的结论。 |
|
w******g 发帖数: 313 | 5 x1,x2,x3,...,xn是两两独立的,所以他们的和的方差等于方差的和。
x和x明显不独立,所以x+x的方差不等于x的方差乘2。
从同一概率分布中随机取样得到的变量不意味着x+x+x+... |
|
m*****O 发帖数: 3558 | 6 问题问得不对
你其实是想问
X1 X2 iid 随机变量
X1+X2=2×X1吗
答案是:不 |
|
a********6 发帖数: 14468 | 7 我是新新手,所以还是用SPSS迅速搞定了。SAS应该也可以,但不自己手工输入变量可
能不行。 |
|
a********6 发帖数: 14468 | 8 终于在SAS里实现了,csv和excel都可以import,只是变量多,懒得把它们的属性一一修
改,不知道在分析数据时会有什么危害,欢迎懂行的人给三言两语科普一下。 |
|
f********t 发帖数: 117 | 9 I dont use sas.
why you cant do this
select v1,
max(v3) as V3_max
min(v3) as V3_min
max(year) as year_max
min(year) as year_min from a
group by v1
order by v1;
..
select a.*, v3_max, v3_min, year..
from aaa a
left join
( select v1,
max(v3) as V3_max
min(v3) as V3_min
max(year) as year_max
min(year) as year_min from a
group by v1
) bb
on (aaa.v1 = bb.v1)
where a.v3 = bb.v3_max or
....
发信人: pepsico (pepsico), 信区: Statistics
标 题: Re: 问个简单的SAS如何找出某个变量最大之所在的行?
发信站: BBS 未名空间站 (Tue Jul 27 16:59:44 |
|
z****n 发帖数: 67 | 10 现在有一个data set,如下:
data survey;
input id diet exer hours xwk educ;
datalines;
1 1 . 1 3 1
1 . 2 1 4 2
1 . 4 . . .
1 1 5 2 3 .
2 . 9 2 3 .
2 5 9 2 4 .
2 . 3 . 5 3
3 2 . . . .
;
我有一个macro可以自动count给定列的每个id的missing value个数,但只能够给出一
列。如果
我想要写一个macro,运行一次自动给出多列,比如此列中diet exer educ的missing
value
该怎么改呢,是否该用array?(实际我要用的data set 有300 多个变量需要测missing
value)
options nodate pageno=1 linesize=80 pagesize=60;
%macro countm(col);
count(case
when &col~= . then "count me"
end) as N |
|
a********s 发帖数: 188 | 11 提示点思路吧。。。
(1)可以先用proc contents输出每个variable name
(2)用 call symput 建立一组macro variables, ex: var1, var2,...
(3) 在proc sql中用DO Loop 算 nmiss(&&var&i)...
这样应该可以实现。 我以前写过一个简单的算每个变量的missing proportion的macro
。找不到在哪里了。。。 相信proc means也很好实现。 |
|
P****D 发帖数: 11146 | 12 那是老黄历了,现在是32767了。不过默认长度是200,你要更长的要事先声明length。
另:宏字符变量长度也有限制的,也是32767。 |
|
B***h 发帖数: 264 | 13 想用简单的方法,我用过first做numeric变量,
但是似乎没有说可以做character的。
var acct target
aaa 1234 dog
aaa 1266 cat
bbb 2234 rat
就是想看同样的var,不同的acct,有什么样的target组合。
我的想法是,
data one;
set sample;
by var acct;
retain A;
format A $10.; informat A $10.;
if first.var then A=target;
else A=A||target;
run;
我想出来的是,
var A
aaa dogcat
aaa dogcat
bbb rat
但是结果是
var A
aaa dog
aaa dog (cat没有加上去)
bbb rat
因为不是macro,所以我理解之前的record没法记录后来的
record的值,可是如果last的那个record记录了之前的
字符串,那也成了,可是这里它只记录first的字符串。。。
哪位高手指点一下?
多谢哈! |
|
|
a*****3 发帖数: 601 | 15 还有我印象里宏变量默认长度是256(?),怎么这个报错说截成60了? |
|
h*********y 发帖数: 183 | 16 宏变量长度好像有10000多字节,应该不止这么少 |
|
j******4 发帖数: 6090 | 17 data a;
set a;
新变量 = ××××;
run; |
|
S********a 发帖数: 359 | 18 有100个数据,有个变量名叫:date, 数据是06/17/2008这种形式的
我想把数据分成三个dataset,07/20/2008前,07/20/2008~09/17/2008, 09/17/2008
以后
data b c d;
set a;
format date DATE9.;
date1 = '20JULY2008'd;
date2 = '17SEPT2008'd;
if date < date1 then output b;
if data > date2 then output d;
else output c;
run;
出了error msg : Invalid date/time/datetime constant '20JULY2008'd.
Invalid date/time/datetime constant '17SEPT2008'd.
麻烦帮我看看,我自己觉得没错啊,但是就是不行。
包子答谢! |
|
K****n 发帖数: 5970 | 19 不是PCA或者Factor analysis这种哈。我记得以前听过一种每次拿掉一个变量的试法 |
|
W**********E 发帖数: 242 | 20 结果变量是生存时间,有两个类似的预测因素X和Y。为了比较预测结果能力强弱,做以下分析:
1)将X,Y各分成4组,
2)在X每一亚组内,做log-rank test, 检验是否Y亚组有不同。记录p-values.
3)反过来,在Y每一亚组内,做做log-rank test, 检验是否X亚组有不同。记录p-
values.
假如在2)步骤,得到的p-values都小于0.05,而在3)步骤, 得到的
p-value都大于0.05, 那么说明在X亚组内存在不同群体,但在Y亚组病
人更同质,所以Y更能细分病人预测能力更强。
不知道以上方法有什么问题?不过在临床文章中比比皆是。
我只感觉上面方法一是需要大量的样本,还有要矫正多重比较,还有就是上面的方法结
果很大程度取决于你如何取分组的切点,所以比较结果不大可信。是否还有什么问题?
有高手谈谈? 谢谢 |
|
l**********g 发帖数: 426 | 21 谢谢!
想问一下,如果hours是连续变量的话,它可以做interaction么? |
|
R******d 发帖数: 1436 | 22 谢谢了。
为什么两个宏变量之间需要这个?.好像是连接的意思吧。 |
|
k*****u 发帖数: 1688 | 23 比如导入excel文档。excel变量名为 1st year salary ($),这种东西。 怎么改成
first_salary? 用proc datasets的modify好像不好搞
谢谢了
|
|
k********0 发帖数: 585 | 24 请教各位,谁知道用canonical expansion展开计算相关变量概率的公式,或哪里有相
关的网页连接
和书。万分感谢。 |
|
q**j 发帖数: 10612 | 25 终于到了这一步了。请大家推荐一下各种regression variable selection tools。比如
正常regression里面哪个比较好?
另外在ridge, lasso,LAR下面哪个好。还有什么glmnet的?我全部尝试一边,可以汇报
实际效果。
另外问一下,如果用lasso来选择变量,但是用Ordinary least square 估计系数和cov
ariance matrix,这样做合理吗?我要estimate system of equations,不知道lasso这
样的有现成package给用么?普通regression有package systemfit干这个。多谢了。 |
|
S********a 发帖数: 359 | 26 谢谢大侠回复,CODE里CHAR变量应该写成DATE对吗?看不太懂这个SCAN function在这
里怎么用的,为什么是从1,2,3开始的呢? |
|
h********o 发帖数: 103 | 27 CHAR变量 is your original variable.
SCAN(string,1,delimiter) is the Nth sub-string delimited by delimiter.
SCAN("01\21\2001",1,"") = 01
SCAN("01\21\2001",2,"") = 21
SCAN("01\21\2001",2,"") = 2001
The full code look like this
================================
DATA OLD;
INPUT CHAR : $10.;
CARDS;
3\3\1996
10\4\2006
10\20\2006
4\15\1997
13\15\1996
11789
;
DATA GOOD BAD(DROP = DATE);
SET OLD;
IF INDEX(CHAR,"") THEN DO;
MONTH = INPUT(SCAN(CHAR, 1, ""),$2.);
DAY = INPUT(SCAN(... 阅读全帖 |
|
p******k 发帖数: 23 | 28 对于高维数据(p~n,或 p>n)LQA或LLA 基本上是很难做的, 里面的矩阵求逆很容易就
出现singular. 用lasso做变量选择基本都是高伟数据, 如果低维的话直接用BIC好了
。 高维IRLS还是会出很多问题的。 |
|
y******n 发帖数: 188 | 29 如图,在只是知道第一列(obs)数据的情况下,
如何加入第二列变量group,并且赋值
谢谢 |
|
H*H 发帖数: 472 | 30
这里 a 就是相当于是截距,就是其他因素可能引起的,而不是由三种测量设备引起的
偏差;不知道这样说对不对。 Ye 作变量的话结果几乎都偏向Ye了,因为Ye比其他的都
大很多... 我主要是想知道什么引起了Y 跟Ye的偏差 |
|
h******e 发帖数: 1791 | 31 也许是encoding的问题,试试encoding = euc。
..., 怎么能读入中文的变量名呢?第二,我打开生成的SAS文件(即后缀是.sas7bdat)
,凡是中文的部分都呈现的问号,即???,但是proc print呈现的是中文,我的电脑
可以打中文和阅读中文,请教为啥和怎么让SAS文件(即.sas7bdat)也显示中文呢?万
分感谢!!! |
|
N******n 发帖数: 3003 | 32 get_quantiles <-function(diff_expr,diff_coex,klist,pop_size){
##### The function to get the "node_score_term" and "edge_score_term" of a
sub-network denoted by "vector"
my.fun<-function(vector){
return(diff_coex[vector[1],vector[2]])
}
# "vector" is a binary vector with length equal to the size of the whole
network.
# An element of value "1" indicates the inclusion of that gene in the
selected sub-network.
node_edge<-function(vector){
selected_subset<-which(vector==1)
n<-length(select... 阅读全帖 |
|
s*****e 发帖数: 157 | 33 一个sample中有两个变量,如何在sas里算他们平均值的商的standard deviation呢?
谢谢. |
|
z****e 发帖数: 702 | 34 假设有两个分布函数f(x)和g(y|an),an是某参数。
现在当n趋于无穷大时,g(y|an)将在函数形式上全等于f(x),
那么在这种情况下,我们可以说随机变量Y收敛于X么?如果可以的话,
这是一种什么样的收敛,如何给出严谨的定义呢?
Thanks |
|
i****f 发帖数: 979 | 35 譬如说我有一组变量
group_all
1
2
3
4
5
6
怎样才能变为
group1 group2
1 4
2 5
3 6
多谢啦 |
|
l*****o 发帖数: 61 | 36 用原来那样的格式怎么样给每个变量算年间的差值呢?鞠躬谢! |
|
s**d 发帖数: 148 | 37 一个categorical variable是一个长的,动态(并且含有noise) 的字符串的组合,例如:
有的是:name + "noise1"+ age + salary
有的是:name + status+ "noise2" + level
有的是:age + level + gender +"noise3"
.......
问题:怎样对这个复杂分类变量降维,能被分析? |
|
c********g 发帖数: 193 | 38 我要生成一个8个字符变量,每一个字符从A-Z随机取值,一共会有26^8个值,如果用do
loop的话,太费资源了,有什么简单的办法吗? |
|
W**********E 发帖数: 242 | 39 用LASSO,系数是biased因为shrinkage而且没有p-value。那么拿LASSO单纯地当挑选变
量的方法,重新用这些变量refit regression有何弊端? |
|
|
t*****8 发帖数: 157 | 41 今天我的同事说logistic regression中的ROC curve可以用来比较变量。比如说,
dependent variable 是y, independent variable x1 ,ROC curve是0.8;dependent
variable 还是y, independent variable 换成 x2, ROC curve是0.6. 所以x1比x2是
更strong的predictor。我印象, ROC curve只能用来看model是不是fit well, 如果
比较varible, 应该用p value. 我对还是我同事对? |
|
t*****8 发帖数: 157 | 42 已作修改。谢谢。
会不会出现model1 roc>model2 roc, 但是把2 个变量放到同一model里,p1> p2? 到底
看roc还是p? |
|
c********h 发帖数: 330 | 43 我觉得可以这样理解,像是lesion study里面,首先有一个roc curve对应于y ~ x1 +
x2.
然后model1 roc和model2 roc分别是去掉x2和去掉x1后的roc,如果model1 roc >
model2 roc,说明在x1存在的情况下,去掉x2的影响,要比在x2存在时去掉x1的影响小。
相应的看p-value,对于y ~ x1 + x2里每个变量的p-value,也是significance in
addition to the existence of the other variable。不知道这样理解会不会好一点?
你说的情况,我觉得可能会出现,毕竟roc和p-value不是等价的,还有可能出两条roc
intersect。p-value的话,就比较straightforward,对应于一个hypothesis test。
一点点想法,不对的话,请指教~ |
|
A*******s 发帖数: 3942 | 44 比较单变量的AUC等价于wilcoxon test,算nonparametric方法, 看的是ranking
ability
你说的P value应该是wald test吧,算parametric方法,看的是有多符合线性假设。
dependent |
|
d**********0 发帖数: 222 | 45 sas的文件名以月和天结尾,比如order0401.dat表示是4月1号的数据。现在一共有15个
数据,代表了从4月1号直到4月15号。要combine这些data,需要增添一个时间变量,
order date,等于文件名末的数字再加上年份,形成orderdate=20140401.
因为是通过从文件名中做来设定日期,想用macro做do loop,但没调出来。请大虾帮忙
。 |
|
w******p 发帖数: 17 | 46 下列数据,只有两个变量x (寄给用户的广告数量), y(用户是否购买,1 or 0).
X:2,5,1,8,0..........
Y: 0,1,0,1,0..........
问题: X能否预测Y?
我想是用logistic regression, 计算p value 是否小于0.05.
这个是正确的方法吗?
谢谢。 |
|
l*******r 发帖数: 713 | 47 变量X取值范围是负无穷到正无穷,pdf不对称,看上去像是skewed正态分布的pdf,且
可能有一到两个参数。在不同的参数下pdf的峰值对应的X可能为正或为负。有这么一种
分布吗?
★ 发自iPhone App: ChineseWeb 1.0.2 |
|
s******l 发帖数: 65 | 48 需要把带有零值的变量作log转换。明显log(0)是没有意义的,但是前提是又不能剔出
任何零值,请教在建模时该怎么处理这些零值呢?
非常感谢! |
|
m***c 发帖数: 118 | 49 我有一个data其中一个变量是x1,x1有4个值(a, b, c, d),在fit model之后结果发现
只有a和b是significant.d是baseline,比如x1='a'时,x1=0.1 / x1='b'时,x1=0.6 / x1
='c'时,x1=0.3.
此时我想score一个新data,如果x1='a'/'b',直接带入系数,如果x1='d'则x1=0,但是x1=
'c'的时候,x1是0,还是用他的系数0.3?
thanks a lot!!! |
|
K*****2 发帖数: 9308 | 50 显然不能啊,只有一个c不显著,你怎么能把a,b系数全都设成0?
而且扔掉一个变量以后,肯定要重新fit model,哪能直接扔系数的 |
|