由买买提看人间百态

topics

全部话题 - 话题: 变量
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
w*****y
发帖数: 130
1

tab
谢谢楼上的mm,我是想把第一列里的11 , asdsd and 890.00读出来。他们现在被存在
同一个变量
里。
p***r
发帖数: 920
2
来自主题: Statistics版 - 在 R 里面如何循环调用变量名
要反复调用不同的 variables to fit the regression model, it's like
glm(y~x_i, data)
i=1,2,.....n, (n>30) 名字一般都很长
但是如果用
i=i+1
names(data)[i]
可以出来变量名,但是放到glm 里面就不对,请问这个问题有什么好的办法么?谢谢啦
m********n
发帖数: 11
3
来自主题: Statistics版 - 怎样用R定位变量的位置
不是。你看看帮助应该会发现idvar = "id",说明默认的idvar是id。如果没有一个变
量叫id的,会自动生成一个id变量,值是1,2,3,...
D*******a
发帖数: 207
4
楼主哪里是搞明白了,分明是搞糊涂了。你看他说的:
“搞明白了,谢谢楼上各位的热心帮忙x1,x2,...,xn 虽然是独立抽样得到的,但是他
们是同一个分
布 X~N(0,V),他们的分布是不是独立的。所以,他们的方差是 n^2* V”
“他们的分布是不是独立的”是什么意思,只有说随机变量之间是不是独立的,没听说
分布(distribution)是不是独立的。楼主这里得到了一个完全错误的结论。
w******g
发帖数: 313
5
x1,x2,x3,...,xn是两两独立的,所以他们的和的方差等于方差的和。
x和x明显不独立,所以x+x的方差不等于x的方差乘2。
从同一概率分布中随机取样得到的变量不意味着x+x+x+...
m*****O
发帖数: 3558
6
问题问得不对
你其实是想问
X1 X2 iid 随机变量
X1+X2=2×X1吗
答案是:不
a********6
发帖数: 14468
7
我是新新手,所以还是用SPSS迅速搞定了。SAS应该也可以,但不自己手工输入变量可
能不行。
a********6
发帖数: 14468
8
终于在SAS里实现了,csv和excel都可以import,只是变量多,懒得把它们的属性一一修
改,不知道在分析数据时会有什么危害,欢迎懂行的人给三言两语科普一下。
f********t
发帖数: 117
9
I dont use sas.
why you cant do this
select v1,
max(v3) as V3_max
min(v3) as V3_min
max(year) as year_max
min(year) as year_min from a
group by v1
order by v1;
..
select a.*, v3_max, v3_min, year..
from aaa a
left join
( select v1,
max(v3) as V3_max
min(v3) as V3_min
max(year) as year_max
min(year) as year_min from a
group by v1
) bb
on (aaa.v1 = bb.v1)
where a.v3 = bb.v3_max or
....

发信人: pepsico (pepsico), 信区: Statistics
标 题: Re: 问个简单的SAS如何找出某个变量最大之所在的行?
发信站: BBS 未名空间站 (Tue Jul 27 16:59:44
z****n
发帖数: 67
10
现在有一个data set,如下:
data survey;
input id diet exer hours xwk educ;
datalines;
1 1 . 1 3 1
1 . 2 1 4 2
1 . 4 . . .
1 1 5 2 3 .
2 . 9 2 3 .
2 5 9 2 4 .
2 . 3 . 5 3
3 2 . . . .
;
我有一个macro可以自动count给定列的每个id的missing value个数,但只能够给出一
列。如果
我想要写一个macro,运行一次自动给出多列,比如此列中diet exer educ的missing
value
该怎么改呢,是否该用array?(实际我要用的data set 有300 多个变量需要测missing
value)
options nodate pageno=1 linesize=80 pagesize=60;
%macro countm(col);
count(case
when &col~= . then "count me"
end) as N
a********s
发帖数: 188
11
提示点思路吧。。。
(1)可以先用proc contents输出每个variable name
(2)用 call symput 建立一组macro variables, ex: var1, var2,...
(3) 在proc sql中用DO Loop 算 nmiss(&&var&i)...
这样应该可以实现。 我以前写过一个简单的算每个变量的missing proportion的macro
。找不到在哪里了。。。 相信proc means也很好实现。
P****D
发帖数: 11146
12
那是老黄历了,现在是32767了。不过默认长度是200,你要更长的要事先声明length。
另:宏字符变量长度也有限制的,也是32767。
B***h
发帖数: 264
13
想用简单的方法,我用过first做numeric变量,
但是似乎没有说可以做character的。
var acct target
aaa 1234 dog
aaa 1266 cat
bbb 2234 rat
就是想看同样的var,不同的acct,有什么样的target组合。
我的想法是,
data one;
set sample;
by var acct;
retain A;
format A $10.; informat A $10.;
if first.var then A=target;
else A=A||target;
run;
我想出来的是,
var A
aaa dogcat
aaa dogcat
bbb rat
但是结果是
var A
aaa dog
aaa dog (cat没有加上去)
bbb rat
因为不是macro,所以我理解之前的record没法记录后来的
record的值,可是如果last的那个record记录了之前的
字符串,那也成了,可是这里它只记录first的字符串。。。
哪位高手指点一下?
多谢哈!
A*******s
发帖数: 3942
14
来自主题: Statistics版 - 可以在proc sql中定义新的变量吗?
可以,用逗号隔开各个变量就行
a*****3
发帖数: 601
15
还有我印象里宏变量默认长度是256(?),怎么这个报错说截成60了?
h*********y
发帖数: 183
16
宏变量长度好像有10000多字节,应该不止这么少
j******4
发帖数: 6090
17
来自主题: Statistics版 - 如何在一个dataset里加一个变量?
data a;
set a;
新变量 = ××××;
run;
S********a
发帖数: 359
18
来自主题: Statistics版 - 【包子】date 变量 赋值问题
有100个数据,有个变量名叫:date, 数据是06/17/2008这种形式的
我想把数据分成三个dataset,07/20/2008前,07/20/2008~09/17/2008, 09/17/2008
以后
data b c d;
set a;
format date DATE9.;
date1 = '20JULY2008'd;
date2 = '17SEPT2008'd;
if date < date1 then output b;
if data > date2 then output d;
else output c;
run;
出了error msg : Invalid date/time/datetime constant '20JULY2008'd.
Invalid date/time/datetime constant '17SEPT2008'd.
麻烦帮我看看,我自己觉得没错啊,但是就是不行。
包子答谢!
K****n
发帖数: 5970
19
不是PCA或者Factor analysis这种哈。我记得以前听过一种每次拿掉一个变量的试法
W**********E
发帖数: 242
20
结果变量是生存时间,有两个类似的预测因素X和Y。为了比较预测结果能力强弱,做以下分析:
1)将X,Y各分成4组,
2)在X每一亚组内,做log-rank test, 检验是否Y亚组有不同。记录p-values.
3)反过来,在Y每一亚组内,做做log-rank test, 检验是否X亚组有不同。记录p-
values.
假如在2)步骤,得到的p-values都小于0.05,而在3)步骤, 得到的
p-value都大于0.05, 那么说明在X亚组内存在不同群体,但在Y亚组病
人更同质,所以Y更能细分病人预测能力更强。
不知道以上方法有什么问题?不过在临床文章中比比皆是。
我只感觉上面方法一是需要大量的样本,还有要矫正多重比较,还有就是上面的方法结
果很大程度取决于你如何取分组的切点,所以比较结果不大可信。是否还有什么问题?
有高手谈谈? 谢谢
l**********g
发帖数: 426
21
谢谢!
想问一下,如果hours是连续变量的话,它可以做interaction么?
R******d
发帖数: 1436
22
来自主题: Statistics版 - sas的宏变量问题
谢谢了。
为什么两个宏变量之间需要这个?.好像是连接的意思吧。
k*****u
发帖数: 1688
23
比如导入excel文档。excel变量名为 1st year salary ($),这种东西。 怎么改成
first_salary? 用proc datasets的modify好像不好搞
谢谢了
k********0
发帖数: 585
24
请教各位,谁知道用canonical expansion展开计算相关变量概率的公式,或哪里有相
关的网页连接
和书。万分感谢。
q**j
发帖数: 10612
25
来自主题: Statistics版 - R里面regression 变量选择的package?
终于到了这一步了。请大家推荐一下各种regression variable selection tools。比如
正常regression里面哪个比较好?
另外在ridge, lasso,LAR下面哪个好。还有什么glmnet的?我全部尝试一边,可以汇报
实际效果。
另外问一下,如果用lasso来选择变量,但是用Ordinary least square 估计系数和cov
ariance matrix,这样做合理吗?我要estimate system of equations,不知道lasso这
样的有现成package给用么?普通regression有package systemfit干这个。多谢了。
S********a
发帖数: 359
26
来自主题: Statistics版 - 【包子】SAS 日期变量问题
谢谢大侠回复,CODE里CHAR变量应该写成DATE对吗?看不太懂这个SCAN function在这
里怎么用的,为什么是从1,2,3开始的呢?
h********o
发帖数: 103
27
来自主题: Statistics版 - 【包子】SAS 日期变量问题
CHAR变量 is your original variable.
SCAN(string,1,delimiter) is the Nth sub-string delimited by delimiter.
SCAN("01\21\2001",1,"") = 01
SCAN("01\21\2001",2,"") = 21
SCAN("01\21\2001",2,"") = 2001
The full code look like this
================================
DATA OLD;
INPUT CHAR : $10.;
CARDS;
3\3\1996
10\4\2006
10\20\2006
4\15\1997
13\15\1996
11789
;
DATA GOOD BAD(DROP = DATE);
SET OLD;
IF INDEX(CHAR,"") THEN DO;
MONTH = INPUT(SCAN(CHAR, 1, ""),$2.);
DAY = INPUT(SCAN(... 阅读全帖
p******k
发帖数: 23
28
对于高维数据(p~n,或 p>n)LQA或LLA 基本上是很难做的, 里面的矩阵求逆很容易就
出现singular. 用lasso做变量选择基本都是高伟数据, 如果低维的话直接用BIC好了
。 高维IRLS还是会出很多问题的。
y******n
发帖数: 188
29
来自主题: Statistics版 - sas 变量赋值问题
如图,在只是知道第一列(obs)数据的情况下,
如何加入第二列变量group,并且赋值
谢谢
H*H
发帖数: 472
30
来自主题: Statistics版 - 多元回归,小的变量怎么处理呢?

这里 a 就是相当于是截距,就是其他因素可能引起的,而不是由三种测量设备引起的
偏差;不知道这样说对不对。 Ye 作变量的话结果几乎都偏向Ye了,因为Ye比其他的都
大很多... 我主要是想知道什么引起了Y 跟Ye的偏差
h******e
发帖数: 1791
31
也许是encoding的问题,试试encoding = euc。

..., 怎么能读入中文的变量名呢?第二,我打开生成的SAS文件(即后缀是.sas7bdat)
,凡是中文的部分都呈现的问号,即???,但是proc print呈现的是中文,我的电脑
可以打中文和阅读中文,请教为啥和怎么让SAS文件(即.sas7bdat)也显示中文呢?万
分感谢!!!
N******n
发帖数: 3003
32
get_quantiles <-function(diff_expr,diff_coex,klist,pop_size){
##### The function to get the "node_score_term" and "edge_score_term" of a
sub-network denoted by "vector"
my.fun<-function(vector){
return(diff_coex[vector[1],vector[2]])
}
# "vector" is a binary vector with length equal to the size of the whole
network.
# An element of value "1" indicates the inclusion of that gene in the
selected sub-network.
node_edge<-function(vector){
selected_subset<-which(vector==1)
n<-length(select... 阅读全帖
s*****e
发帖数: 157
33
一个sample中有两个变量,如何在sas里算他们平均值的商的standard deviation呢?
谢谢.
z****e
发帖数: 702
34
来自主题: Statistics版 - 问一个随机变量分布的收敛的问题
假设有两个分布函数f(x)和g(y|an),an是某参数。
现在当n趋于无穷大时,g(y|an)将在函数形式上全等于f(x),
那么在这种情况下,我们可以说随机变量Y收敛于X么?如果可以的话,
这是一种什么样的收敛,如何给出严谨的定义呢?
Thanks
i****f
发帖数: 979
35
来自主题: Statistics版 - 如何把一个变量分割成两个
譬如说我有一组变量
group_all
1
2
3
4
5
6
怎样才能变为
group1 group2
1 4
2 5
3 6
多谢啦
l*****o
发帖数: 61
36
来自主题: Statistics版 - 重新安排变量的问题
用原来那样的格式怎么样给每个变量算年间的差值呢?鞠躬谢!
s**d
发帖数: 148
37
来自主题: Statistics版 - 复杂分类变量recoding?
一个categorical variable是一个长的,动态(并且含有noise) 的字符串的组合,例如:
有的是:name + "noise1"+ age + salary
有的是:name + status+ "noise2" + level
有的是:age + level + gender +"noise3"
.......
问题:怎样对这个复杂分类变量降维,能被分析?
c********g
发帖数: 193
38
来自主题: Statistics版 - 如何用SAS 生成一个组合变量?
我要生成一个8个字符变量,每一个字符从A-Z随机取值,一共会有26^8个值,如果用do
loop的话,太费资源了,有什么简单的办法吗?
W**********E
发帖数: 242
39
用LASSO,系数是biased因为shrinkage而且没有p-value。那么拿LASSO单纯地当挑选变
量的方法,重新用这些变量refit regression有何弊端?
D**u
发帖数: 288
40
lasso的 'p-value' 最近已经被弄出来了参见官方package http://cran.r-project.org/web/packages/covTest/covTest.pdf
先lasso 再lr后的结果肯定没有lasso直接出来的好,不过也有可能直接lr结果比lasso
还好. 具体操作的话,如果变量太多而且就想用lasso来选择,并且不想用这个R的pkg
话,倒是可以先lasso再lr。
t*****8
发帖数: 157
41
来自主题: Statistics版 - ROC curve可以用来比较变量吗
今天我的同事说logistic regression中的ROC curve可以用来比较变量。比如说,
dependent variable 是y, independent variable x1 ,ROC curve是0.8;dependent
variable 还是y, independent variable 换成 x2, ROC curve是0.6. 所以x1比x2是
更strong的predictor。我印象, ROC curve只能用来看model是不是fit well, 如果
比较varible, 应该用p value. 我对还是我同事对?
t*****8
发帖数: 157
42
来自主题: Statistics版 - ROC curve可以用来比较变量吗
已作修改。谢谢。
会不会出现model1 roc>model2 roc, 但是把2 个变量放到同一model里,p1> p2? 到底
看roc还是p?
c********h
发帖数: 330
43
来自主题: Statistics版 - ROC curve可以用来比较变量吗
我觉得可以这样理解,像是lesion study里面,首先有一个roc curve对应于y ~ x1 +
x2.
然后model1 roc和model2 roc分别是去掉x2和去掉x1后的roc,如果model1 roc >
model2 roc,说明在x1存在的情况下,去掉x2的影响,要比在x2存在时去掉x1的影响小。
相应的看p-value,对于y ~ x1 + x2里每个变量的p-value,也是significance in
addition to the existence of the other variable。不知道这样理解会不会好一点?
你说的情况,我觉得可能会出现,毕竟roc和p-value不是等价的,还有可能出两条roc
intersect。p-value的话,就比较straightforward,对应于一个hypothesis test。
一点点想法,不对的话,请指教~
A*******s
发帖数: 3942
44
来自主题: Statistics版 - ROC curve可以用来比较变量吗
比较单变量的AUC等价于wilcoxon test,算nonparametric方法, 看的是ranking
ability
你说的P value应该是wald test吧,算parametric方法,看的是有多符合线性假设。

dependent
d**********0
发帖数: 222
45
来自主题: Statistics版 - 如何添加时间变量
sas的文件名以月和天结尾,比如order0401.dat表示是4月1号的数据。现在一共有15个
数据,代表了从4月1号直到4月15号。要combine这些data,需要增添一个时间变量,
order date,等于文件名末的数字再加上年份,形成orderdate=20140401.
因为是通过从文件名中做来设定日期,想用macro做do loop,但没调出来。请大虾帮忙
w******p
发帖数: 17
46
来自主题: Statistics版 - 评价一个变量可预测性问题
下列数据,只有两个变量x (寄给用户的广告数量), y(用户是否购买,1 or 0).
X:2,5,1,8,0..........
Y: 0,1,0,1,0..........
问题: X能否预测Y?
我想是用logistic regression, 计算p value 是否小于0.05.
这个是正确的方法吗?
谢谢。
l*******r
发帖数: 713
47
来自主题: Statistics版 - 有这么一种单变量分布吗
变量X取值范围是负无穷到正无穷,pdf不对称,看上去像是skewed正态分布的pdf,且
可能有一到两个参数。在不同的参数下pdf的峰值对应的X可能为正或为负。有这么一种
分布吗?
★ 发自iPhone App: ChineseWeb 1.0.2
s******l
发帖数: 65
48
来自主题: Statistics版 - 请教:怎么转换有零值的变量?
需要把带有零值的变量作log转换。明显log(0)是没有意义的,但是前提是又不能剔出
任何零值,请教在建模时该怎么处理这些零值呢?
非常感谢!
m***c
发帖数: 118
49
我有一个data其中一个变量是x1,x1有4个值(a, b, c, d),在fit model之后结果发现
只有a和b是significant.d是baseline,比如x1='a'时,x1=0.1 / x1='b'时,x1=0.6 / x1
='c'时,x1=0.3.
此时我想score一个新data,如果x1='a'/'b',直接带入系数,如果x1='d'则x1=0,但是x1=
'c'的时候,x1是0,还是用他的系数0.3?
thanks a lot!!!
K*****2
发帖数: 9308
50
显然不能啊,只有一个c不显著,你怎么能把a,b系数全都设成0?
而且扔掉一个变量以后,肯定要重新fit model,哪能直接扔系数的
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)