第9页 - 关于变量的讨论汇总 - 话题女王

w*****y
发帖数: 130

来自主题: Statistics版 - 请问sas中一个变量的内容被两个左斜杠（/）分成了三部分

tab
谢谢楼上的mm,我是想把第一列里的11 ， asdsd and 890.00读出来。他们现在被存在
同一个变量
里。

p***r
发帖数: 920

要反复调用不同的 variables to fit the regression model, it's like
glm(y~x_i, data)
i=1,2,.....n，（n>30）名字一般都很长
但是如果用
i=i+1
names(data)[i]
可以出来变量名，但是放到glm 里面就不对，请问这个问题有什么好的办法么？谢谢啦

m********n
发帖数: 11

来自主题: Statistics版 - 怎样用R定位变量的位置

不是。你看看帮助应该会发现idvar = "id"，说明默认的idvar是id。如果没有一个变
量叫id的，会自动生成一个id变量，值是1,2,3,...

D*******a
发帖数: 207

来自主题: Statistics版 - X 是随机变量, 那么 X + X 等于 2* X 吗?

楼主哪里是搞明白了，分明是搞糊涂了。你看他说的：
“搞明白了，谢谢楼上各位的热心帮忙x1,x2,...,xn 虽然是独立抽样得到的，但是他
们是同一个分
布 X～N(0，V),他们的分布是不是独立的。所以，他们的方差是 n^2* V”
“他们的分布是不是独立的”是什么意思，只有说随机变量之间是不是独立的，没听说
分布（distribution）是不是独立的。楼主这里得到了一个完全错误的结论。

w******g
发帖数: 313

来自主题: Statistics版 - X 是随机变量, 那么 X + X 等于 2* X 吗?

x1,x2,x3,...,xn是两两独立的，所以他们的和的方差等于方差的和。
x和x明显不独立，所以x+x的方差不等于x的方差乘2。
从同一概率分布中随机取样得到的变量不意味着x+x+x+...

m*****O
发帖数: 3558

来自主题: Statistics版 - X 是随机变量, 那么 X + X 等于 2* X 吗?

问题问得不对
你其实是想问
X1 X2 iid 随机变量
X1+X2=2×X1吗
答案是：不

a********6
发帖数: 14468

来自主题: Statistics版 - Question: Importing csv file into SAS 9----太多变量

我是新新手，所以还是用SPSS迅速搞定了。SAS应该也可以，但不自己手工输入变量可
能不行。

a********6
发帖数: 14468

来自主题: Statistics版 - Question: Importing csv file into SAS 9----太多变量

终于在SAS里实现了，csv和excel都可以import,只是变量多，懒得把它们的属性一一修
改，不知道在分析数据时会有什么危害，欢迎懂行的人给三言两语科普一下。

f********t
发帖数: 117

来自主题: Statistics版 - 问个简单的SAS如何找出某个变量最大之所在的行？

I dont use sas.
why you cant do this
select v1,
max(v3) as V3_max
min(v3) as V3_min
max(year) as year_max
min(year) as year_min from a
group by v1
order by v1;
..
select a.*, v3_max, v3_min, year..
from aaa a
left join
( select v1,
max(v3) as V3_max
min(v3) as V3_min
max(year) as year_max
min(year) as year_min from a
group by v1
) bb
on (aaa.v1 = bb.v1)
where a.v3 = bb.v3_max or
....

发信人: pepsico (pepsico), 信区: Statistics
标题: Re: 问个简单的SAS如何找出某个变量最大之所在的行？
发信站: BBS 未名空间站 (Tue Jul 27 16:59:44

z****n
发帖数: 67

来自主题: Statistics版 - 请教如何用SAS计算多个变量的missing value？

现在有一个data set，如下：
data survey;
input id diet exer hours xwk educ;
datalines;
1 1 . 1 3 1
1 . 2 1 4 2
1 . 4 . . .
1 1 5 2 3 .
2 . 9 2 3 .
2 5 9 2 4 .
2 . 3 . 5 3
3 2 . . . .
;
我有一个macro可以自动count给定列的每个id的missing value个数，但只能够给出一
列。如果
我想要写一个macro，运行一次自动给出多列，比如此列中diet exer educ的missing
value
该怎么改呢，是否该用array？（实际我要用的data set 有300 多个变量需要测missing
value）
options nodate pageno=1 linesize=80 pagesize=60;
%macro countm(col);
count(case
when &col~= . then "count me"
end) as N

a********s
发帖数: 188

来自主题: Statistics版 - 请教如何用SAS计算多个变量的missing value？

提示点思路吧。。。
（1）可以先用proc contents输出每个variable name
（2）用 call symput 建立一组macro variables, ex: var1, var2,...
(3) 在proc sql中用DO Loop 算 nmiss（&&var&i）...
这样应该可以实现。我以前写过一个简单的算每个变量的missing proportion的macro
。找不到在哪里了。。。相信proc means也很好实现。

P****D
发帖数: 11146

来自主题: Statistics版 - 求教如何根据每一行创建一个满足条件的宏变量？非常有挑战性的问题！

那是老黄历了，现在是32767了。不过默认长度是200，你要更长的要事先声明length。
另：宏字符变量长度也有限制的，也是32767。

B***h
发帖数: 264

来自主题: Statistics版 - 想用first累计character的变量，可以吗？

想用简单的方法，我用过first做numeric变量，
但是似乎没有说可以做character的。
var acct target
aaa 1234 dog
aaa 1266 cat
bbb 2234 rat
就是想看同样的var，不同的acct，有什么样的target组合。
我的想法是，
data one;
set sample;
by var acct;
retain A;
format A $10.; informat A $10.;
if first.var then A=target;
else A=A||target;
run;
我想出来的是，
var A
aaa dogcat
aaa dogcat
bbb rat
但是结果是
var A
aaa dog
aaa dog （cat没有加上去）
bbb rat
因为不是macro，所以我理解之前的record没法记录后来的
record的值，可是如果last的那个record记录了之前的
字符串，那也成了，可是这里它只记录first的字符串。。。
哪位高手指点一下？
多谢哈！

A*******s
发帖数: 3942

来自主题: Statistics版 - 可以在proc sql中定义新的变量吗？

可以，用逗号隔开各个变量就行

a*****3
发帖数: 601

来自主题: Statistics版 - [问题]sql into产生宏变量长度的限制

还有我印象里宏变量默认长度是256（？），怎么这个报错说截成60了？

h*********y
发帖数: 183

来自主题: Statistics版 - [问题]sql into产生宏变量长度的限制

宏变量长度好像有10000多字节，应该不止这么少

j******4
发帖数: 6090

来自主题: Statistics版 - 如何在一个dataset里加一个变量？

data a;
set a;
新变量 = ××××；
run;

S********a
发帖数: 359

来自主题: Statistics版 - 【包子】date 变量赋值问题

有100个数据，有个变量名叫：date, 数据是06/17/2008这种形式的
我想把数据分成三个dataset，07/20/2008前，07/20/2008～09/17/2008, 09/17/2008
以后
data b c d;
set a;
format date DATE9.;
date1 = '20JULY2008'd;
date2 = '17SEPT2008'd;
if date < date1 then output b;
if data > date2 then output d;
else output c;
run;
出了error msg : Invalid date/time/datetime constant '20JULY2008'd.
Invalid date/time/datetime constant '17SEPT2008'd.
麻烦帮我看看，我自己觉得没错啊，但是就是不行。
包子答谢！

K****n
发帖数: 5970

来自主题: Statistics版 - 好多变量中筛选最有用的做拟合是叫 Relevance detection 么？哪些是比较常用的方法？

不是PCA或者Factor analysis这种哈。我记得以前听过一种每次拿掉一个变量的试法

W**********E
发帖数: 242

来自主题: Statistics版 - 如何衡量比较两个类似变量的预测能力？

结果变量是生存时间，有两个类似的预测因素X和Y。为了比较预测结果能力强弱，做以下分析：
1）将X,Y各分成4组，
2）在X每一亚组内，做log-rank test, 检验是否Y亚组有不同。记录p-values.
3)反过来，在Ｙ每一亚组内，做做log-rank test, 检验是否Ｘ亚组有不同。记录p-
values.
假如在２）步骤，得到的ｐ－ｖａｌｕｅｓ都小于０．０５，而在３）步骤，　得到的
ｐ－ｖａｌｕｅ都大于０．０５，　那么说明在Ｘ亚组内存在不同群体，但在Ｙ亚组病
人更同质，所以Ｙ更能细分病人预测能力更强。
不知道以上方法有什么问题？不过在临床文章中比比皆是。
我只感觉上面方法一是需要大量的样本，还有要矫正多重比较，还有就是上面的方法结
果很大程度取决于你如何取分组的切点，所以比较结果不大可信。是否还有什么问题？
有高手谈谈？　谢谢

l**********g
发帖数: 426

来自主题: Statistics版 - 如何建模在多个factor影响下，两个变量之间的关系？

谢谢！
想问一下，如果hours是连续变量的话，它可以做interaction么？

R******d
发帖数: 1436

来自主题: Statistics版 - sas的宏变量问题

谢谢了。
为什么两个宏变量之间需要这个？.好像是连接的意思吧。

k*****u
发帖数: 1688

来自主题: Statistics版 - SAS proc impport 以后怎么改变量名字？

比如导入excel文档。excel变量名为 1st year salary ($)，这种东西。怎么改成
first_salary？用proc datasets的modify好像不好搞
谢谢了

k********0
发帖数: 585

来自主题: Statistics版 - canonical expansion展开计算相关变量概率

请教各位，谁知道用canonical expansion展开计算相关变量概率的公式，或哪里有相
关的网页连接
和书。万分感谢。

q**j
发帖数: 10612

来自主题: Statistics版 - R里面regression 变量选择的package?

终于到了这一步了。请大家推荐一下各种regression variable selection tools。比如
正常regression里面哪个比较好？
另外在ridge, lasso，LAR下面哪个好。还有什么glmnet的？我全部尝试一边，可以汇报
实际效果。
另外问一下，如果用lasso来选择变量，但是用Ordinary least square 估计系数和cov
ariance matrix，这样做合理吗？我要estimate system of equations，不知道lasso这
样的有现成package给用么？普通regression有package systemfit干这个。多谢了。

S********a
发帖数: 359

来自主题: Statistics版 - 【包子】SAS 日期变量问题

谢谢大侠回复，CODE里CHAR变量应该写成DATE对吗？看不太懂这个SCAN function在这
里怎么用的，为什么是从1，2，3开始的呢？

h********o
发帖数: 103

来自主题: Statistics版 - 【包子】SAS 日期变量问题

CHAR变量 is your original variable.
SCAN(string,1,delimiter) is the Nth sub-string delimited by delimiter.
SCAN("01\21\2001",1,"") = 01
SCAN("01\21\2001",2,"") = 21
SCAN("01\21\2001",2,"") = 2001
The full code look like this
================================
DATA OLD;
INPUT CHAR : $10.;
CARDS;
3\3\1996
10\4\2006
10\20\2006
4\15\1997
13\15\1996
11789
;
DATA GOOD BAD(DROP = DATE);
SET OLD;
IF INDEX(CHAR,"") THEN DO;
MONTH = INPUT(SCAN(CHAR, 1, ""),$2.);
DAY = INPUT(SCAN(... 阅读全帖

p******k
发帖数: 23

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

对于高维数据（p~n,或 p>n）LQA或LLA 基本上是很难做的，里面的矩阵求逆很容易就
出现singular. 用lasso做变量选择基本都是高伟数据，如果低维的话直接用BIC好了
。高维IRLS还是会出很多问题的。

y******n
发帖数: 188

来自主题: Statistics版 - sas 变量赋值问题

如图，在只是知道第一列(obs)数据的情况下，
如何加入第二列变量group,并且赋值
谢谢

H*H
发帖数: 472

来自主题: Statistics版 - 多元回归，小的变量怎么处理呢？

这里 a 就是相当于是截距，就是其他因素可能引起的，而不是由三种测量设备引起的
偏差；不知道这样说对不对。 Ye 作变量的话结果几乎都偏向Ye了，因为Ye比其他的都
大很多... 我主要是想知道什么引起了Y 跟Ye的偏差

h******e
发帖数: 1791

来自主题: Statistics版 - 【大包子】如何让SAS读入中文变量名

也许是encoding的问题，试试encoding = euc。

..., 怎么能读入中文的变量名呢？第二，我打开生成的SAS文件(即后缀是.sas7bdat)
，凡是中文的部分都呈现的问号，即？？？，但是proc print呈现的是中文，我的电脑
可以打中文和阅读中文，请教为啥和怎么让SAS文件（即.sas7bdat)也显示中文呢？万
分感谢！！！

N******n
发帖数: 3003

来自主题: Statistics版 - 帮忙看看这个R程序，是怎样传递变量的？

get_quantiles <-function(diff_expr,diff_coex,klist,pop_size){
##### The function to get the "node_score_term" and "edge_score_term" of a
sub-network denoted by "vector"
my.fun<-function(vector){
return(diff_coex[vector[1],vector[2]])
}
# "vector" is a binary vector with length equal to the size of the whole
network.
# An element of value "1" indicates the inclusion of that gene in the
selected sub-network.
node_edge<-function(vector){
selected_subset<-which(vector==1)
n<-length(select... 阅读全帖

s*****e
发帖数: 157

来自主题: Statistics版 - SAS里怎么算两个变量平均值的商的standard deviation？

一个sample中有两个变量，如何在sas里算他们平均值的商的standard deviation呢？
谢谢.

z****e
发帖数: 702

来自主题: Statistics版 - 问一个随机变量分布的收敛的问题

假设有两个分布函数f(x）和g(y|an)，an是某参数。
现在当n趋于无穷大时，g(y|an)将在函数形式上全等于f(x),
那么在这种情况下，我们可以说随机变量Y收敛于X么？如果可以的话，
这是一种什么样的收敛，如何给出严谨的定义呢？
Thanks

i****f
发帖数: 979

来自主题: Statistics版 - 如何把一个变量分割成两个

譬如说我有一组变量
group_all
1
2
3
4
5
6
怎样才能变为
group1 group2
1 4
2 5
3 6
多谢啦

l*****o
发帖数: 61

来自主题: Statistics版 - 重新安排变量的问题

用原来那样的格式怎么样给每个变量算年间的差值呢？鞠躬谢！

s**d
发帖数: 148

来自主题: Statistics版 - 复杂分类变量recoding?

一个categorical variable是一个长的，动态(并且含有noise) 的字符串的组合，例如：
有的是：name + "noise1"+ age + salary
有的是：name + status+ "noise2" + level
有的是：age + level + gender +"noise3"
.......
问题：怎样对这个复杂分类变量降维，能被分析？

c********g
发帖数: 193

来自主题: Statistics版 - 如何用SAS 生成一个组合变量？

我要生成一个8个字符变量，每一个字符从A-Z随机取值，一共会有26^8个值，如果用do
loop的话，太费资源了，有什么简单的办法吗？

W**********E
发帖数: 242

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

用LASSO，系数是biased因为shrinkage而且没有p-value。那么拿LASSO单纯地当挑选变
量的方法，重新用这些变量refit regression有何弊端？

D**u
发帖数: 288

来自主题: Statistics版 - 用LASSO选变量后重新fit regression有什么弊端？

lasso的 'p-value' 最近已经被弄出来了参见官方package http://cran.r-project.org/web/packages/covTest/covTest.pdf
先lasso 再lr后的结果肯定没有lasso直接出来的好，不过也有可能直接lr结果比lasso
还好. 具体操作的话，如果变量太多而且就想用lasso来选择，并且不想用这个R的pkg
话，倒是可以先lasso再lr。

t*****8
发帖数: 157

来自主题: Statistics版 - ROC curve可以用来比较变量吗

今天我的同事说logistic regression中的ROC curve可以用来比较变量。比如说，
dependent variable 是y, independent variable x1 ，ROC curve是0.8；dependent
variable 还是y, independent variable 换成 x2, ROC curve是0.6. 所以x1比x2是
更strong的predictor。我印象， ROC curve只能用来看model是不是fit well，如果
比较varible，应该用p value. 我对还是我同事对？

t*****8
发帖数: 157

来自主题: Statistics版 - ROC curve可以用来比较变量吗

已作修改。谢谢。
会不会出现model1 roc>model2 roc, 但是把2 个变量放到同一model里，p1> p2? 到底
看roc还是p?

c********h
发帖数: 330

来自主题: Statistics版 - ROC curve可以用来比较变量吗

我觉得可以这样理解，像是lesion study里面，首先有一个roc curve对应于y ~ x1 +
x2.
然后model1 roc和model2 roc分别是去掉x2和去掉x1后的roc，如果model1 roc >
model2 roc，说明在x1存在的情况下，去掉x2的影响，要比在x2存在时去掉x1的影响小。
相应的看p-value，对于y ~ x1 + x2里每个变量的p-value，也是significance in
addition to the existence of the other variable。不知道这样理解会不会好一点？
你说的情况，我觉得可能会出现，毕竟roc和p-value不是等价的，还有可能出两条roc
intersect。p-value的话，就比较straightforward，对应于一个hypothesis test。
一点点想法，不对的话，请指教~

A*******s
发帖数: 3942

来自主题: Statistics版 - ROC curve可以用来比较变量吗

比较单变量的AUC等价于wilcoxon test，算nonparametric方法, 看的是ranking
ability
你说的P value应该是wald test吧，算parametric方法，看的是有多符合线性假设。

dependent

d**********0
发帖数: 222

来自主题: Statistics版 - 如何添加时间变量

sas的文件名以月和天结尾，比如order0401.dat表示是4月1号的数据。现在一共有15个
数据，代表了从4月1号直到4月15号。要combine这些data,需要增添一个时间变量，
order date,等于文件名末的数字再加上年份，形成orderdate=20140401.
因为是通过从文件名中做来设定日期，想用macro做do loop,但没调出来。请大虾帮忙
。

w******p
发帖数: 17

来自主题: Statistics版 - 评价一个变量可预测性问题

下列数据，只有两个变量x (寄给用户的广告数量), y(用户是否购买,1 or 0).
X：2,5,1,8,0..........
Y: 0,1,0,1,0..........
问题： X能否预测Y？
我想是用logistic regression, 计算p value 是否小于0.05.
这个是正确的方法吗？
谢谢。

l*******r
发帖数: 713

来自主题: Statistics版 - 有这么一种单变量分布吗

变量X取值范围是负无穷到正无穷，pdf不对称，看上去像是skewed正态分布的pdf，且
可能有一到两个参数。在不同的参数下pdf的峰值对应的X可能为正或为负。有这么一种
分布吗？
★ 发自iPhone App: ChineseWeb 1.0.2

s******l
发帖数: 65

来自主题: Statistics版 - 请教：怎么转换有零值的变量？

需要把带有零值的变量作log转换。明显log(0)是没有意义的，但是前提是又不能剔出
任何零值，请教在建模时该怎么处理这些零值呢？
非常感谢！

m***c
发帖数: 118

来自主题: Statistics版 - 关于categorical变量的 significance一个小问题

我有一个data其中一个变量是x1，x1有4个值(a, b, c, d),在fit model之后结果发现
只有a和b是significant.d是baseline,比如x1='a'时,x1=0.1 / x1='b'时,x1=0.6 / x1
='c'时,x1=0.3.
此时我想score一个新data,如果x1='a'/'b',直接带入系数,如果x1='d'则x1=0,但是x1=
'c'的时候,x1是0,还是用他的系数0.3？
thanks a lot!!!

K*****2
发帖数: 9308

来自主题: Statistics版 - 关于categorical变量的 significance一个小问题

显然不能啊，只有一个c不显著，你怎么能把a，b系数全都设成0？
而且扔掉一个变量以后，肯定要重新fit model，哪能直接扔系数的

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天