由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 问一个简单的问题:一个data set有100个变量(列),每列有1000个观测值,怎么找每个变量里面的outlier?
相关主题
outlier detections统计综合指数
做linear reg怎么去掉outlier?请教一个比较两组数据是否不同问题
sas proc means/freq问题LR 中的 dummry variable
SAS中如何只保留变量名中含有reading的变量啊问个outlier 和 sample size 的问题哈
SAS 求助:如何根据变量值输出变量名请问这个问题应该用什么方法解决
sas/R 里怎么简写interaction, 以及自动选择问个SAS 基本问题,请大家帮忙。
请问这样的数据应该用什么样的模型适合。about outlier identification
几个面试问题建模过程中对于outlier的处理问题
相关话题的讨论汇总
话题: 变量话题: 变量名话题: x1话题: sas话题: proc
进入Statistics版参与讨论
1 (共1页)
k*****u
发帖数: 1688
1
如果用boxplot的话,proc univariate里面的一个个的变量来看。太多了
有没有那个proc可以对所有的变量看的?
另外,model y=x; 假如有100个x,名字都不一样,怎么放进model后面,得一个个的敲
名字进去么?
谢谢
a******n
发帖数: 11246
2

值,怎么找每个变量里面的outlier?
用两个减号:第一个变量名--最后一个变量名
如:input Y X1 A2 B3 D;
......
model Y=X1--D;

【在 k*****u 的大作中提到】
: 如果用boxplot的话,proc univariate里面的一个个的变量来看。太多了
: 有没有那个proc可以对所有的变量看的?
: 另外,model y=x; 假如有100个x,名字都不一样,怎么放进model后面,得一个个的敲
: 名字进去么?
: 谢谢

b********8
发帖数: 3059
3
可以用sas macro
o********p
发帖数: 127
4
my 2 cents:
1) use stepwise selection to select variables, etc.
2) can also consider other variable selection methods, such as PCA and, in
particularily some regularization method (to address for the
multicollinerity issues among regressors). This can be easy done in R,
however, SAS should have similar procesures (lots of big cow here in this
board...)
3) If you are doing classificaiton (y is categorical), you may (and should,
actualy) consider ROC curve, which is quite practical and most commonly used.
4) for 100 x, seems SAS can do some f1-f100 stuff to simplify notation -
again, lots of SAS big cow here...;-)
【 在 killniu (killniu) 的大作中提到: 】
k*****u
发帖数: 1688
5
多谢楼上的几位帮忙。 我昨天晚上仔细看了一下data,因变量y是连续的数值型变量,
自变量有几个是连续的,但是绝大部分自变量都是categorical的,我这么想不知道对
不对:
1:把categorical的自变量变成dummy variable,这样的话可以做linear regression
。 也可以用向前,向后,逐步的办法选择变量。有一个问题是,万一变量选择的时候
,某个dummu variable有一些显著,一些不显著,那怎么解释?
2:就把categorical的x作为离散的,然后用proc mixed作为一个混合模型,某些x有很
多值的就作为一个random effect。不知道proc mixed里面做variable selection用什
么办法?好像没有forward这种类似的命令。还有,在这里面那些连续的x能直接放进来
么?还是怎么办? 谢谢了
多谢各位!
T*******I
发帖数: 5138
6
如果嫌敲一个个变量名麻烦,一个简单的办法是将实际变量名改为变量名序列X1, X2,
X3...., XM。为此,你需要建立一个专门的变量名数据集记录这个对应关系。可用以下
语句
data newset;
set oldset;
renmane xhy = X1
zdgf = X2
......
vmn = Xm;
run;
变量名数据集可以用proc contents来获得,然后输出到excel中,它将在第1列,在excel的第二列的第一行输入X001(如果你的最大变量个数在三位数以内的话), 然后单击该格,向下拖拉直至你要的个数,excel会自动生成一个序列
X001
X002
....
X999
上述操作是为原始数据库中的变量没有label时而设计的。如果嫌上述操作麻烦,可以用下面的code:
data newset;
set oldset;
X1 = xhy;
X2 = zdgf;
......
Xm = vmn;
drop old variables names;
run;
这个code的好处是系统自动将原变量名作为新变量名的label。
有了上述新dataset后,会很便于code的编写,例如,在model语句中可以这样写:
proc glm data=newset;
model = X1-X15 X17 X19-X78 X92-X134;
run;
有时甚至:
model = X1-X134;

【在 k*****u 的大作中提到】
: 如果用boxplot的话,proc univariate里面的一个个的变量来看。太多了
: 有没有那个proc可以对所有的变量看的?
: 另外,model y=x; 假如有100个x,名字都不一样,怎么放进model后面,得一个个的敲
: 名字进去么?
: 谢谢

k*****u
发帖数: 1688
7
谢谢楼上的
1 (共1页)
进入Statistics版参与讨论
相关主题
建模过程中对于outlier的处理问题SAS 求助:如何根据变量值输出变量名
问个初级问题,关于histogram和boxplot。sas/R 里怎么简写interaction, 以及自动选择
R里边 xyplot/dotplot 和 boxplot overlay 的问题请问这样的数据应该用什么样的模型适合。
在SAS中怎样plot并排的boxplot几个面试问题
outlier detections统计综合指数
做linear reg怎么去掉outlier?请教一个比较两组数据是否不同问题
sas proc means/freq问题LR 中的 dummry variable
SAS中如何只保留变量名中含有reading的变量啊问个outlier 和 sample size 的问题哈
相关话题的讨论汇总
话题: 变量话题: 变量名话题: x1话题: sas话题: proc