由买买提看人间百态

topics

全部话题 - 话题: regression
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
h***o
发帖数: 350
1
Since the design is unbalanced, will regression perform better than ANOVA?
p******r
发帖数: 1279
2
y=a0+ a1*X1 + a2*X2
y是continuous变量
做完regression发现 residual的normality assumption test fail了。
除了对变量做transform,还能干什么呢?
如果transform了后,normality assumption test还是fail呢? 还有其他招儿吗?谢
谢!!
p******r
发帖数: 1279
3
我发现我的Y变量本身就严重right skewed,用了log变换了,做出来normality test还
是fail。 用box-cox会好点吗?
weighted LS是不是就是robust regression啊? sas里面用什么proc呢? 谢谢!!
w*r
发帖数: 204
4
how about robust regression?
W****F
发帖数: 8235
5
据我所知, 银行里面大多用logistic regression, 什么时候用ordinary least
square呢?
s*y
发帖数: 37
6
来自主题: Statistics版 - 向大牛请教regression的一个问题
用regression建model的时候, 如果没有dependant variable的数据,如何着手?
举个例, 最开始的credit score是如何建立的? 就是现在你有一堆用户的income,
education, working experience, payment delay等等信息,没有任何历史数据来暗
示什么样的顾客有什么样的风险, 让你从无到有的去建立一个模型来估算信用风险,
该是什么一个步骤?
最核心的问题, 用这个model算出来的score, 如何去设置threshold来划分顾客的风
险等级? 是凭相关专业人士的经验来划分, 还是有严格统计意义上的方法, 比如5th
percentile以上为优良等等?
希望有经验的朋友解答一下, 谢谢。
D******n
发帖数: 2836
7
来自主题: Statistics版 - 向大牛请教regression的一个问题
hmm. Didn't you know you need a dependent variable to fit a regression?
s*y
发帖数: 37
8
来自主题: Statistics版 - 向大牛请教regression的一个问题
我现在关心怎么得到dependent variable的data
关于model本身, 以后再找机会请教

much
how to validate and present the results takes years of training. Running
regression is not even scratching the surface.
s*y
发帖数: 37
9
来自主题: Statistics版 - 向大牛请教regression的一个问题
我提这个问题,
实际上是几个月前面试的一个问题,
一家finance贷款公式,
说要建立一个model来评估顾客信用风险
没有历史数据来直接regression
给你一堆customer的profile
问该怎么建立model
我当时没有答出来
A*******s
发帖数: 3942
10
来自主题: Statistics版 - 向大牛请教regression的一个问题
ok... banks used underwriters for a long time until computers became popular
. at that point of time, they had already accumulated more than enough data
to build the 1st generation regression model.
s*y
发帖数: 37
11
来自主题: Statistics版 - 向大牛请教regression的一个问题
那当初那个面试我的是想调戏我? nnd
我当时说要用historical data来regression,
他一直强调没有default方面的historical data
只有顾客的基本profile
这么说来
我应该回答说没default data就收集data直到够用为止?
P****D
发帖数: 11146
12
来自主题: Statistics版 - 向大牛请教regression的一个问题
你的意思是不是说,在underwriter的时代,他们就看看客户资料,凭感觉决定给不给
人信用卡,但没有数量化的方法?
那先别管regression了,谁给说说人类历史上第一个计算credit score的方法是怎么来的?人类
历史上第一个credit score是怎么算出来的?

popular
data
q**j
发帖数: 10612
13
来自主题: Statistics版 - 请教一下ridge regression。
请问那里可以找到比较好的介绍ridge regression的书。就是那种理论推导全部都齐全
的。另外那个ridge parameter一般如何确定呢?好像有定理证明存在一个可以improve
mse的数,但是具体如何算有没有比较成熟的算法呢?多谢大侠。
l*********s
发帖数: 5409
14
来自主题: Statistics版 - 请教一下ridge regression。
Regression Estimators: A Comparative Study
s*****9
发帖数: 108
15
分开做,细节上更好操作吧,如果X2是time series的话。如果放到一起做regression,
residual的distribution的处理上会麻烦一些吧
w**********y
发帖数: 1691
16
想象一个三维空间.x1和x2是两个轴(它们的夹角可能不是直角).Y是三维空间的一个向量..y对x1和x2同时做
regression,就等价于,把y投影到x1和x2张成的平面上的向量,然后这个向量分别向x1,
x2做平行线..这个结构是一个平行四边形
如果分两步,就是先向x1做投影..然后用投影和y的差对x2做投影..这是垂直的,不是平
行的..这个结构是个四边形,有两个角是直角..
只有当x1和x2垂直的时候,这两种才一样..他们夹角越小,也就是correlation越大时,区
别越大.
p********r
发帖数: 1465
17
来自主题: Statistics版 - 比较两个regression模型的系数
建了两个regression模型:
y1 = alpha0 + alpha1x1
y2 = beta0 + beta1x2
如何比较alpha1 和 beta1呢?
我想的是用Wald test,不知道SAS如何实现;
也想手动用proc iml做,也不太确定如何算alpha1和beta1的variance-covariance
matrix
求高人指点迷津……
j********t
发帖数: 40
18
来自主题: Statistics版 - 比较两个regression模型的系数
好文!

testing
sample
regression
or not,
A*******s
发帖数: 3942
19
correct me if i were wrong. i think quantile regression is for minimizing
absolute deviation.
i**e
发帖数: 57
20
Introduction to Linear Regression Analysis, 4th Edition. Wiley, New York
多谢了
D******n
发帖数: 2836
21
This thread went from logistic regression to the topic of genital organ
torture
v*******a
发帖数: 1193
22
我也有一样的问题,
我也要做 logistic regression 但是有个Xlevel太多了 30多个
用 dummy indicator 不太现实。
老板叫我先把 X的 30多个level 先 做 cluster 分成几组,
但是没做过 不会,请大家指教。
google了一下 是不是应该用 proc tree 或者 proc cluster做?
具体怎么做 还没搞清楚,请大牛指导
s*i
发帖数: 388
23
我这个model是想做帖子keyword和sexual organ abuse之间的regression model.
o********n
发帖数: 100
24
来自主题: Statistics版 - 请教logistic regression
请教关于logistic regression,
是否是说对于充分统计量log(p/(1-p))构造的affine transformation,得到的基于新的
parameter z1,z2的分布,也是一个exponential family?
不明白为何非要对log(p/(1-p)),而非p的其他函数来进行回归。。。
l***o
发帖数: 5337
25
来自主题: Statistics版 - 请教logistic regression
logistic regression 还可以理解成 neural network的一个特例。
neural network嘛,就法无成法,怎么设都有道理,就看你对domain的理解
和validation的结果了。
认为不需要validation的陈派艺术家大概不会接受logistic model。。。

新的
A*******s
发帖数: 3942
26
来自主题: Statistics版 - R里面regression 变量选择的package?
good to know thanks!!
i think the system of equation lz mentioned is like
Y1=X1*beta1+e1
Y2=X2*beta2+e2
f(Y1, Y2)=0
g(e1, e2)=0
basically there are additional equations to connect two or more regression
models. That's my understanding.
d******e
发帖数: 7844
27
来自主题: Statistics版 - R里面regression 变量选择的package?
这种没玩过,不过一样可以formulate成一个L1 regularization问题。但是可能要同时
考虑两个regression model之间的权重
n******m
发帖数: 169
28
来自主题: Statistics版 - question about regression redisue
When you run a linear regression, the residues are assumed to be i.i.d.
but if they have non zero correlations, then the above assumption is
violated, what should you do then?
Thank you.
b*****n
发帖数: 685
29
来自主题: Statistics版 - 请教:关于用R画regression line
我倒,你的regression line咋来的?不是猜的吧。
a*********d
发帖数: 54
30
来自主题: Statistics版 - 请教:关于用R画regression line
谢谢提点,我自己又想了想确实很矛盾,一条直线的话怎么会有多参数呢
不过我不明白一点就是,R自动生成的regression line和我要做的模型有什么区别呢?
b*****n
发帖数: 685
31
来自主题: Statistics版 - 请教:关于用R画regression line
我还以为你的多参数指的是大师的分段回归呢,土了。R自动生成的regression line也
是按照LS公式来的。
z**********i
发帖数: 12276
32
来自主题: Statistics版 - Hierarchical linear regression
有个SURVEY的DATA, 10-12岁,10个国家.
LEVEL 1 VARIABLE(STUDENT):
BMI(BODY MASS INDEX, OUTCOME VARIABLE), AGE, GENDER, PHYSICAL ACTIVITY,
DIETARY
LEVEL 2 VARIABLE(COUNTRY):
INCOME, COUNTRY NAME
问题:
想体现多个(10)国家的MULTI-CULTURE,有什么常用的VARIABLE?如果用COUNTRY NAME,是
不是LEVEL 太多了? 如果用LANGUAGE,基本上每过国家都有自己的LANGUAGE. 用洲来分
呢?亚洲,美洲,非洲?
第一次用这个REGRESSION,能给些建议吗?如何考虑加入QUADRATIC TERM 或INTERACTION
TERM?或者应该读些什么文章?
多谢!!
z**********i
发帖数: 12276
33
来自主题: Statistics版 - Hierarchical linear regression
有个SURVEY的DATA, 10-12岁,10个国家.
LEVEL 1 VARIABLE(STUDENT):
BMI(BODY MASS INDEX, OUTCOME VARIABLE), AGE, GENDER, PHYSICAL ACTIVITY,
DIETARY
LEVEL 2 VARIABLE(COUNTRY):
INCOME, COUNTRY NAME
问题:
想体现多个(10)国家的MULTI-CULTURE,有什么常用的VARIABLE?如果用COUNTRY NAME,是
不是LEVEL 太多了? 如果用LANGUAGE,基本上每过国家都有自己的LANGUAGE. 用洲来分
呢?亚洲,美洲,非洲?
第一次用这个REGRESSION,能给些建议吗?如何考虑加入QUADRATIC TERM 或INTERACTION
TERM?或者应该读些什么文章?
多谢!!
q**j
发帖数: 10612
34
简单regress 的解是
b =(X'X)^(-1) X'y。
如果把X和Y都分成对应的两块就有
b_1 = (X1'X1)^(-1) X1'Y1
b_2 = (X2'X2)^(-1) X2'Y2
请问这个b1,b2和b是怎么联系到一起的?
F******n
发帖数: 160
35
In that case, it is not a trivial problem, but it could be done by applying
the incremental SVD algorithm.
This efficient/adaptive algorithm was originally given by a guy (Matthew)
from Mitsubishi research lab. You can easily google that paper.
The main point relevant to the LS regression:
b = (X'X)^(-1) (X'y) (1)
is that, matrix inversion (X'X)^(-1) is essentially an SVD problem. As your
new data come in, you should sort of have an updated X and y, and
consequently an updated X'X. In abov... 阅读全帖
g********r
发帖数: 8017
36
好奇问一问:logistic regression里面,small step forward还是跟lasso等价的么?
如果是的话是不是不难写,就是慢。
p******k
发帖数: 23
37
logistic loss不是quadratic, 也不是piecewise linear. 根据 prof. Ji Zhu的文章
,它的solution path不是piecewise linear的,应该是非线性的。 原则上讲和Least
Angel Regression 是不一样. 但是我们总是可以用local quadratic去逼近 logistic.
所以还是可以用small step forward很好逼进的
s**5
发帖数: 68
38
来自主题: Statistics版 - logistic regression in case-control study
问个问题,如果在case-control study中用logistic regression,logit(Pr) 中的
Probability(Pr)是什么的probability? 我的理解是Pr(D=1|X,Z=1) which Z=1mans
this subject is sampled. 然后如果用contigency table 表示,Pr(D=1|X,Z=1) can
be estimated as Nd=1/(Nd=1+Nd=0) in each row (each setting of x) 我的理解对
吗?谢谢!
s******y
发帖数: 64
39
用SAS跑exact logistic regression时, 只能condition on一部分参数, 才能estimate
其它的参数; 这样建起来的model不就不完整了吗? 因为总有至少一个参数无解.
请问这样的model能用来predict probability吗?
S******y
发帖数: 1123
40
I have finally got Hadoop working on my Linux box. Next I would like to try
to see if I could to parallel model estimation for some commonly used models
such as logistic regression.
My question now is - how to paralell gradient descent for logistic model
estimation for real large data set?
Any thoughts would be greatly appreciated. Thanks in advance!
PS. See R code below. If needed, I could rewrite the following code in Java
or Python. But the question is how to decompose the following estimatio... 阅读全帖
s*********e
发帖数: 1051
41
agree with oloolo
regression-type model is not a good candidate for parallel processing.
d******e
发帖数: 7844
42
你落伍了。
我们现在做的并行算法可以在clustering上用几十几百GB的数据做regression。
d******e
发帖数: 7844
43
算法当然是已有的,我们自己改进的,解个regression不过是小case而已
现在搞大规模并行、分布式优化的人不要太多哦,你自己搜一搜能找到一大把。
y******g
发帖数: 15
44
就是散点图,用直线连接起来,并且有regression的线。请问怎么画啊?搜了网上居
然没找到!新手,太弱啦,求大牛点拨。十分感谢!!
S****Y
发帖数: 4634
45
问一下,怎么样用SAS或者STATA estimate logistic regression,
with clustered standard error in two dimensions.
谢谢!
c**i
发帖数: 234
46
对于logistic regression
log(pi/1-pi)=b0+b1x1+b2x2
我现在已知independent variables和response variable{log(pi/1-pi)}
我要怎么做才能把参数b0,b1,b2 fit出来?非常感谢
c**i
发帖数: 234
47
感谢楼上的,看来我没说清楚。我的问题是现在已经有log(pi/1-pi),并且是一个连
续分布的变量,看图形比较像gamma distribution的样子,我想问我有了log(pi/1-pi
),并且知道x1和x2,现在想要估计参数b0,b1,b2,该如何估计?是直接用linear
regression么?如果是的话glm()里面那个family是不是要设置成gamma?谢谢
c**i
发帖数: 234
48
感谢楼上的各位,pi是probability of success。
正常的logistic regression 是log(pi/1-pi)=b0+b1x1+b2x2
所以pi=exp(b0+b1x1+b2x2)
但是这个model需要数各种组合下success或者fail的#,我没有这个#
我现在有其他人用上面的model fit 的 pi,并且我能确定x1,x2,我现在是想说看看他
用的model里的b0,b1,和b2是什么
B******5
发帖数: 4676
49
那就直接用普通的linear regression不就行了?
h******n
发帖数: 1838
50
楼上说的基本明白了,不过你提到cumulative login的次数每个人只有一个值我还是不
太懂,我不可能在课程刚开始3天的时候就知道学生从开始到课程结束总共会login几次
啊。公司要做的是每天都根据现有的数据预测学生最后会不会fail,如果只需要在第10
天,或第20天预测,那直接用cumulative login times up to day 10 or day20,就是
最简单的logistic regression了。
至于把每天login与否变成bivariate,我再考虑看看,这样的话会lose一些信息,比如
学生是否持之以恒地login之类:)你说的pattern很有意思,我也再想想看。
不知道说明白没有,双簧包已发,谢谢!
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)