由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 问大牛们一个logistic model的问题哈
相关主题
good classification methods for high dimension dataWhat models bank and credit cards companies use?
找工作总结 [下]any difference between probit regression and logistic regression
regression的时候什么时候要standardize variables?MMM 和 Predictive modeling (logistic regression)比较
logistic regression结果释疑,解读面经和教训
logistic regression issueDoes multivariable logistic regression allow correlated independent variables?
lasso regressionT家面试题目求解答~~
请用简单的语句解释一下LASSO Logistic Regression请问关于LOGISTIC REGRESSION FORWARD VS BACKWARD
报面筋求实习合租 (转载)报一个offer给大家打气,顺便问一下职业发展
相关话题的讨论汇总
话题: model话题: logistic
进入Statistics版参与讨论
1 (共1页)
s***y
发帖数: 47
1
做logistic model selection的时候,需要考虑multilinearity的问题不?
比如说 logitY=A+B+C, A, B, C都是 of interest,但只有A, B significant, C is
highly correlated with A but is insignificant,那我还需要把C放到model里去不??
先谢谢了。
k***n
发帖数: 997
2
co-ask
这个问题比较tricky
网上搜了半天也没有明确的答案,按书上colliearity若不处理,模型的系数就不稳定
。也有说法如果模型是为prediction就不能随便丢掉有用信息
k*******a
发帖数: 772
3
用 PCA ?
A****1
发帖数: 33
4
Like multiple linear regressions, multilinearity is not good for logisitic
regression. It will cause large std error for parameter estimates.

??

【在 s***y 的大作中提到】
: 做logistic model selection的时候,需要考虑multilinearity的问题不?
: 比如说 logitY=A+B+C, A, B, C都是 of interest,但只有A, B significant, C is
: highly correlated with A but is insignificant,那我还需要把C放到model里去不??
: 先谢谢了。

s*********e
发帖数: 1051
5
说的是共线性吗?shouldn't it be multicollinearity?
或者真的是我年纪大了。

【在 A****1 的大作中提到】
: Like multiple linear regressions, multilinearity is not good for logisitic
: regression. It will cause large std error for parameter estimates.
:
: ??

r********n
发帖数: 6979
6
如果你只关心最后的regression的结果的话
加不加C一般来说影响不大
不过这个时候A和C对应的coefficient不能用来表明他们对整个model的贡献
举个极端的例子
如果A=C
A和C的coefficient几乎可以是任意的组合
但不影响regression的结果
有些特定的情况
我们希望把A和C的放进去
使得model更robust
比方说elastic net之类
其他情况下
为了降低generalization error
把A和C只放一个
或者先做PCA
再用eigen vector之类的也行

??

【在 s***y 的大作中提到】
: 做logistic model selection的时候,需要考虑multilinearity的问题不?
: 比如说 logitY=A+B+C, A, B, C都是 of interest,但只有A, B significant, C is
: highly correlated with A but is insignificant,那我还需要把C放到model里去不??
: 先谢谢了。

l******n
发帖数: 9344
7
C都insignificant,放进去干什么?

??

【在 s***y 的大作中提到】
: 做logistic model selection的时候,需要考虑multilinearity的问题不?
: 比如说 logitY=A+B+C, A, B, C都是 of interest,但只有A, B significant, C is
: highly correlated with A but is insignificant,那我还需要把C放到model里去不??
: 先谢谢了。

w******e
发帖数: 142
8
根据个人有限的使用经验来说哈,
如果光说对 Y的估算,就算你有无比之大的X的multicolinearity,Y也是unbias的。但
是如果你要看X的系数来帮助你分析比如某个因子对Y的影响那么这个东西就要考虑一下
了。同时如果你关心Y的预测的精确性你也想要把这个东西处理一下,因为你X太多了,
in-sample很漂亮,但是out-of-sample可能就成渣了。当然,你面试的时候别人问这个
问题,肯定要说这个东西很严重啊,要如何如何处理来显示出你很懂的样子,呵呵。
大家有很多用的方法,比如ridge regression, pca,PLS, 直接step-wise variable
selection, glmnet或者用基于tree的一堆bagging 啊boosting, random forest之类
的。
前5个我实际用过,个人比较倾向于glmnet尤其是对于multi-level的logistic可以针对
不同的level来选取不同的variable.

??

【在 s***y 的大作中提到】
: 做logistic model selection的时候,需要考虑multilinearity的问题不?
: 比如说 logitY=A+B+C, A, B, C都是 of interest,但只有A, B significant, C is
: highly correlated with A but is insignificant,那我还需要把C放到model里去不??
: 先谢谢了。

i*********e
发帖数: 783
9
If no correlation,but one predicator isinsignificant,should we add them into
the model?If the model aims to predicate.
b*****y
发帖数: 350
10
这问题没那马复杂,
1. 因为C在model里不显著,保留它着不对model有任何贡献。但是,原则上C和B,应该
通过Varclus分析到底应该去掉哪个。
2. 保留C的后果,在multicollinearity存在于model中,对model精度和变量的显著性
检验都有影响。

??

【在 s***y 的大作中提到】
: 做logistic model selection的时候,需要考虑multilinearity的问题不?
: 比如说 logitY=A+B+C, A, B, C都是 of interest,但只有A, B significant, C is
: highly correlated with A but is insignificant,那我还需要把C放到model里去不??
: 先谢谢了。

相关主题
lasso regressionWhat models bank and credit cards companies use?
请用简单的语句解释一下LASSO Logistic Regressionany difference between probit regression and logistic regression
报面筋求实习合租 (转载)MMM 和 Predictive modeling (logistic regression)比较
进入Statistics版参与讨论
s*****r
发帖数: 1426
11
这不是logistic model的问题,这是所有regression model的问题
如果做model selection,最好消除colinearity先

??

【在 s***y 的大作中提到】
: 做logistic model selection的时候,需要考虑multilinearity的问题不?
: 比如说 logitY=A+B+C, A, B, C都是 of interest,但只有A, B significant, C is
: highly correlated with A but is insignificant,那我还需要把C放到model里去不??
: 先谢谢了。

s***y
发帖数: 47
12
弱弱地问一问,什么是varclus??

【在 b*****y 的大作中提到】
: 这问题没那马复杂,
: 1. 因为C在model里不显著,保留它着不对model有任何贡献。但是,原则上C和B,应该
: 通过Varclus分析到底应该去掉哪个。
: 2. 保留C的后果,在multicollinearity存在于model中,对model精度和变量的显著性
: 检验都有影响。
:
: ??

I*****a
发帖数: 5425
13
can u do some regularized methods, such as lasso ?

??

【在 s***y 的大作中提到】
: 做logistic model selection的时候,需要考虑multilinearity的问题不?
: 比如说 logitY=A+B+C, A, B, C都是 of interest,但只有A, B significant, C is
: highly correlated with A but is insignificant,那我还需要把C放到model里去不??
: 先谢谢了。

b******3
发帖数: 4385
14
这个问题得好好顶顶
b******3
发帖数: 4385
15
那个大牛可以推荐推荐有什么比较practical的书可以参考
A*******s
发帖数: 3942
16
我的两分钱--这是个面试必问的问题,我觉得答好不容易,答得全面了面试官还会容易
confused...
text说的都没错,但是需要了解为什么这么说的前提,以及实际面对的data和model的
性质。比如说“with multicollinearity, model's estimates are still unbiased
but have higher variance.” 这话自然没错,但是unbiased estimates的前提是你的
model没有mis-specification,或者mis-specification没有大的影响。如果real
model有10个variable但你只包括了9个,有bias。如果real model是nonlinear的但你
搞了个linear的,有bias。而且real model很可能是由一堆latent variables'
nonlinear functions组成的,在这种情况下,即使你把所有能观察到的variable都加
进去,也不能把所有的latent variables和他们的functional forms都包括到,model
永远都有bias。把越多的variable扔进model, 按理来说是可以减少bias的,但是之间
的越来越严重的multicollinearity又会增加variance。所以说到底,这是个bias-
variance trade off的问题。
b******3
发帖数: 4385
17
ding
b******3
发帖数: 4385
18
哪位大牛用过,指导指导啊
a******n
发帖数: 11246
19
精算兄还是那么犀利啊~~~
其实就是这么回事,加和不加各有各的好处和坏处。还是要具体情况具体分析。面试的
话,其实只要说清楚好处和坏处,显示出自己比较了解这些知识就OK了吧~

model

【在 A*******s 的大作中提到】
: 我的两分钱--这是个面试必问的问题,我觉得答好不容易,答得全面了面试官还会容易
: confused...
: text说的都没错,但是需要了解为什么这么说的前提,以及实际面对的data和model的
: 性质。比如说“with multicollinearity, model's estimates are still unbiased
: but have higher variance.” 这话自然没错,但是unbiased estimates的前提是你的
: model没有mis-specification,或者mis-specification没有大的影响。如果real
: model有10个variable但你只包括了9个,有bias。如果real model是nonlinear的但你
: 搞了个linear的,有bias。而且real model很可能是由一堆latent variables'
: nonlinear functions组成的,在这种情况下,即使你把所有能观察到的variable都加
: 进去,也不能把所有的latent variables和他们的functional forms都包括到,model

I*****a
发帖数: 5425
20
Maybe you can add L1 regularization to solve multilinearity problem ?

??

【在 s***y 的大作中提到】
: 做logistic model selection的时候,需要考虑multilinearity的问题不?
: 比如说 logitY=A+B+C, A, B, C都是 of interest,但只有A, B significant, C is
: highly correlated with A but is insignificant,那我还需要把C放到model里去不??
: 先谢谢了。

相关主题
面经和教训请问关于LOGISTIC REGRESSION FORWARD VS BACKWARD
Does multivariable logistic regression allow correlated independent variables?报一个offer给大家打气,顺便问一下职业发展
T家面试题目求解答~~a regression model test issue
进入Statistics版参与讨论
c***z
发帖数: 6348
21
Multicollinearity means that the matrix X is not full rank, and X^TX is not
positive definite, and the normal equation method depends on that. For
gradiant reduction method (aka Newton's method), the computation might not
converge, as the cost function is no longer continuous.
In short, the answer is yes, you need to deal with it.
A*******s
发帖数: 3942
22
not true... in the case of p extreme case of multicollinearity. and it is not a problem in reality since
software
packages can easily detect it and automatically drop one or more variables
to make the design matrix full rank.
in the case of high dimension p>=n, it is another story, different from just
multicollinearity.

not

【在 c***z 的大作中提到】
: Multicollinearity means that the matrix X is not full rank, and X^TX is not
: positive definite, and the normal equation method depends on that. For
: gradiant reduction method (aka Newton's method), the computation might not
: converge, as the cost function is no longer continuous.
: In short, the answer is yes, you need to deal with it.

c***z
发帖数: 6348
23
Right, I was talking about perfect multicollinearity.
For p>=n, I would do a ridge or lasso.

since
just

【在 A*******s 的大作中提到】
: not true... in the case of p: extreme case of multicollinearity. and it is not a problem in reality since
: software
: packages can easily detect it and automatically drop one or more variables
: to make the design matrix full rank.
: in the case of high dimension p>=n, it is another story, different from just
: multicollinearity.
:
: not

b******3
发帖数: 4385
24
Ding
a*****4
发帖数: 986
25
No. C is insignificant so it does no value to the model.
1 (共1页)
进入Statistics版参与讨论
相关主题
报一个offer给大家打气,顺便问一下职业发展logistic regression issue
a regression model test issuelasso regression
被猎头要SSN请用简单的语句解释一下LASSO Logistic Regression
model和variables都sig.但每个category都不sig报面筋求实习合租 (转载)
good classification methods for high dimension dataWhat models bank and credit cards companies use?
找工作总结 [下]any difference between probit regression and logistic regression
regression的时候什么时候要standardize variables?MMM 和 Predictive modeling (logistic regression)比较
logistic regression结果释疑,解读面经和教训
相关话题的讨论汇总
话题: model话题: logistic