第9页 - 关于regression的讨论汇总 - 话题女王

全部话题 - 话题: regression

h***o
发帖数: 350

来自主题: Statistics版 - 统计菜鸟请教问题：关于linear regression

Since the design is unbalanced, will regression perform better than ANOVA?

p******r
发帖数: 1279

来自主题: Statistics版 - 如果regression后，normality assumption不满足

y=a0+ a1*X1 + a2*X2
y是continuous变量
做完regression发现 residual的normality assumption test fail了。
除了对变量做transform，还能干什么呢？
如果transform了后，normality assumption test还是fail呢？还有其他招儿吗？谢
谢！！

p******r
发帖数: 1279

来自主题: Statistics版 - 如果regression后，normality assumption不满足

我发现我的Y变量本身就严重right skewed，用了log变换了，做出来normality test还
是fail。用box－cox会好点吗？
weighted LS是不是就是robust regression啊？ sas里面用什么proc呢？谢谢！！

w*r
发帖数: 204

来自主题: Statistics版 - 如果regression后，normality assumption不满足

how about robust regression?

W****F
发帖数: 8235

来自主题: Statistics版 - 请问bank里面什么时候用OLS而不用logistic regression？

据我所知，银行里面大多用logistic regression，什么时候用ordinary least
square呢？

s*y
发帖数: 37

来自主题: Statistics版 - 向大牛请教regression的一个问题

用regression建model的时候，如果没有dependant variable的数据，如何着手？
举个例，最开始的credit score是如何建立的？就是现在你有一堆用户的income,
education, working experience， payment delay等等信息，没有任何历史数据来暗
示什么样的顾客有什么样的风险，让你从无到有的去建立一个模型来估算信用风险，
该是什么一个步骤？
最核心的问题，用这个model算出来的score，如何去设置threshold来划分顾客的风
险等级？是凭相关专业人士的经验来划分，还是有严格统计意义上的方法，比如5th
percentile以上为优良等等？
希望有经验的朋友解答一下，谢谢。

D******n
发帖数: 2836

来自主题: Statistics版 - 向大牛请教regression的一个问题

hmm. Didn't you know you need a dependent variable to fit a regression?

s*y
发帖数: 37

来自主题: Statistics版 - 向大牛请教regression的一个问题

我现在关心怎么得到dependent variable的data
关于model本身，以后再找机会请教

much
how to validate and present the results takes years of training. Running
regression is not even scratching the surface.

s*y
发帖数: 37

来自主题: Statistics版 - 向大牛请教regression的一个问题

我提这个问题，
实际上是几个月前面试的一个问题，
一家finance贷款公式，
说要建立一个model来评估顾客信用风险
没有历史数据来直接regression
给你一堆customer的profile
问该怎么建立model
我当时没有答出来

A*******s
发帖数: 3942

来自主题: Statistics版 - 向大牛请教regression的一个问题

ok... banks used underwriters for a long time until computers became popular
. at that point of time, they had already accumulated more than enough data
to build the 1st generation regression model.

s*y
发帖数: 37

来自主题: Statistics版 - 向大牛请教regression的一个问题

那当初那个面试我的是想调戏我？ nnd
我当时说要用historical data来regression，
他一直强调没有default方面的historical data
只有顾客的基本profile
这么说来
我应该回答说没default data就收集data直到够用为止？

P****D
发帖数: 11146

来自主题: Statistics版 - 向大牛请教regression的一个问题

你的意思是不是说，在underwriter的时代，他们就看看客户资料，凭感觉决定给不给
人信用卡，但没有数量化的方法？
那先别管regression了，谁给说说人类历史上第一个计算credit score的方法是怎么来的？人类
历史上第一个credit score是怎么算出来的？

popular
data

q**j
发帖数: 10612

来自主题: Statistics版 - 请教一下ridge regression。

请问那里可以找到比较好的介绍ridge regression的书。就是那种理论推导全部都齐全
的。另外那个ridge parameter一般如何确定呢？好像有定理证明存在一个可以improve
mse的数，但是具体如何算有没有比较成熟的算法呢？多谢大侠。

l*********s
发帖数: 5409

来自主题: Statistics版 - 请教一下ridge regression。

Regression Estimators: A Comparative Study

s*****9
发帖数: 108

来自主题: Statistics版 - A question on one-step vs. Two-step regression

分开做，细节上更好操作吧，如果X2是time series的话。如果放到一起做regression,
residual的distribution的处理上会麻烦一些吧

w**********y
发帖数: 1691

来自主题: Statistics版 - A question on one-step vs. Two-step regression

想象一个三维空间.x1和x2是两个轴(它们的夹角可能不是直角).Y是三维空间的一个向量..y对x1和x2同时做
regression,就等价于,把y投影到x1和x2张成的平面上的向量,然后这个向量分别向x1,
x2做平行线..这个结构是一个平行四边形
如果分两步,就是先向x1做投影..然后用投影和y的差对x2做投影..这是垂直的,不是平
行的..这个结构是个四边形,有两个角是直角..
只有当x1和x2垂直的时候,这两种才一样..他们夹角越小,也就是correlation越大时,区
别越大.

p********r
发帖数: 1465

来自主题: Statistics版 - 比较两个regression模型的系数

建了两个regression模型：
y1 = alpha0 + alpha1x1
y2 = beta0 + beta1x2
如何比较alpha1 和 beta1呢？
我想的是用Wald test，不知道SAS如何实现；
也想手动用proc iml做，也不太确定如何算alpha1和beta1的variance-covariance
matrix
求高人指点迷津……

j********t
发帖数: 40

来自主题: Statistics版 - 比较两个regression模型的系数

好文！

testing
sample
regression
or not,

A*******s
发帖数: 3942

来自主题: Statistics版 - 包子，请教关于OLS和LAD regression的SAS问题

correct me if i were wrong. i think quantile regression is for minimizing
absolute deviation.

i**e
发帖数: 57

来自主题: Statistics版 - 求电子书Introduction to Linear Regression Analysis， wiley

Introduction to Linear Regression Analysis, 4th Edition. Wiley, New York
多谢了

D******n
发帖数: 2836

来自主题: Statistics版 - 离散值怎么做logistic regression? (转载)

This thread went from logistic regression to the topic of genital organ
torture

v*******a
发帖数: 1193

来自主题: Statistics版 - 离散值怎么做logistic regression? (转载)

我也有一样的问题，
我也要做 logistic regression 但是有个Xlevel太多了 30多个
用 dummy indicator 不太现实。
老板叫我先把 X的 30多个level 先做 cluster 分成几组，
但是没做过不会，请大家指教。
google了一下是不是应该用 proc tree 或者 proc cluster做？
具体怎么做还没搞清楚，请大牛指导

s*i
发帖数: 388

来自主题: Statistics版 - 离散值怎么做logistic regression? (转载)

我这个model是想做帖子keyword和sexual organ abuse之间的regression model.

o********n
发帖数: 100

来自主题: Statistics版 - 请教logistic regression

请教关于logistic regression,
是否是说对于充分统计量log(p/(1-p))构造的affine transformation，得到的基于新的
parameter z1,z2的分布，也是一个exponential family？
不明白为何非要对log(p/(1-p))，而非p的其他函数来进行回归。。。

l***o
发帖数: 5337

来自主题: Statistics版 - 请教logistic regression

logistic regression 还可以理解成 neural network的一个特例。
neural network嘛，就法无成法，怎么设都有道理，就看你对domain的理解
和validation的结果了。
认为不需要validation的陈派艺术家大概不会接受logistic model。。。

新的

A*******s
发帖数: 3942

来自主题: Statistics版 - R里面regression 变量选择的package?

good to know thanks!!
i think the system of equation lz mentioned is like
Y1=X1*beta1+e1
Y2=X2*beta2+e2
f(Y1, Y2)=0
g(e1, e2)=0
basically there are additional equations to connect two or more regression
models. That's my understanding.

d******e
发帖数: 7844

来自主题: Statistics版 - R里面regression 变量选择的package?

这种没玩过,不过一样可以formulate成一个L1 regularization问题。但是可能要同时
考虑两个regression model之间的权重

n******m
发帖数: 169

来自主题: Statistics版 - question about regression redisue

When you run a linear regression, the residues are assumed to be i.i.d.
but if they have non zero correlations, then the above assumption is
violated, what should you do then?
Thank you.

b*****n
发帖数: 685

来自主题: Statistics版 - 请教：关于用R画regression line

我倒，你的regression line咋来的？不是猜的吧。

a*********d
发帖数: 54

来自主题: Statistics版 - 请教：关于用R画regression line

谢谢提点，我自己又想了想确实很矛盾，一条直线的话怎么会有多参数呢
不过我不明白一点就是，R自动生成的regression line和我要做的模型有什么区别呢？

b*****n
发帖数: 685

来自主题: Statistics版 - 请教：关于用R画regression line

我还以为你的多参数指的是大师的分段回归呢，土了。R自动生成的regression line也
是按照LS公式来的。

z**********i
发帖数: 12276

来自主题: Statistics版 - Hierarchical linear regression

有个SURVEY的DATA, 10-12岁,10个国家.
LEVEL 1 VARIABLE(STUDENT):
BMI(BODY MASS INDEX, OUTCOME VARIABLE), AGE, GENDER, PHYSICAL ACTIVITY,
DIETARY
LEVEL 2 VARIABLE(COUNTRY):
INCOME, COUNTRY NAME
问题:
想体现多个(10)国家的MULTI-CULTURE,有什么常用的VARIABLE?如果用COUNTRY NAME,是
不是LEVEL 太多了? 如果用LANGUAGE,基本上每过国家都有自己的LANGUAGE. 用洲来分
呢?亚洲,美洲,非洲?
第一次用这个REGRESSION,能给些建议吗?如何考虑加入QUADRATIC TERM 或INTERACTION
TERM?或者应该读些什么文章?
多谢!!

z**********i
发帖数: 12276

来自主题: Statistics版 - Hierarchical linear regression

q**j
发帖数: 10612

来自主题: Statistics版 - 很惭愧的问一个简单的regression algebra.

简单regress 的解是
b =（X'X)^(-1) X'y。
如果把X和Y都分成对应的两块就有
b_1 = (X1'X1)^(-1) X1'Y1
b_2 = (X2'X2)^(-1) X2'Y2
请问这个b1,b2和b是怎么联系到一起的？

F******n
发帖数: 160

来自主题: Statistics版 - 很惭愧的问一个简单的regression algebra.

In that case, it is not a trivial problem, but it could be done by applying
the incremental SVD algorithm.
This efficient/adaptive algorithm was originally given by a guy (Matthew)
from Mitsubishi research lab. You can easily google that paper.
The main point relevant to the LS regression:
b = (X'X)^(-1) (X'y) (1)
is that, matrix inversion (X'X)^(-1) is essentially an SVD problem. As your
new data come in, you should sort of have an updated X and y, and
consequently an updated X'X. In abov... 阅读全帖

g********r
发帖数: 8017

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

好奇问一问：logistic regression里面，small step forward还是跟lasso等价的么？
如果是的话是不是不难写，就是慢。

p******k
发帖数: 23

来自主题: Statistics版 - logistic regression用LASSO选择变量合适吗？

logistic loss不是quadratic, 也不是piecewise linear. 根据 prof. Ji Zhu的文章
，它的solution path不是piecewise linear的,应该是非线性的。原则上讲和Least
Angel Regression 是不一样. 但是我们总是可以用local quadratic去逼近 logistic.
所以还是可以用small step forward很好逼进的

s**5
发帖数: 68

来自主题: Statistics版 - logistic regression in case-control study

问个问题，如果在case-control study中用logistic regression，logit(Pr) 中的
Probability（Pr)是什么的probability? 我的理解是Pr(D=1|X,Z=1) which Z=1mans
this subject is sampled. 然后如果用contigency table 表示，Pr(D=1|X,Z=1) can
be estimated as Nd=1/(Nd=1+Nd=0) in each row (each setting of x) 我的理解对
吗？谢谢！

s******y
发帖数: 64

来自主题: Statistics版 - 请教一个exact logistic regression的问题

用SAS跑exact logistic regression时, 只能condition on一部分参数, 才能estimate
其它的参数; 这样建起来的model不就不完整了吗? 因为总有至少一个参数无解.
请问这样的model能用来predict probability吗?

S******y
发帖数: 1123

来自主题: Statistics版 - How to paralell logistic regression estimation?

I have finally got Hadoop working on my Linux box. Next I would like to try
to see if I could to parallel model estimation for some commonly used models
such as logistic regression.
My question now is - how to paralell gradient descent for logistic model
estimation for real large data set?
Any thoughts would be greatly appreciated. Thanks in advance!
PS. See R code below. If needed, I could rewrite the following code in Java
or Python. But the question is how to decompose the following estimatio... 阅读全帖

s*********e
发帖数: 1051

来自主题: Statistics版 - How to paralell logistic regression estimation?

agree with oloolo
regression-type model is not a good candidate for parallel processing.

d******e
发帖数: 7844

来自主题: Statistics版 - How to paralell logistic regression estimation?

你落伍了。
我们现在做的并行算法可以在clustering上用几十几百GB的数据做regression。

d******e
发帖数: 7844

来自主题: Statistics版 - How to paralell logistic regression estimation?

算法当然是已有的，我们自己改进的，解个regression不过是小case而已
现在搞大规模并行、分布式优化的人不要太多哦，你自己搜一搜能找到一大把。

y******g
发帖数: 15

来自主题: Statistics版 - 新手请教sas 能画吗：散点图，有连线连接起来，并且有regression 线

就是散点图，用直线连接起来，并且有regression的线。请问怎么画啊？搜了网上居
然没找到！新手，太弱啦，求大牛点拨。十分感谢！！

S****Y
发帖数: 4634

来自主题: Statistics版 - 怎么样estimate two-way cluster logistic regression？有包子

问一下，怎么样用SAS或者STATA estimate logistic regression,
with clustered standard error in two dimensions.
谢谢！

c**i
发帖数: 234

来自主题: Statistics版 - 请教一个关于logistic regression参数的问题

对于logistic regression
log（pi/1-pi）=b0+b1x1+b2x2
我现在已知independent variables和response variable{log(pi/1-pi)}
我要怎么做才能把参数b0,b1,b2 fit出来？非常感谢

c**i
发帖数: 234

来自主题: Statistics版 - 请教一个关于logistic regression参数的问题

感谢楼上的，看来我没说清楚。我的问题是现在已经有log（pi/1-pi），并且是一个连
续分布的变量，看图形比较像gamma distribution的样子，我想问我有了log（pi/1-pi
），并且知道x1和x2，现在想要估计参数b0,b1,b2,该如何估计？是直接用linear
regression么？如果是的话glm（）里面那个family是不是要设置成gamma？谢谢

c**i
发帖数: 234

来自主题: Statistics版 - 请教一个关于logistic regression参数的问题

感谢楼上的各位，pi是probability of success。
正常的logistic regression 是log（pi/1-pi）=b0+b1x1+b2x2
所以pi=exp（b0+b1x1+b2x2)
但是这个model需要数各种组合下success或者fail的#，我没有这个#
我现在有其他人用上面的model fit 的 pi，并且我能确定x1,x2,我现在是想说看看他
用的model里的b0，b1，和b2是什么

B******5
发帖数: 4676

来自主题: Statistics版 - 请教一个关于logistic regression参数的问题

那就直接用普通的linear regression不就行了？

h******n
发帖数: 1838

来自主题: Statistics版 - 晕菜了, logistic regression with time-dependent covariates

楼上说的基本明白了，不过你提到cumulative login的次数每个人只有一个值我还是不
太懂，我不可能在课程刚开始3天的时候就知道学生从开始到课程结束总共会login几次
啊。公司要做的是每天都根据现有的数据预测学生最后会不会fail，如果只需要在第10
天，或第20天预测，那直接用cumulative login times up to day 10 or day20,就是
最简单的logistic regression了。
至于把每天login与否变成bivariate，我再考虑看看，这样的话会lose一些信息，比如
学生是否持之以恒地login之类：）你说的pattern很有意思，我也再想想看。
不知道说明白没有，双簧包已发，谢谢！

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天