今天和一个阿三聊segmented logistic regression - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 今天和一个阿三聊segmented logistic regression

相关主题
● 请教：怎么能把Logistic regression的OR转化成probablity	● credit risk scorecard一般是指retail credit risk吗？
● 怎么把模型变成score呢	● logistic regression on 3 billion records (转载)
● model和variables都sig.但每个category都不sig	● SVM (R)的结果能转成scorecard吗?
● 谁给说说marketing analysis主要做什么	● 做logistic regression，cases很少但是predictor很多
● 问一个有关credit risk modeling 的问题：不同segment 的 model score/probabilty 能较吗？	● 大家做过这个面试题吗？
● 请问：Age 什么时候应该 ’分段'，什么时候不分呢？	● 攒人品，发Google Statistician/Data Scientist电面面经
● sample size vs. number of regressors	● 怎么得到unadjusted odds ratio in proc logistic
● 急问高手,怎样在SAS实现logistic regression里independent variable重要性排序？	● a question for odds ratio estimate for logistic regression.

相关话题的讨论汇总
话题: logistic话题: regression话题: score话题: model话题: log

进入Statistics版参与讨论

(共1页)

f*******n
发帖数: 2665

这个人是我们公司（银行）在印度的modeling team的Sr Manager。他说他们做的
segmented logistic regression （有时多达50个segmentation）效果比一个logistic
regression好很多，而且：
1。他们的model结果就是一个probability，不用转换成score。（我很难想象银行不用
score而用一个介于0和1之间的小数来表示风险）
2。他们把50个model的结果直接放在一起，没有任何转换。（我觉得不可以，一位每个
model给出的estimated probability所对应的实际risk不相同，需要调整）
3。以上做法都通过了model validation。
此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人
给评一评。

Y*i
发帖数: 14

logistic

【在 f*******n 的大作中提到】

: 这个人是我们公司（银行）在印度的modeling team的Sr Manager。他说他们做的
: segmented logistic regression （有时多达50个segmentation）效果比一个logistic
: regression好很多，而且：
: 1。他们的model结果就是一个probability，不用转换成score。（我很难想象银行不用
: score而用一个介于0和1之间的小数来表示风险）
: 2。他们把50个model的结果直接放在一起，没有任何转换。（我觉得不可以，一位每个
: model给出的estimated probability所对应的实际risk不相同，需要调整）
: 3。以上做法都通过了model validation。
: 此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人
: 给评一评。

s*********h
发帖数: 6288

score和小数有什么区别？能说说为什么不能用分区的结果来算risk吗？

logistic

【在 f*******n 的大作中提到】

D******n
发帖数: 2836

为啥不用probability，本来就是model这个probability。
continuous做成discrete本来只是为了好看，分辨率肯定丧失了。

logistic

【在 f*******n 的大作中提到】

s*********e
发帖数: 1051

只要是现实中观察的到的数值，就是离散的，不管是probability还是score.
理论上，score can be made as granular as the probability
PERIOD.

【在 D******n 的大作中提到】

: 为啥不用probability，本来就是model这个probability。
: continuous做成discrete本来只是为了好看，分辨率肯定丧失了。
:
: logistic

s*********e
发帖数: 1051

另外，也不是为了好看，是有实际的用处的。具体自己看书去。

【在 D******n 的大作中提到】

: 为啥不用probability，本来就是model这个probability。
: continuous做成discrete本来只是为了好看，分辨率肯定丧失了。
:
: logistic

a***g
发帖数: 2761

logistic
如果是segmented regression不是就一个model么，怎么有50个model？

【在 f*******n 的大作中提到】

s*********e
发帖数: 1051

if there is a alignment model on top of these 50 sobmodels, then it is
possible that the probability from different submodels might represent the
same risk.

logistic

【在 f*******n 的大作中提到】

b*********k
发帖数: 335

is it ordinal logistic regression

b*********k
发帖数: 335

statcompute,
Can you give a quick summary of "也不是为了好看，是有实际的用处的"
I am also very puzzled on this.
From my own experience, as long as score as 1 to 1 relationship with
probability, they are the same

相关主题
● 请问：Age 什么时候应该 ’分段'，什么时候不分呢？	● credit risk scorecard一般是指retail credit risk吗？
● sample size vs. number of regressors	● logistic regression on 3 billion records (转载)
● 急问高手,怎样在SAS实现logistic regression里independent variable重要性排序？	● SVM (R)的结果能转成scorecard吗?
进入Statistics版参与讨论

p*****y
发帖数: 34

感觉是50个很弱的classifiers 合并起来效果肯定比每个模型效果好。
不过阿三的话经常掺水分，所以可以理解为：效果比原来略有提高

f*******n
发帖数: 2665

这个不是ensemble.

【在 p*****y 的大作中提到】

: 感觉是50个很弱的classifiers 合并起来效果肯定比每个模型效果好。
: 不过阿三的话经常掺水分，所以可以理解为：效果比原来略有提高

f*******n
发帖数: 2665

“if there is a alignment model on top of these 50 submodels”你的意思是把50
个submodel做alignment以便使每个model score在数值相同时对应的风险也相同？

【在 s*********e 的大作中提到】

: if there is a alignment model on top of these 50 sobmodels, then it is
: possible that the probability from different submodels might represent the
: same risk.
:
: logistic

f*******n
发帖数: 2665

你是不是对1和2都不认同？

【在 s*********e 的大作中提到】

: 只要是现实中观察的到的数值，就是离散的，不管是probability还是score.
: 理论上，score can be made as granular as the probability
: PERIOD.

A*******s
发帖数: 3942

在logistic regression在应用之前，银行的scorecard(评分表)其实就是简单地把申请
人的资料逐项打分(itemized and score)，最后看看相加的总分是否超过了阈值。评分
表也不仅仅是在银行里用，social/medical/psychological research也很常见。评分
表的最重要的性质是每项分数的可加性，而我们都知道概率一般是不可加的(除非
underlying events are mutually exclusive)，只有log odds有很好的可加性，也恰
好对应了logistic regression里面beta的意义。这是为什么logistic regression实际
应用非常广泛的原因，也是score应该是log odds的线性变换的原因。
具体到楼主的这个问题，要看阿三这个model的应用是否需要itemized scorecard的存
在。如果不需要的话，确实没必要转换成score，直接用probability即可。如果每个
segment的sampling weights是一样的话，当然可以直接一起用。

g*****o
发帖数: 812

原来如此, 终于知道log odds有什么实际用途了...
学的时候觉得odds好莫名其妙

【在 A*******s 的大作中提到】

: 在logistic regression在应用之前，银行的scorecard(评分表)其实就是简单地把申请
: 人的资料逐项打分(itemized and score)，最后看看相加的总分是否超过了阈值。评分
: 表也不仅仅是在银行里用，social/medical/psychological research也很常见。评分
: 表的最重要的性质是每项分数的可加性，而我们都知道概率一般是不可加的(除非
: underlying events are mutually exclusive)，只有log odds有很好的可加性，也恰
: 好对应了logistic regression里面beta的意义。这是为什么logistic regression实际
: 应用非常广泛的原因，也是score应该是log odds的线性变换的原因。
: 具体到楼主的这个问题，要看阿三这个model的应用是否需要itemized scorecard的存
: 在。如果不需要的话，确实没必要转换成score，直接用probability即可。如果每个
: segment的sampling weights是一样的话，当然可以直接一起用。

f*******n
发帖数: 2665

多谢你的分析。这个model里每个segment的prior肯定是不一样的，

【在 A*******s 的大作中提到】

w******l
发帖数: 34

大侠能再具体讲一下log odds的可加性指什么吗
我知道logistics reg本身设计成indep是log odds就是为了能fit出来可加的
Linear sum of indep variables, 但是如果是不同的打分加在一起，还有道理吗，比如
score1 = log (p1/1-p1),
score2 = log(p2/1-p2),
那么score1 + score2 好像不好解释的通啊, 尤其是p1,p2不是independent的两件事情
的话（虽然比直接p1 + p2多些道理）。
一个引申的问题就是， scorecards model是要把prob 转变成score的，一直不理解转
化的公式为什么要那么定义：-）

【在 A*******s 的大作中提到】

s*********h
发帖数: 6288

我觉得就是指
log odds是p的单调函数，然后可以简单相加来表示两类event的不同组合产生的log
odds。

比如

【在 w******l 的大作中提到】

: 大侠能再具体讲一下log odds的可加性指什么吗
: 我知道logistics reg本身设计成indep是log odds就是为了能fit出来可加的
: Linear sum of indep variables, 但是如果是不同的打分加在一起，还有道理吗，比如
: score1 = log (p1/1-p1),
: score2 = log(p2/1-p2),
: 那么score1 + score2 好像不好解释的通啊, 尤其是p1,p2不是independent的两件事情
: 的话（虽然比直接p1 + p2多些道理）。
: 一个引申的问题就是， scorecards model是要把prob 转变成score的，一直不理解转
: 化的公式为什么要那么定义：-）

w******l
发帖数: 34

谢谢，不过还是觉得讲不通
你看log(p1/1-p1) + log(p2/1-p2) = log(p1p2/(1-p1)(1-p2))
加出来就不是某个event的log odds了啊

【在 s*********h 的大作中提到】

: 我觉得就是指
: log odds是p的单调函数，然后可以简单相加来表示两类event的不同组合产生的log
: odds。
:
: 比如

相关主题
● 做logistic regression，cases很少但是predictor很多	● 怎么得到unadjusted odds ratio in proc logistic
● 大家做过这个面试题吗？	● a question for odds ratio estimate for logistic regression.
● 攒人品，发Google Statistician/Data Scientist电面面经	● R 里面 logistic regression （glm）怎么样输出 Odds Ratio 的 confidence interval
进入Statistics版参与讨论

D******n
发帖数: 2836

logistic regression 用了logit 的link function 可不是为了score好加啥的。
logit的确比较好用来解释每个predictor的coefficient，（就是啥predictor增加一个
单位引起的log odds ratio = coefficient）。
精算说的可加性，我觉得是指，如果你的score是 XB，那么每个X加多少，理解就知
道score会变多少。
当然，这些都是属于我说的“好看”范围。

比如

【在 w******l 的大作中提到】

D******n
发帖数: 2836

其实bureau里面大多score都是probability scale。

【在 A*******s 的大作中提到】

s*********e
发帖数: 1051

there are stupid people everywhere.

【在 D******n 的大作中提到】

: 其实bureau里面大多score都是probability scale。

A*******s
发帖数: 3942

这里说的log odds的可加性当然是在multivariate regression的背景下讲的
如果A对于非A的log odd平均增加了b1，
B对于非B的log odd平均增加了b2，
在additive model的假设下，那么AB对于非A非B的log odd增加就是b1+b2

【在 w******l 的大作中提到】

: 谢谢，不过还是觉得讲不通
: 你看log(p1/1-p1) + log(p2/1-p2) = log(p1p2/(1-p1)(1-p2))
: 加出来就不是某个event的log odds了啊

A*******s
发帖数: 3942

bureau的分数对于用户来说其实就是个black box吧，没有itemize的需求，所以可加不
可加也无所谓了。但对于银行来说，itemized scorecard的需求还是挺多的，比如说
adverse action code，或者说制定具体的underwriting policy。

【在 D******n 的大作中提到】

: 其实bureau里面大多score都是probability scale。

D******n
发帖数: 2836

probablity scale 或者是odds scale不影响 adverse action啊，只要score是 XB 那
样算出来的。就可以算adverse action，不论最后对XB进行了啥变换.
而且，为啥一个score非要有人类可以理解的性质呢，最后cut哪里还是算出来的吧。
对于消费者，只要越大越好就够了，管它是啥scale。

【在 A*******s 的大作中提到】

: bureau的分数对于用户来说其实就是个black box吧，没有itemize的需求，所以可加不
: 可加也无所谓了。但对于银行来说，itemized scorecard的需求还是挺多的，比如说
: adverse action code，或者说制定具体的underwriting policy。

A*******s
发帖数: 3942

当然有影响--给rejected applicant只需要解释top adverse action codes就行了，但
是fair lending & compliance的人会关心每个adverse action的“贡献”。

【在 D******n 的大作中提到】

: probablity scale 或者是odds scale不影响 adverse action啊，只要score是 XB 那
: 样算出来的。就可以算adverse action，不论最后对XB进行了啥变换.
: 而且，为啥一个score非要有人类可以理解的性质呢，最后cut哪里还是算出来的吧。
: 对于消费者，只要越大越好就够了，管它是啥scale。

f*****e
发帖数: 156

还是没看明白，Dashagan讲的有道理哈，你用log odds 或 x*beta/linear predictor
和用prob还是没区别啊，因为两者是一对一的单调关系哈。
能否具体解释一下为何x*beta可以做的，prob就不能，外行插一句，莫笑。

【在 A*******s 的大作中提到】

: 当然有影响--给rejected applicant只需要解释top adverse action codes就行了，但
: 是fair lending & compliance的人会关心每个adverse action的“贡献”。

D******n
发帖数: 2836

精算的意思是，不单要排好序，取头4条，而且要每条令score降低多少都要说出来。
但我並不知道FACTA或CFPB變的這麼嚴厲了
乾脆把scorecard 公開得了。

predictor

【在 f*****e 的大作中提到】

: 还是没看明白，Dashagan讲的有道理哈，你用log odds 或 x*beta/linear predictor
: 和用prob还是没区别啊，因为两者是一对一的单调关系哈。
: 能否具体解释一下为何x*beta可以做的，prob就不能，外行插一句，莫笑。

A*******s
发帖数: 3942

没错....每次写code都得包括adverse action的这部分，客户是不会知道“每条令
score降低多少”的，这个是给compliance的人看的。

【在 D******n 的大作中提到】

: 精算的意思是，不单要排好序，取头4条，而且要每条令score降低多少都要说出来。
: 但我並不知道FACTA或CFPB變的這麼嚴厲了
: 乾脆把scorecard 公開得了。
:
: predictor

相关主题
● logistic regression in case-control study	● 怎么把模型变成score呢
● 请教一个exact logistic regression的问题	● model和variables都sig.但每个category都不sig
● 请教：怎么能把Logistic regression的OR转化成probablity	● 谁给说说marketing analysis主要做什么
进入Statistics版参与讨论

A*******s
发帖数: 3942

如果只看总分的话，用啥都没关系，用啥model也没关系，只需要probability output
就成...
但是如果需要itemized的话，需要分开看每个variable对于总分的“贡献”的话，就只
能用log-odd和logistic regression。

predictor

【在 f*****e 的大作中提到】

(共1页)

进入Statistics版参与讨论

相关主题
● a question for odds ratio estimate for logistic regression.	● 问一个有关credit risk modeling 的问题：不同segment 的 model score/probabilty 能较吗？
● R 里面 logistic regression （glm）怎么样输出 Odds Ratio 的 confidence interval	● 请问：Age 什么时候应该 ’分段'，什么时候不分呢？
● logistic regression in case-control study	● sample size vs. number of regressors
● 请教一个exact logistic regression的问题	● 急问高手,怎样在SAS实现logistic regression里independent variable重要性排序？
● 请教：怎么能把Logistic regression的OR转化成probablity	● credit risk scorecard一般是指retail credit risk吗？
● 怎么把模型变成score呢	● logistic regression on 3 billion records (转载)
● model和variables都sig.但每个category都不sig	● SVM (R)的结果能转成scorecard吗?
● 谁给说说marketing analysis主要做什么	● 做logistic regression，cases很少但是predictor很多

相关话题的讨论汇总
话题: logistic话题: regression话题: score话题: model话题: log

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天