由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 今天和一个阿三聊segmented logistic regression
相关主题
请教:怎么能把Logistic regression的OR转化成probablitycredit risk scorecard一般是指retail credit risk吗?
怎么把模型变成score呢logistic regression on 3 billion records (转载)
model和variables都sig.但每个category都不sigSVM (R)的结果能转成scorecard吗?
谁给说说marketing analysis主要做什么做logistic regression,cases很少但是predictor很多
问一个有关credit risk modeling 的问题:不同segment 的 model score/probabilty 能较吗?大家做过这个面试题吗?
请问:Age 什么时候应该 ’分段', 什么时候不分呢?攒人品,发Google Statistician/Data Scientist电面面经
sample size vs. number of regressors怎么得到unadjusted odds ratio in proc logistic
急问高手,怎样在SAS实现logistic regression里independent variable重要性排序?a question for odds ratio estimate for logistic regression.
相关话题的讨论汇总
话题: logistic话题: regression话题: score话题: model话题: log
进入Statistics版参与讨论
1 (共1页)
f*******n
发帖数: 2665
1
这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的
segmented logistic regression (有时多达50个segmentation)效果比一个logistic
regression好很多,而且:
1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用
score而用一个介于0和1之间的小数来表示风险)
2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个
model给出的estimated probability所对应的实际risk不相同,需要调整)
3。以上做法都通过了model validation。
此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人
给评一评。
Y*i
发帖数: 14
2

logistic

【在 f*******n 的大作中提到】
: 这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的
: segmented logistic regression (有时多达50个segmentation)效果比一个logistic
: regression好很多,而且:
: 1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用
: score而用一个介于0和1之间的小数来表示风险)
: 2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个
: model给出的estimated probability所对应的实际risk不相同,需要调整)
: 3。以上做法都通过了model validation。
: 此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人
: 给评一评。

s*********h
发帖数: 6288
3
score和小数有什么区别?能说说为什么不能用分区的结果来算risk吗?

logistic

【在 f*******n 的大作中提到】
: 这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的
: segmented logistic regression (有时多达50个segmentation)效果比一个logistic
: regression好很多,而且:
: 1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用
: score而用一个介于0和1之间的小数来表示风险)
: 2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个
: model给出的estimated probability所对应的实际risk不相同,需要调整)
: 3。以上做法都通过了model validation。
: 此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人
: 给评一评。

D******n
发帖数: 2836
4
为啥不用probability,本来就是model这个probability。
continuous做成discrete本来只是为了好看,分辨率肯定丧失了。

logistic

【在 f*******n 的大作中提到】
: 这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的
: segmented logistic regression (有时多达50个segmentation)效果比一个logistic
: regression好很多,而且:
: 1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用
: score而用一个介于0和1之间的小数来表示风险)
: 2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个
: model给出的estimated probability所对应的实际risk不相同,需要调整)
: 3。以上做法都通过了model validation。
: 此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人
: 给评一评。

s*********e
发帖数: 1051
5
只要是现实中观察的到的数值,就是离散的,不管是probability还是score.
理论上,score can be made as granular as the probability
PERIOD.

【在 D******n 的大作中提到】
: 为啥不用probability,本来就是model这个probability。
: continuous做成discrete本来只是为了好看,分辨率肯定丧失了。
:
: logistic

s*********e
发帖数: 1051
6
另外,也不是为了好看,是有实际的用处的。具体自己看书去。

【在 D******n 的大作中提到】
: 为啥不用probability,本来就是model这个probability。
: continuous做成discrete本来只是为了好看,分辨率肯定丧失了。
:
: logistic

a***g
发帖数: 2761
7

logistic
如果是segmented regression不是就一个model么,怎么有50个model?

【在 f*******n 的大作中提到】
: 这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的
: segmented logistic regression (有时多达50个segmentation)效果比一个logistic
: regression好很多,而且:
: 1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用
: score而用一个介于0和1之间的小数来表示风险)
: 2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个
: model给出的estimated probability所对应的实际risk不相同,需要调整)
: 3。以上做法都通过了model validation。
: 此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人
: 给评一评。

s*********e
发帖数: 1051
8
if there is a alignment model on top of these 50 sobmodels, then it is
possible that the probability from different submodels might represent the
same risk.

logistic

【在 f*******n 的大作中提到】
: 这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的
: segmented logistic regression (有时多达50个segmentation)效果比一个logistic
: regression好很多,而且:
: 1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用
: score而用一个介于0和1之间的小数来表示风险)
: 2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个
: model给出的estimated probability所对应的实际risk不相同,需要调整)
: 3。以上做法都通过了model validation。
: 此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人
: 给评一评。

b*********k
发帖数: 335
9
is it ordinal logistic regression
b*********k
发帖数: 335
10
statcompute,
Can you give a quick summary of "也不是为了好看,是有实际的用处的"
I am also very puzzled on this.
From my own experience, as long as score as 1 to 1 relationship with
probability, they are the same
相关主题
请问:Age 什么时候应该 ’分段', 什么时候不分呢?credit risk scorecard一般是指retail credit risk吗?
sample size vs. number of regressorslogistic regression on 3 billion records (转载)
急问高手,怎样在SAS实现logistic regression里independent variable重要性排序?SVM (R)的结果能转成scorecard吗?
进入Statistics版参与讨论
p*****y
发帖数: 34
11
感觉是50个很弱的classifiers 合并起来效果肯定比每个模型效果好。
不过阿三的话经常掺水分,所以可以理解为: 效果比原来略有提高
f*******n
发帖数: 2665
12
这个不是ensemble.

【在 p*****y 的大作中提到】
: 感觉是50个很弱的classifiers 合并起来效果肯定比每个模型效果好。
: 不过阿三的话经常掺水分,所以可以理解为: 效果比原来略有提高

f*******n
发帖数: 2665
13
“if there is a alignment model on top of these 50 submodels”你的意思是把50
个submodel做alignment以便使每个model score在数值相同时对应的风险也相同?

【在 s*********e 的大作中提到】
: if there is a alignment model on top of these 50 sobmodels, then it is
: possible that the probability from different submodels might represent the
: same risk.
:
: logistic

f*******n
发帖数: 2665
14
你是不是对1和2都不认同?

【在 s*********e 的大作中提到】
: 只要是现实中观察的到的数值,就是离散的,不管是probability还是score.
: 理论上,score can be made as granular as the probability
: PERIOD.

A*******s
发帖数: 3942
15
在logistic regression在应用之前,银行的scorecard(评分表)其实就是简单地把申请
人的资料逐项打分(itemized and score),最后看看相加的总分是否超过了阈值。评分
表也不仅仅是在银行里用,social/medical/psychological research也很常见。评分
表的最重要的性质是每项分数的可加性,而我们都知道概率一般是不可加的(除非
underlying events are mutually exclusive),只有log odds有很好的可加性,也恰
好对应了logistic regression里面beta的意义。这是为什么logistic regression实际
应用非常广泛的原因,也是score应该是log odds的线性变换的原因。
具体到楼主的这个问题,要看阿三这个model的应用是否需要itemized scorecard的存
在。如果不需要的话,确实没必要转换成score,直接用probability即可。如果每个
segment的sampling weights是一样的话,当然可以直接一起用。
g*****o
发帖数: 812
16
原来如此, 终于知道log odds有什么实际用途了...
学的时候觉得odds好莫名其妙

【在 A*******s 的大作中提到】
: 在logistic regression在应用之前,银行的scorecard(评分表)其实就是简单地把申请
: 人的资料逐项打分(itemized and score),最后看看相加的总分是否超过了阈值。评分
: 表也不仅仅是在银行里用,social/medical/psychological research也很常见。评分
: 表的最重要的性质是每项分数的可加性,而我们都知道概率一般是不可加的(除非
: underlying events are mutually exclusive),只有log odds有很好的可加性,也恰
: 好对应了logistic regression里面beta的意义。这是为什么logistic regression实际
: 应用非常广泛的原因,也是score应该是log odds的线性变换的原因。
: 具体到楼主的这个问题,要看阿三这个model的应用是否需要itemized scorecard的存
: 在。如果不需要的话,确实没必要转换成score,直接用probability即可。如果每个
: segment的sampling weights是一样的话,当然可以直接一起用。

f*******n
发帖数: 2665
17
多谢你的分析。这个model里每个segment的prior肯定是不一样的,

【在 A*******s 的大作中提到】
: 在logistic regression在应用之前,银行的scorecard(评分表)其实就是简单地把申请
: 人的资料逐项打分(itemized and score),最后看看相加的总分是否超过了阈值。评分
: 表也不仅仅是在银行里用,social/medical/psychological research也很常见。评分
: 表的最重要的性质是每项分数的可加性,而我们都知道概率一般是不可加的(除非
: underlying events are mutually exclusive),只有log odds有很好的可加性,也恰
: 好对应了logistic regression里面beta的意义。这是为什么logistic regression实际
: 应用非常广泛的原因,也是score应该是log odds的线性变换的原因。
: 具体到楼主的这个问题,要看阿三这个model的应用是否需要itemized scorecard的存
: 在。如果不需要的话,确实没必要转换成score,直接用probability即可。如果每个
: segment的sampling weights是一样的话,当然可以直接一起用。

w******l
发帖数: 34
18
大侠能再具体讲一下log odds的可加性指什么吗
我知道logistics reg本身设计成indep是log odds就是为了能fit出来可加的
Linear sum of indep variables, 但是如果是不同的打分加在一起,还有道理吗,比如
score1 = log (p1/1-p1),
score2 = log(p2/1-p2),
那么score1 + score2 好像不好解释的通啊, 尤其是p1,p2不是independent的两件事情
的话 (虽然比直接p1 + p2多些道理)。
一个引申的问题就是, scorecards model是要把prob 转变成score的,一直不理解转
化的公式为什么要那么定义 :-)

【在 A*******s 的大作中提到】
: 在logistic regression在应用之前,银行的scorecard(评分表)其实就是简单地把申请
: 人的资料逐项打分(itemized and score),最后看看相加的总分是否超过了阈值。评分
: 表也不仅仅是在银行里用,social/medical/psychological research也很常见。评分
: 表的最重要的性质是每项分数的可加性,而我们都知道概率一般是不可加的(除非
: underlying events are mutually exclusive),只有log odds有很好的可加性,也恰
: 好对应了logistic regression里面beta的意义。这是为什么logistic regression实际
: 应用非常广泛的原因,也是score应该是log odds的线性变换的原因。
: 具体到楼主的这个问题,要看阿三这个model的应用是否需要itemized scorecard的存
: 在。如果不需要的话,确实没必要转换成score,直接用probability即可。如果每个
: segment的sampling weights是一样的话,当然可以直接一起用。

s*********h
发帖数: 6288
19
我觉得就是指
log odds是p的单调函数,然后 可以简单相加来表示两类event的不同组合产生的log
odds。

比如

【在 w******l 的大作中提到】
: 大侠能再具体讲一下log odds的可加性指什么吗
: 我知道logistics reg本身设计成indep是log odds就是为了能fit出来可加的
: Linear sum of indep variables, 但是如果是不同的打分加在一起,还有道理吗,比如
: score1 = log (p1/1-p1),
: score2 = log(p2/1-p2),
: 那么score1 + score2 好像不好解释的通啊, 尤其是p1,p2不是independent的两件事情
: 的话 (虽然比直接p1 + p2多些道理)。
: 一个引申的问题就是, scorecards model是要把prob 转变成score的,一直不理解转
: 化的公式为什么要那么定义 :-)

w******l
发帖数: 34
20
谢谢, 不过还是觉得讲不通
你看log(p1/1-p1) + log(p2/1-p2) = log(p1p2/(1-p1)(1-p2))
加出来就不是某个event的log odds了啊

【在 s*********h 的大作中提到】
: 我觉得就是指
: log odds是p的单调函数,然后 可以简单相加来表示两类event的不同组合产生的log
: odds。
:
: 比如

相关主题
做logistic regression,cases很少但是predictor很多怎么得到unadjusted odds ratio in proc logistic
大家做过这个面试题吗?a question for odds ratio estimate for logistic regression.
攒人品,发Google Statistician/Data Scientist电面面经R 里面 logistic regression (glm)怎么样输出 Odds Ratio 的 confidence interval
进入Statistics版参与讨论
D******n
发帖数: 2836
21
logistic regression 用了logit 的link function 可不是为了score好加啥的。
logit的确比较好用来解释每个predictor的coefficient,(就是啥predictor增加一个
单位引起的log odds ratio = coefficient)。
精算说的可加性,我觉得是指, 如果你的score是 XB, 那么每个X加多少,理解就知
道score会变多少。
当然,这些都是属于我说的“好看”范围。

比如

【在 w******l 的大作中提到】
: 大侠能再具体讲一下log odds的可加性指什么吗
: 我知道logistics reg本身设计成indep是log odds就是为了能fit出来可加的
: Linear sum of indep variables, 但是如果是不同的打分加在一起,还有道理吗,比如
: score1 = log (p1/1-p1),
: score2 = log(p2/1-p2),
: 那么score1 + score2 好像不好解释的通啊, 尤其是p1,p2不是independent的两件事情
: 的话 (虽然比直接p1 + p2多些道理)。
: 一个引申的问题就是, scorecards model是要把prob 转变成score的,一直不理解转
: 化的公式为什么要那么定义 :-)

D******n
发帖数: 2836
22
其实bureau里面大多score都是probability scale。

【在 A*******s 的大作中提到】
: 在logistic regression在应用之前,银行的scorecard(评分表)其实就是简单地把申请
: 人的资料逐项打分(itemized and score),最后看看相加的总分是否超过了阈值。评分
: 表也不仅仅是在银行里用,social/medical/psychological research也很常见。评分
: 表的最重要的性质是每项分数的可加性,而我们都知道概率一般是不可加的(除非
: underlying events are mutually exclusive),只有log odds有很好的可加性,也恰
: 好对应了logistic regression里面beta的意义。这是为什么logistic regression实际
: 应用非常广泛的原因,也是score应该是log odds的线性变换的原因。
: 具体到楼主的这个问题,要看阿三这个model的应用是否需要itemized scorecard的存
: 在。如果不需要的话,确实没必要转换成score,直接用probability即可。如果每个
: segment的sampling weights是一样的话,当然可以直接一起用。

s*********e
发帖数: 1051
23
there are stupid people everywhere.

【在 D******n 的大作中提到】
: 其实bureau里面大多score都是probability scale。
A*******s
发帖数: 3942
24
这里说的log odds的可加性当然是在multivariate regression的背景下讲的
如果A对于非A的log odd平均增加了b1,
B对于非B的log odd平均增加了b2,
在additive model的假设下,那么AB对于非A非B的log odd增加就是b1+b2

【在 w******l 的大作中提到】
: 谢谢, 不过还是觉得讲不通
: 你看log(p1/1-p1) + log(p2/1-p2) = log(p1p2/(1-p1)(1-p2))
: 加出来就不是某个event的log odds了啊

A*******s
发帖数: 3942
25
bureau的分数对于用户来说其实就是个black box吧,没有itemize的需求,所以可加不
可加也无所谓了。但对于银行来说,itemized scorecard的需求还是挺多的,比如说
adverse action code,或者说制定具体的underwriting policy。

【在 D******n 的大作中提到】
: 其实bureau里面大多score都是probability scale。
D******n
发帖数: 2836
26
probablity scale 或者 是odds scale不影响 adverse action啊,只要score是 XB 那
样算出来的。就可以算adverse action,不论最后对XB进行了啥变换.
而且,为啥一个score非要有人类可以理解的性质呢,最后cut哪里还是算出来的吧。
对于消费者,只要越大越好就够了,管它是啥scale。

【在 A*******s 的大作中提到】
: bureau的分数对于用户来说其实就是个black box吧,没有itemize的需求,所以可加不
: 可加也无所谓了。但对于银行来说,itemized scorecard的需求还是挺多的,比如说
: adverse action code,或者说制定具体的underwriting policy。

A*******s
发帖数: 3942
27
当然有影响--给rejected applicant只需要解释top adverse action codes就行了,但
是fair lending & compliance的人会关心每个adverse action的“贡献”。

【在 D******n 的大作中提到】
: probablity scale 或者 是odds scale不影响 adverse action啊,只要score是 XB 那
: 样算出来的。就可以算adverse action,不论最后对XB进行了啥变换.
: 而且,为啥一个score非要有人类可以理解的性质呢,最后cut哪里还是算出来的吧。
: 对于消费者,只要越大越好就够了,管它是啥scale。

f*****e
发帖数: 156
28
还是没看明白,Dashagan讲的有道理哈,你用log odds 或 x*beta/linear predictor
和 用prob还是没区别啊,因为两者是一对一的单调关系哈。
能否具体解释一下为何x*beta可以做的,prob就不能,外行插一句,莫笑。

【在 A*******s 的大作中提到】
: 当然有影响--给rejected applicant只需要解释top adverse action codes就行了,但
: 是fair lending & compliance的人会关心每个adverse action的“贡献”。

D******n
发帖数: 2836
29
精算的意思是,不单要排好序,取头4条,而且要每条令score降低多少都要说出来。
但我並不知道FACTA或CFPB變的這麼嚴厲了
乾脆把scorecard 公開得了。

predictor

【在 f*****e 的大作中提到】
: 还是没看明白,Dashagan讲的有道理哈,你用log odds 或 x*beta/linear predictor
: 和 用prob还是没区别啊,因为两者是一对一的单调关系哈。
: 能否具体解释一下为何x*beta可以做的,prob就不能,外行插一句,莫笑。

A*******s
发帖数: 3942
30
没错....每次写code都得包括adverse action的这部分,客户是不会知道“每条令
score降低多少”的,这个是给compliance的人看的。

【在 D******n 的大作中提到】
: 精算的意思是,不单要排好序,取头4条,而且要每条令score降低多少都要说出来。
: 但我並不知道FACTA或CFPB變的這麼嚴厲了
: 乾脆把scorecard 公開得了。
:
: predictor

相关主题
logistic regression in case-control study怎么把模型变成score呢
请教一个exact logistic regression的问题model和variables都sig.但每个category都不sig
请教:怎么能把Logistic regression的OR转化成probablity谁给说说marketing analysis主要做什么
进入Statistics版参与讨论
A*******s
发帖数: 3942
31
如果只看总分的话,用啥都没关系,用啥model也没关系,只需要probability output
就成...
但是如果需要itemized的话,需要分开看每个variable对于总分的“贡献”的话,就只
能用log-odd和logistic regression。

predictor

【在 f*****e 的大作中提到】
: 还是没看明白,Dashagan讲的有道理哈,你用log odds 或 x*beta/linear predictor
: 和 用prob还是没区别啊,因为两者是一对一的单调关系哈。
: 能否具体解释一下为何x*beta可以做的,prob就不能,外行插一句,莫笑。

1 (共1页)
进入Statistics版参与讨论
相关主题
a question for odds ratio estimate for logistic regression.问一个有关credit risk modeling 的问题:不同segment 的 model score/probabilty 能较吗?
R 里面 logistic regression (glm)怎么样输出 Odds Ratio 的 confidence interval请问:Age 什么时候应该 ’分段', 什么时候不分呢?
logistic regression in case-control studysample size vs. number of regressors
请教一个exact logistic regression的问题急问高手,怎样在SAS实现logistic regression里independent variable重要性排序?
请教:怎么能把Logistic regression的OR转化成probablitycredit risk scorecard一般是指retail credit risk吗?
怎么把模型变成score呢logistic regression on 3 billion records (转载)
model和variables都sig.但每个category都不sigSVM (R)的结果能转成scorecard吗?
谁给说说marketing analysis主要做什么做logistic regression,cases很少但是predictor很多
相关话题的讨论汇总
话题: logistic话题: regression话题: score话题: model话题: log