f*******n 发帖数: 2665 | 1 这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的
segmented logistic regression (有时多达50个segmentation)效果比一个logistic
regression好很多,而且:
1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用
score而用一个介于0和1之间的小数来表示风险)
2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个
model给出的estimated probability所对应的实际risk不相同,需要调整)
3。以上做法都通过了model validation。
此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人
给评一评。 |
Y*i 发帖数: 14 | 2
logistic
【在 f*******n 的大作中提到】 : 这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的 : segmented logistic regression (有时多达50个segmentation)效果比一个logistic : regression好很多,而且: : 1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用 : score而用一个介于0和1之间的小数来表示风险) : 2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个 : model给出的estimated probability所对应的实际risk不相同,需要调整) : 3。以上做法都通过了model validation。 : 此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人 : 给评一评。
|
s*********h 发帖数: 6288 | 3 score和小数有什么区别?能说说为什么不能用分区的结果来算risk吗?
logistic
【在 f*******n 的大作中提到】 : 这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的 : segmented logistic regression (有时多达50个segmentation)效果比一个logistic : regression好很多,而且: : 1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用 : score而用一个介于0和1之间的小数来表示风险) : 2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个 : model给出的estimated probability所对应的实际risk不相同,需要调整) : 3。以上做法都通过了model validation。 : 此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人 : 给评一评。
|
D******n 发帖数: 2836 | 4 为啥不用probability,本来就是model这个probability。
continuous做成discrete本来只是为了好看,分辨率肯定丧失了。
logistic
【在 f*******n 的大作中提到】 : 这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的 : segmented logistic regression (有时多达50个segmentation)效果比一个logistic : regression好很多,而且: : 1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用 : score而用一个介于0和1之间的小数来表示风险) : 2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个 : model给出的estimated probability所对应的实际risk不相同,需要调整) : 3。以上做法都通过了model validation。 : 此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人 : 给评一评。
|
s*********e 发帖数: 1051 | 5 只要是现实中观察的到的数值,就是离散的,不管是probability还是score.
理论上,score can be made as granular as the probability
PERIOD.
【在 D******n 的大作中提到】 : 为啥不用probability,本来就是model这个probability。 : continuous做成discrete本来只是为了好看,分辨率肯定丧失了。 : : logistic
|
s*********e 发帖数: 1051 | 6 另外,也不是为了好看,是有实际的用处的。具体自己看书去。
【在 D******n 的大作中提到】 : 为啥不用probability,本来就是model这个probability。 : continuous做成discrete本来只是为了好看,分辨率肯定丧失了。 : : logistic
|
a***g 发帖数: 2761 | 7
logistic
如果是segmented regression不是就一个model么,怎么有50个model?
【在 f*******n 的大作中提到】 : 这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的 : segmented logistic regression (有时多达50个segmentation)效果比一个logistic : regression好很多,而且: : 1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用 : score而用一个介于0和1之间的小数来表示风险) : 2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个 : model给出的estimated probability所对应的实际risk不相同,需要调整) : 3。以上做法都通过了model validation。 : 此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人 : 给评一评。
|
s*********e 发帖数: 1051 | 8 if there is a alignment model on top of these 50 sobmodels, then it is
possible that the probability from different submodels might represent the
same risk.
logistic
【在 f*******n 的大作中提到】 : 这个人是我们公司(银行)在印度的modeling team的Sr Manager。他说他们做的 : segmented logistic regression (有时多达50个segmentation)效果比一个logistic : regression好很多,而且: : 1。他们的model结果就是一个probability,不用转换成score。(我很难想象银行不用 : score而用一个介于0和1之间的小数来表示风险) : 2。他们把50个model的结果直接放在一起,没有任何转换。(我觉得不可以,一位每个 : model给出的estimated probability所对应的实际risk不相同,需要调整) : 3。以上做法都通过了model validation。 : 此人的职务和在我们公司的经历不会有假。但他的话实在让我惊讶。请有相关经验的人 : 给评一评。
|
b*********k 发帖数: 335 | 9 is it ordinal logistic regression |
b*********k 发帖数: 335 | 10 statcompute,
Can you give a quick summary of "也不是为了好看,是有实际的用处的"
I am also very puzzled on this.
From my own experience, as long as score as 1 to 1 relationship with
probability, they are the same |
|
|
p*****y 发帖数: 34 | 11 感觉是50个很弱的classifiers 合并起来效果肯定比每个模型效果好。
不过阿三的话经常掺水分,所以可以理解为: 效果比原来略有提高 |
f*******n 发帖数: 2665 | 12 这个不是ensemble.
【在 p*****y 的大作中提到】 : 感觉是50个很弱的classifiers 合并起来效果肯定比每个模型效果好。 : 不过阿三的话经常掺水分,所以可以理解为: 效果比原来略有提高
|
f*******n 发帖数: 2665 | 13 “if there is a alignment model on top of these 50 submodels”你的意思是把50
个submodel做alignment以便使每个model score在数值相同时对应的风险也相同?
【在 s*********e 的大作中提到】 : if there is a alignment model on top of these 50 sobmodels, then it is : possible that the probability from different submodels might represent the : same risk. : : logistic
|
f*******n 发帖数: 2665 | 14 你是不是对1和2都不认同?
【在 s*********e 的大作中提到】 : 只要是现实中观察的到的数值,就是离散的,不管是probability还是score. : 理论上,score can be made as granular as the probability : PERIOD.
|
A*******s 发帖数: 3942 | 15 在logistic regression在应用之前,银行的scorecard(评分表)其实就是简单地把申请
人的资料逐项打分(itemized and score),最后看看相加的总分是否超过了阈值。评分
表也不仅仅是在银行里用,social/medical/psychological research也很常见。评分
表的最重要的性质是每项分数的可加性,而我们都知道概率一般是不可加的(除非
underlying events are mutually exclusive),只有log odds有很好的可加性,也恰
好对应了logistic regression里面beta的意义。这是为什么logistic regression实际
应用非常广泛的原因,也是score应该是log odds的线性变换的原因。
具体到楼主的这个问题,要看阿三这个model的应用是否需要itemized scorecard的存
在。如果不需要的话,确实没必要转换成score,直接用probability即可。如果每个
segment的sampling weights是一样的话,当然可以直接一起用。 |
g*****o 发帖数: 812 | 16 原来如此, 终于知道log odds有什么实际用途了...
学的时候觉得odds好莫名其妙
【在 A*******s 的大作中提到】 : 在logistic regression在应用之前,银行的scorecard(评分表)其实就是简单地把申请 : 人的资料逐项打分(itemized and score),最后看看相加的总分是否超过了阈值。评分 : 表也不仅仅是在银行里用,social/medical/psychological research也很常见。评分 : 表的最重要的性质是每项分数的可加性,而我们都知道概率一般是不可加的(除非 : underlying events are mutually exclusive),只有log odds有很好的可加性,也恰 : 好对应了logistic regression里面beta的意义。这是为什么logistic regression实际 : 应用非常广泛的原因,也是score应该是log odds的线性变换的原因。 : 具体到楼主的这个问题,要看阿三这个model的应用是否需要itemized scorecard的存 : 在。如果不需要的话,确实没必要转换成score,直接用probability即可。如果每个 : segment的sampling weights是一样的话,当然可以直接一起用。
|
f*******n 发帖数: 2665 | 17 多谢你的分析。这个model里每个segment的prior肯定是不一样的,
【在 A*******s 的大作中提到】 : 在logistic regression在应用之前,银行的scorecard(评分表)其实就是简单地把申请 : 人的资料逐项打分(itemized and score),最后看看相加的总分是否超过了阈值。评分 : 表也不仅仅是在银行里用,social/medical/psychological research也很常见。评分 : 表的最重要的性质是每项分数的可加性,而我们都知道概率一般是不可加的(除非 : underlying events are mutually exclusive),只有log odds有很好的可加性,也恰 : 好对应了logistic regression里面beta的意义。这是为什么logistic regression实际 : 应用非常广泛的原因,也是score应该是log odds的线性变换的原因。 : 具体到楼主的这个问题,要看阿三这个model的应用是否需要itemized scorecard的存 : 在。如果不需要的话,确实没必要转换成score,直接用probability即可。如果每个 : segment的sampling weights是一样的话,当然可以直接一起用。
|
w******l 发帖数: 34 | 18 大侠能再具体讲一下log odds的可加性指什么吗
我知道logistics reg本身设计成indep是log odds就是为了能fit出来可加的
Linear sum of indep variables, 但是如果是不同的打分加在一起,还有道理吗,比如
score1 = log (p1/1-p1),
score2 = log(p2/1-p2),
那么score1 + score2 好像不好解释的通啊, 尤其是p1,p2不是independent的两件事情
的话 (虽然比直接p1 + p2多些道理)。
一个引申的问题就是, scorecards model是要把prob 转变成score的,一直不理解转
化的公式为什么要那么定义 :-)
【在 A*******s 的大作中提到】 : 在logistic regression在应用之前,银行的scorecard(评分表)其实就是简单地把申请 : 人的资料逐项打分(itemized and score),最后看看相加的总分是否超过了阈值。评分 : 表也不仅仅是在银行里用,social/medical/psychological research也很常见。评分 : 表的最重要的性质是每项分数的可加性,而我们都知道概率一般是不可加的(除非 : underlying events are mutually exclusive),只有log odds有很好的可加性,也恰 : 好对应了logistic regression里面beta的意义。这是为什么logistic regression实际 : 应用非常广泛的原因,也是score应该是log odds的线性变换的原因。 : 具体到楼主的这个问题,要看阿三这个model的应用是否需要itemized scorecard的存 : 在。如果不需要的话,确实没必要转换成score,直接用probability即可。如果每个 : segment的sampling weights是一样的话,当然可以直接一起用。
|
s*********h 发帖数: 6288 | 19 我觉得就是指
log odds是p的单调函数,然后 可以简单相加来表示两类event的不同组合产生的log
odds。
比如
【在 w******l 的大作中提到】 : 大侠能再具体讲一下log odds的可加性指什么吗 : 我知道logistics reg本身设计成indep是log odds就是为了能fit出来可加的 : Linear sum of indep variables, 但是如果是不同的打分加在一起,还有道理吗,比如 : score1 = log (p1/1-p1), : score2 = log(p2/1-p2), : 那么score1 + score2 好像不好解释的通啊, 尤其是p1,p2不是independent的两件事情 : 的话 (虽然比直接p1 + p2多些道理)。 : 一个引申的问题就是, scorecards model是要把prob 转变成score的,一直不理解转 : 化的公式为什么要那么定义 :-)
|
w******l 发帖数: 34 | 20 谢谢, 不过还是觉得讲不通
你看log(p1/1-p1) + log(p2/1-p2) = log(p1p2/(1-p1)(1-p2))
加出来就不是某个event的log odds了啊
【在 s*********h 的大作中提到】 : 我觉得就是指 : log odds是p的单调函数,然后 可以简单相加来表示两类event的不同组合产生的log : odds。 : : 比如
|
|
|
D******n 发帖数: 2836 | 21 logistic regression 用了logit 的link function 可不是为了score好加啥的。
logit的确比较好用来解释每个predictor的coefficient,(就是啥predictor增加一个
单位引起的log odds ratio = coefficient)。
精算说的可加性,我觉得是指, 如果你的score是 XB, 那么每个X加多少,理解就知
道score会变多少。
当然,这些都是属于我说的“好看”范围。
比如
【在 w******l 的大作中提到】 : 大侠能再具体讲一下log odds的可加性指什么吗 : 我知道logistics reg本身设计成indep是log odds就是为了能fit出来可加的 : Linear sum of indep variables, 但是如果是不同的打分加在一起,还有道理吗,比如 : score1 = log (p1/1-p1), : score2 = log(p2/1-p2), : 那么score1 + score2 好像不好解释的通啊, 尤其是p1,p2不是independent的两件事情 : 的话 (虽然比直接p1 + p2多些道理)。 : 一个引申的问题就是, scorecards model是要把prob 转变成score的,一直不理解转 : 化的公式为什么要那么定义 :-)
|
D******n 发帖数: 2836 | 22 其实bureau里面大多score都是probability scale。
【在 A*******s 的大作中提到】 : 在logistic regression在应用之前,银行的scorecard(评分表)其实就是简单地把申请 : 人的资料逐项打分(itemized and score),最后看看相加的总分是否超过了阈值。评分 : 表也不仅仅是在银行里用,social/medical/psychological research也很常见。评分 : 表的最重要的性质是每项分数的可加性,而我们都知道概率一般是不可加的(除非 : underlying events are mutually exclusive),只有log odds有很好的可加性,也恰 : 好对应了logistic regression里面beta的意义。这是为什么logistic regression实际 : 应用非常广泛的原因,也是score应该是log odds的线性变换的原因。 : 具体到楼主的这个问题,要看阿三这个model的应用是否需要itemized scorecard的存 : 在。如果不需要的话,确实没必要转换成score,直接用probability即可。如果每个 : segment的sampling weights是一样的话,当然可以直接一起用。
|
s*********e 发帖数: 1051 | 23 there are stupid people everywhere.
【在 D******n 的大作中提到】 : 其实bureau里面大多score都是probability scale。
|
A*******s 发帖数: 3942 | 24 这里说的log odds的可加性当然是在multivariate regression的背景下讲的
如果A对于非A的log odd平均增加了b1,
B对于非B的log odd平均增加了b2,
在additive model的假设下,那么AB对于非A非B的log odd增加就是b1+b2
【在 w******l 的大作中提到】 : 谢谢, 不过还是觉得讲不通 : 你看log(p1/1-p1) + log(p2/1-p2) = log(p1p2/(1-p1)(1-p2)) : 加出来就不是某个event的log odds了啊
|
A*******s 发帖数: 3942 | 25 bureau的分数对于用户来说其实就是个black box吧,没有itemize的需求,所以可加不
可加也无所谓了。但对于银行来说,itemized scorecard的需求还是挺多的,比如说
adverse action code,或者说制定具体的underwriting policy。
【在 D******n 的大作中提到】 : 其实bureau里面大多score都是probability scale。
|
D******n 发帖数: 2836 | 26 probablity scale 或者 是odds scale不影响 adverse action啊,只要score是 XB 那
样算出来的。就可以算adverse action,不论最后对XB进行了啥变换.
而且,为啥一个score非要有人类可以理解的性质呢,最后cut哪里还是算出来的吧。
对于消费者,只要越大越好就够了,管它是啥scale。
【在 A*******s 的大作中提到】 : bureau的分数对于用户来说其实就是个black box吧,没有itemize的需求,所以可加不 : 可加也无所谓了。但对于银行来说,itemized scorecard的需求还是挺多的,比如说 : adverse action code,或者说制定具体的underwriting policy。
|
A*******s 发帖数: 3942 | 27 当然有影响--给rejected applicant只需要解释top adverse action codes就行了,但
是fair lending & compliance的人会关心每个adverse action的“贡献”。
【在 D******n 的大作中提到】 : probablity scale 或者 是odds scale不影响 adverse action啊,只要score是 XB 那 : 样算出来的。就可以算adverse action,不论最后对XB进行了啥变换. : 而且,为啥一个score非要有人类可以理解的性质呢,最后cut哪里还是算出来的吧。 : 对于消费者,只要越大越好就够了,管它是啥scale。
|
f*****e 发帖数: 156 | 28 还是没看明白,Dashagan讲的有道理哈,你用log odds 或 x*beta/linear predictor
和 用prob还是没区别啊,因为两者是一对一的单调关系哈。
能否具体解释一下为何x*beta可以做的,prob就不能,外行插一句,莫笑。
【在 A*******s 的大作中提到】 : 当然有影响--给rejected applicant只需要解释top adverse action codes就行了,但 : 是fair lending & compliance的人会关心每个adverse action的“贡献”。
|
D******n 发帖数: 2836 | 29 精算的意思是,不单要排好序,取头4条,而且要每条令score降低多少都要说出来。
但我並不知道FACTA或CFPB變的這麼嚴厲了
乾脆把scorecard 公開得了。
predictor
【在 f*****e 的大作中提到】 : 还是没看明白,Dashagan讲的有道理哈,你用log odds 或 x*beta/linear predictor : 和 用prob还是没区别啊,因为两者是一对一的单调关系哈。 : 能否具体解释一下为何x*beta可以做的,prob就不能,外行插一句,莫笑。
|
A*******s 发帖数: 3942 | 30 没错....每次写code都得包括adverse action的这部分,客户是不会知道“每条令
score降低多少”的,这个是给compliance的人看的。
【在 D******n 的大作中提到】 : 精算的意思是,不单要排好序,取头4条,而且要每条令score降低多少都要说出来。 : 但我並不知道FACTA或CFPB變的這麼嚴厲了 : 乾脆把scorecard 公開得了。 : : predictor
|
|
|
A*******s 发帖数: 3942 | 31 如果只看总分的话,用啥都没关系,用啥model也没关系,只需要probability output
就成...
但是如果需要itemized的话,需要分开看每个variable对于总分的“贡献”的话,就只
能用log-odd和logistic regression。
predictor
【在 f*****e 的大作中提到】 : 还是没看明白,Dashagan讲的有道理哈,你用log odds 或 x*beta/linear predictor : 和 用prob还是没区别啊,因为两者是一对一的单调关系哈。 : 能否具体解释一下为何x*beta可以做的,prob就不能,外行插一句,莫笑。
|