D****G 发帖数: 284 | 1 一个loan default 的data sample, sample size > 50,000, true default rate 2.5%
, 用SAS logistic 里的OUTPUT statement和Prodicted= 得到的Estimated
Probability of Default即使对于真正的Default Event来说都很小(<20%)。而且 Non-
default event的Estimated PD 与default event 的EstimatedPD有差别但很小。算出
来的所有Estimated Probability of Default都小于25%
理想的状态不是应该大部分default event的Estimated Probability of Default都很
高么?
也用over-sampling试过,做过intercept adjustment,结果差不多。 | w*******9 发帖数: 1433 | 2 现实情况应该就是这样,数据本身信息不够强大。但是这对于大样本研究足够了,比如
预测整个customer base的default rate or loss. over-sample should have minimal
impact on logistic regression (if any) because it's MLE based. | D****G 发帖数: 284 | 3 如果客户要求在50,000中选出 top20 risky target, 那岂不是不能根据estimated
probability of default 来排序取最大的20个?这样的话,模型没法用啊,project的
目的就是找出top 20 risky的target.
minimal
【在 w*******9 的大作中提到】 : 现实情况应该就是这样,数据本身信息不够强大。但是这对于大样本研究足够了,比如 : 预测整个customer base的default rate or loss. over-sample should have minimal : impact on logistic regression (if any) because it's MLE based.
|
|