c*******7 发帖数: 2506 | 1 最近面了一个debt collect公司,应该是没戏了。不过面试的时候他们提到他们现有的
模型之一是个logistic model,预测是、否还款,现在要拓展到预测还款的数额。我当
时胡诌了一个logitudinal model的idea,用讨债电话作为一个时间变量,但是感觉那
个数额应该不是正态分布的。。。请教下这里的高手,这种问题应该用什么特别的
model吗? |
s*****l 发帖数: 321 | 2 just linear regression, condition on pay back. at most do some
transformation on variables.
【在 c*******7 的大作中提到】 : 最近面了一个debt collect公司,应该是没戏了。不过面试的时候他们提到他们现有的 : 模型之一是个logistic model,预测是、否还款,现在要拓展到预测还款的数额。我当 : 时胡诌了一个logitudinal model的idea,用讨债电话作为一个时间变量,但是感觉那 : 个数额应该不是正态分布的。。。请教下这里的高手,这种问题应该用什么特别的 : model吗?
|
A*******s 发帖数: 3942 | 3 linear regression first. then see if there is anything violating the
assumption, such as heterodascity of residuals, bounded or truncated
outcomes, etc...
【在 c*******7 的大作中提到】 : 最近面了一个debt collect公司,应该是没戏了。不过面试的时候他们提到他们现有的 : 模型之一是个logistic model,预测是、否还款,现在要拓展到预测还款的数额。我当 : 时胡诌了一个logitudinal model的idea,用讨债电话作为一个时间变量,但是感觉那 : 个数额应该不是正态分布的。。。请教下这里的高手,这种问题应该用什么特别的 : model吗?
|
D******n 发帖数: 2836 | 4 这是统计里面最难念的一个单词
hetero-skedasticity
【在 A*******s 的大作中提到】 : linear regression first. then see if there is anything violating the : assumption, such as heterodascity of residuals, bounded or truncated : outcomes, etc...
|
A*******s 发帖数: 3942 | 5 哈,被你纠错了...我每次都在google搜索栏里打出来hetero然后选下拉提示框的第一
个,这次被google坑了...
另外,KS这俩人的名字我也从来都记不住...
【在 D******n 的大作中提到】 : 这是统计里面最难念的一个单词 : hetero-skedasticity
|
c*******7 发帖数: 2506 | 6 这样啊。。。那如果是bounded outcome,比如说,用还款的数额百分比(0-100%)做
outcome,该如何做呢?
【在 A*******s 的大作中提到】 : linear regression first. then see if there is anything violating the : assumption, such as heterodascity of residuals, bounded or truncated : outcomes, etc...
|
A*******s 发帖数: 3942 | 7 要是0和100附近的数据点非常稀疏的话,我觉得直接用linear regression应该问题不
大。否则的话,你会看到residual vs. Yhat plot上点的分布两端被限制在0 <= yhat+
r <=100。
解决方法不少,不过我不大清楚业界常用的是啥,说错了莫怪
1. beta regression,outcome continuous in (0, 1)
2. 看看proc qlim,有一堆econometrician搞出来的model
3. plus各种zero inflated/truncated mixture
【在 c*******7 的大作中提到】 : 这样啊。。。那如果是bounded outcome,比如说,用还款的数额百分比(0-100%)做 : outcome,该如何做呢?
|
y*****y 发帖数: 98 | 8 如果是[0,1] bounded outcome score, 最简单的直接transform到[-infty,infty],然
后fit linear regression.
复杂点但更好的做法有, ordinal regression (McCullagh, 1980); binomial-logit-
normal, coarsened data model (Lesaffre, 2007).
【在 c*******7 的大作中提到】 : 这样啊。。。那如果是bounded outcome,比如说,用还款的数额百分比(0-100%)做 : outcome,该如何做呢?
|
D******n 发帖数: 2836 | 9 KS = Kolmogorov Smirnov ? (错了告诉我哈。)
这个挺好记的。让我纠结的是为啥业界老爱用这个。学术界没人用的。
【在 A*******s 的大作中提到】 : 哈,被你纠错了...我每次都在google搜索栏里打出来hetero然后选下拉提示框的第一 : 个,这次被google坑了... : 另外,KS这俩人的名字我也从来都记不住...
|
v****0 发帖数: 1887 | 10 in this case, reliable data is more important than the choice of models.
【在 c*******7 的大作中提到】 : 最近面了一个debt collect公司,应该是没戏了。不过面试的时候他们提到他们现有的 : 模型之一是个logistic model,预测是、否还款,现在要拓展到预测还款的数额。我当 : 时胡诌了一个logitudinal model的idea,用讨债电话作为一个时间变量,但是感觉那 : 个数额应该不是正态分布的。。。请教下这里的高手,这种问题应该用什么特别的 : model吗?
|
A*******s 发帖数: 3942 | 11 为啥纠结呢?有啥更好的metric么?
我的理解是其实overall AUC和(max) KS都没啥实际意义
某个score bin的partial AUC和KS才有。
【在 D******n 的大作中提到】 : KS = Kolmogorov Smirnov ? (错了告诉我哈。) : 这个挺好记的。让我纠结的是为啥业界老爱用这个。学术界没人用的。
|