由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 有没有人被批评过model too good to be true?
相关主题
问个logistic model的面试问题bagging 用于logistic regression because of unbalance data
能用模型拟合或预测debt collection吗?老板总问:C很好 为啥gain chart的夹区面积那么小
梦想公司onsite,壮烈牺牲.发面经logistics reg 怎么看varibale 的correlation
R-square of logistic regression如何做ordinal logistic regression的validation?
how do you deal with sparse data?Logistic model中 ROC曲线里面AUC 值太低怎么办?
proc logistic: how to build 2 X 2 classification tableks 只有28%
How to test the difference between two C statistics (want the Plending club的notes 数据 (转载)
How to express cut-off valuetravelers summer intern 面经
相关话题的讨论汇总
话题: ks话题: model话题: spline话题: fit话题: auc
进入Statistics版参与讨论
1 (共1页)
h*********n
发帖数: 278
1
Roc auc 85%,说是太高了,然后predicted 和 actual curves吻合的比较好,说是fit
too well了,肯定有什么问题。我真是糊涂了。之前我们group人非要求我fit as
perfectly as possible,然后transform了一下确实fit得不错了,跟别的group
present的时候,人家却提出这样的疑问,然后我们组的人又觉得是不是做错什么了,
要查。真是莫名奇妙,快气死了。
z******n
发帖数: 397
2
overfitting?
l*****t
发帖数: 8319
3
ks多少。。。超过.85就灰常可疑。。。应该是用了不该用的变量。。。

fit

【在 h*********n 的大作中提到】
: Roc auc 85%,说是太高了,然后predicted 和 actual curves吻合的比较好,说是fit
: too well了,肯定有什么问题。我真是糊涂了。之前我们group人非要求我fit as
: perfectly as possible,然后transform了一下确实fit得不错了,跟别的group
: present的时候,人家却提出这样的疑问,然后我们组的人又觉得是不是做错什么了,
: 要查。真是莫名奇妙,快气死了。

h*********n
发帖数: 278
4
如果从这个角度质疑我还能理解,不过这个比较building和testing结果就能说明有没
有问题吧?然后我们building/testing结果都差不多,这个也成被质疑对象了。。。

【在 z******n 的大作中提到】
: overfitting?
h*********n
发帖数: 278
5
请问啥是ks? 什么样的变量算是不该用的?谢谢

【在 l*****t 的大作中提到】
: ks多少。。。超过.85就灰常可疑。。。应该是用了不该用的变量。。。
:
: fit

l*****t
发帖数: 8319
6
ks都不知道做个屁model啊。。。我审vendor的model第一个问题就问ks。。。你先找个
有做model经验的人学学吧。。。建模本身很简单。。。之前准备data分析每个变量是
最主要的。。这部分是要需要动脑子的。。后面的活就是体力劳动。。。

【在 h*********n 的大作中提到】
: 请问啥是ks? 什么样的变量算是不该用的?谢谢
h*********n
发帖数: 278
7
确实不知道,我就是一个简单的logistic regression, 没用过这东西,也没见别人用过

【在 l*****t 的大作中提到】
: ks都不知道做个屁model啊。。。我审vendor的model第一个问题就问ks。。。你先找个
: 有做model经验的人学学吧。。。建模本身很简单。。。之前准备data分析每个变量是
: 最主要的。。这部分是要需要动脑子的。。后面的活就是体力劳动。。。

h*********n
发帖数: 278
8
PROC LOGISTIC does not provide the KS test. However, you can obtain this
test by using the EDF option in PROC NPAR1WAY to analyze the predicted
values in the OUT= data set from PROC LOGISTIC. This is discussed and
illustrated in this usage note.
s*********h
发帖数: 6288
9
如果有class var的一个值意味着大量event,那auc就会很高,不代表fit很好。HL多分
几个group看看fit

fit

【在 h*********n 的大作中提到】
: Roc auc 85%,说是太高了,然后predicted 和 actual curves吻合的比较好,说是fit
: too well了,肯定有什么问题。我真是糊涂了。之前我们group人非要求我fit as
: perfectly as possible,然后transform了一下确实fit得不错了,跟别的group
: present的时候,人家却提出这样的疑问,然后我们组的人又觉得是不是做错什么了,
: 要查。真是莫名奇妙,快气死了。

q******n
发帖数: 272
10
"fit as perfectly as possible" is wrong because by using as many parameters
as data points, we can fit the data exactly. However, any predictions made
using such as model will tend to have very high variance. Cross-validation
need to be conducted in your case.
相关主题
proc logistic: how to build 2 X 2 classification tablebagging 用于logistic regression because of unbalance data
How to test the difference between two C statistics (want the P老板总问:C很好 为啥gain chart的夹区面积那么小
How to express cut-off valuelogistics reg 怎么看varibale 的correlation
进入Statistics版参与讨论
k*z
发帖数: 4704
11
good post
m**o
发帖数: 5261
12
请问Logistic REGRESSION, ks大致正常范围是多少

【在 l*****t 的大作中提到】
: ks多少。。。超过.85就灰常可疑。。。应该是用了不该用的变量。。。
:
: fit

h*********n
发帖数: 278
13
没用很多变量,就几个而已,80多万的数据,我也没增加过新的变量,就是把一个变量
弄成spline, 然后那个变量就变得fit得非常好。我也不觉得有必要fit as perfectly
as possible, 是组里其他人,没有科班统计背景,非要这么干,但是我觉得最后fit出
来个好的,过程也没什么错误(至少目前没看出来),building/testing也一致,那应
该对自己做出来得东西还是有信心吧,结果别人一说什么,还没弄清怎么回事呢,自己
先检讨上了。如果是我真的担心这个问题,至少跟人家follow up一下,问清楚人家质
疑的具体理由是什么,有什么我们该做没做的检验(比如那个ks), 也能有的放矢,学
点东西不是。

"fit as perfectly as possible" is wrong because by using as many parameters
as data poin........

【在 q******n 的大作中提到】
: "fit as perfectly as possible" is wrong because by using as many parameters
: as data points, we can fit the data exactly. However, any predictions made
: using such as model will tend to have very high variance. Cross-validation
: need to be conducted in your case.

h*********n
发帖数: 278
14
Used the method from below and obtained Kolmogorov-Smirnov Test:
KS Two-Sample Test (Asymptotic):
KS 0.25
KSa 227.28
D 0.5
Pr > KSa: <.0001
Well below 0.85. I guess my model may even be described as not
fitting well at all?

【在 h*********n 的大作中提到】
: PROC LOGISTIC does not provide the KS test. However, you can obtain this
: test by using the EDF option in PROC NPAR1WAY to analyze the predicted
: values in the OUT= data set from PROC LOGISTIC. This is discussed and
: illustrated in this usage note.

s*******2
发帖数: 499
15
I do not think KS test makes a lot of sense here. Because the sample size is
very large. So it is easy to get a significant P value.
The spline may bring on a few variables. How many predictors are in your
model?
The cross-validated AUC needs to be evaluated. The MSE and cross-validated
MSE can be evaluated.

fit

【在 h*********n 的大作中提到】
: Roc auc 85%,说是太高了,然后predicted 和 actual curves吻合的比较好,说是fit
: too well了,肯定有什么问题。我真是糊涂了。之前我们group人非要求我fit as
: perfectly as possible,然后transform了一下确实fit得不错了,跟别的group
: present的时候,人家却提出这样的疑问,然后我们组的人又觉得是不是做错什么了,
: 要查。真是莫名奇妙,快气死了。

h*********n
发帖数: 278
16
确实有一个class var impact很大,请问HL是什么的缩写?谢谢

如果有class var的一个值意味着大量event,那auc就会很高,不代表fit很好。HL多分
几个group看看fit

【在 s*********h 的大作中提到】
: 如果有class var的一个值意味着大量event,那auc就会很高,不代表fit很好。HL多分
: 几个group看看fit
:
: fit

c***z
发帖数: 6348
17
ks is Kolmogorov–Smirnov stat, I assume
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

【在 h*********n 的大作中提到】
: 请问啥是ks? 什么样的变量算是不该用的?谢谢
h*********n
发帖数: 278
18
Now I'm even more confused... The spline added two more. There are 11
variables with a total of 29 parameters (3 of the 11 are class vars, 3 are
spine for this variable, another 2 are spline for another variable). I can
do more cross-validations, but I wonder even looking at the results of
current building/testing alone, is it really too good?

is

【在 s*******2 的大作中提到】
: I do not think KS test makes a lot of sense here. Because the sample size is
: very large. So it is easy to get a significant P value.
: The spline may bring on a few variables. How many predictors are in your
: model?
: The cross-validated AUC needs to be evaluated. The MSE and cross-validated
: MSE can be evaluated.
:
: fit

l*****t
发帖数: 8319
19
proc logistic出来的c value是多少。或者看。concordance 。。看看是不是真的好。。
另外你做spline就是无厘头。。。估计主要原因在这里。。。做monotone transfer。
。。在linear model里面做spline不是搞笑吗。。。
。too good to be true的最主要的问题是y如何定义的。有x其实是跟y其实是一起
derived。。这种x就不能用。。。

【在 h*********n 的大作中提到】
: Now I'm even more confused... The spline added two more. There are 11
: variables with a total of 29 parameters (3 of the 11 are class vars, 3 are
: spine for this variable, another 2 are spline for another variable). I can
: do more cross-validations, but I wonder even looking at the results of
: current building/testing alone, is it really too good?
:
: is

l*****t
发帖数: 8319
20
ks有具体的意思。。。直接可以用卷尺在roc图上量。。。

【在 c***z 的大作中提到】
: ks is Kolmogorov–Smirnov stat, I assume
: http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

相关主题
如何做ordinal logistic regression的validation?lending club的notes 数据 (转载)
Logistic model中 ROC曲线里面AUC 值太低怎么办?travelers summer intern 面经
ks 只有28%抛砖引玉:敢问路在何方?
进入Statistics版参与讨论
h*********n
发帖数: 278
21
c-value 又是啥?查了一下,说是equivalent to roc, 这个前面就说了呀,85%, 被认
为太高了呀。
spline我不太懂, 原以为比较高深的东西,同事说有别的组就是这么做的(也是GLM
model),我们就照搬过来了。基本上就是这样code:
if x=a, x1=x;
if x>a, x2=a, if x<=a, x2=x;
能不能讲讲怎么个无厘头法?当时我跟他们说这东西可能没那么简单,貌似被嘲笑了。
不过后来我咨询另外组的一个同胞,好象真是这么做的。话说回来,即使没有spline,
model一样fit得很好,spline就是把本来有一小段fit得不算非常好的也变成非常好了
,我说了,当时被push追求这个。所以即使没有spline,还是too good to be true.
x没有跟y一起的derived.

。。

【在 l*****t 的大作中提到】
: proc logistic出来的c value是多少。或者看。concordance 。。看看是不是真的好。。
: 另外你做spline就是无厘头。。。估计主要原因在这里。。。做monotone transfer。
: 。。在linear model里面做spline不是搞笑吗。。。
: 。too good to be true的最主要的问题是y如何定义的。有x其实是跟y其实是一起
: derived。。这种x就不能用。。。

t*****a
发帖数: 459
22
请问楼主的project背景是什么呢?看楼主的描述和so far的讨论,不知会不会分歧在
于做inference的人和做prediction的人思维的差异。做inference的话,非常强调你
model里的每个variable和variable的处理方式都有实际的理由,就是这个variable在
real world里的性质和作用促使你这样处理,而不是因为model fit的原因这样处理。
甚至会经常被问到,你对variable的选择条件和处理方式,是否在做model之前pre
sepcify的。如果是prediction为目的的model,以上这些就不总是那么重要了,但是有
时候也需要考虑到。
z******n
发帖数: 397
23
我觉得你的这个论断非常奇怪。对于特定的问题,AUC 99%也有可能,怎么能够光凭这
个数字就说非常可疑?我猜想楼主涉及的建模问题可能业界值通常很低,比如0.6什么
的,一下子提高这么多,用的变量和通常用的又大体相同,reviewer才会有此评论。至
于KS,我从来不用,也不是什么不可或缺的东西
另外别人问你什么时KS的时候,给个链接就行了,没必要充大尾巴狼,没意思

【在 l*****t 的大作中提到】
: ks多少。。。超过.85就灰常可疑。。。应该是用了不该用的变量。。。
:
: fit

z******n
发帖数: 397
24
楼主你用的什么模型拟合数据的?看起来像是logistic reg?

fit

【在 h*********n 的大作中提到】
: Roc auc 85%,说是太高了,然后predicted 和 actual curves吻合的比较好,说是fit
: too well了,肯定有什么问题。我真是糊涂了。之前我们group人非要求我fit as
: perfectly as possible,然后transform了一下确实fit得不错了,跟别的group
: present的时候,人家却提出这样的疑问,然后我们组的人又觉得是不是做错什么了,
: 要查。真是莫名奇妙,快气死了。

z******n
发帖数: 397
25
我觉得基本上大家可以忽略你的帖子了,linear model是关于参数线性,又不是关于自
变量线性,为什么不能做spline?还单调变换...
如果楼主的spline没有用到outcome y的信息,不会有什么问题

。。

【在 l*****t 的大作中提到】
: proc logistic出来的c value是多少。或者看。concordance 。。看看是不是真的好。。
: 另外你做spline就是无厘头。。。估计主要原因在这里。。。做monotone transfer。
: 。。在linear model里面做spline不是搞笑吗。。。
: 。too good to be true的最主要的问题是y如何定义的。有x其实是跟y其实是一起
: derived。。这种x就不能用。。。

c********h
发帖数: 330
26
同意!!!

【在 z******n 的大作中提到】
: 我觉得基本上大家可以忽略你的帖子了,linear model是关于参数线性,又不是关于自
: 变量线性,为什么不能做spline?还单调变换...
: 如果楼主的spline没有用到outcome y的信息,不会有什么问题
:
: 。。

D******n
发帖数: 2836
27
second this
只要training,validation, testing, out-of-time,等等datasets里面performance比
较稳定,当然是越准确越好。
0.85真的不高。

【在 z******n 的大作中提到】
: 我觉得你的这个论断非常奇怪。对于特定的问题,AUC 99%也有可能,怎么能够光凭这
: 个数字就说非常可疑?我猜想楼主涉及的建模问题可能业界值通常很低,比如0.6什么
: 的,一下子提高这么多,用的变量和通常用的又大体相同,reviewer才会有此评论。至
: 于KS,我从来不用,也不是什么不可或缺的东西
: 另外别人问你什么时KS的时候,给个链接就行了,没必要充大尾巴狼,没意思

l*****t
发帖数: 8319
28
lol。。你卖model的时候客户问你做spline的这个变量怎么解释。。。你难道说在这个
区间正相关。。在下个区间负相关吗?

【在 z******n 的大作中提到】
: 我觉得基本上大家可以忽略你的帖子了,linear model是关于参数线性,又不是关于自
: 变量线性,为什么不能做spline?还单调变换...
: 如果楼主的spline没有用到outcome y的信息,不会有什么问题
:
: 。。

l*****t
发帖数: 8319
29
你牛。。。你从来不用ks。。。在在银行混的还没见过不问ks的。。。。

【在 z******n 的大作中提到】
: 我觉得你的这个论断非常奇怪。对于特定的问题,AUC 99%也有可能,怎么能够光凭这
: 个数字就说非常可疑?我猜想楼主涉及的建模问题可能业界值通常很低,比如0.6什么
: 的,一下子提高这么多,用的变量和通常用的又大体相同,reviewer才会有此评论。至
: 于KS,我从来不用,也不是什么不可或缺的东西
: 另外别人问你什么时KS的时候,给个链接就行了,没必要充大尾巴狼,没意思

l*****t
发帖数: 8319
30
当然看在哪个领域了。。。我这块审过几十个vendor。。。就是deep learning也不到0
.85。。
in sample validation有屁用。。。拿out sample的来test。

【在 D******n 的大作中提到】
: second this
: 只要training,validation, testing, out-of-time,等等datasets里面performance比
: 较稳定,当然是越准确越好。
: 0.85真的不高。

相关主题
求助:哪位同学能提供下算CI的公式能用模型拟合或预测debt collection吗?
Nonparametric methods 这门课?梦想公司onsite,壮烈牺牲.发面经
问个logistic model的面试问题R-square of logistic regression
进入Statistics版参与讨论
A*******s
发帖数: 3942
31
银行里是经常看KS,不过没觉得这个metric有什么大的意义。银行里似是而非的东西多
了去了。
s*******2
发帖数: 499
32
spline 变量看起来还好。 有的categorical variable有很多categories, 增加了
degree of freedom,这种情况下一个categorical variable可以看成是很多变量。你的
categorical variable有多少categories?
你可以忽视ks test。 做cross validation.

【在 h*********n 的大作中提到】
: Now I'm even more confused... The spline added two more. There are 11
: variables with a total of 29 parameters (3 of the 11 are class vars, 3 are
: spine for this variable, another 2 are spline for another variable). I can
: do more cross-validations, but I wonder even looking at the results of
: current building/testing alone, is it really too good?
:
: is

A*******s
发帖数: 3942
33
validation 当然指的是out of sample, out of bag或者是cross validation. in
sample validation估计是你们银行的slang。

到0

【在 l*****t 的大作中提到】
: 当然看在哪个领域了。。。我这块审过几十个vendor。。。就是deep learning也不到0
: .85。。
: in sample validation有屁用。。。拿out sample的来test。

l*****t
发帖数: 8319
34
这个东西没有意义就没有有意义的参数了。。。首先这个东西是nonparametric的。。
。其次。做model无非不是要rank order。。。rank order不看ks看什么?
这周sas跑到我们这里来推销model。。。还不是每个model都给一个roc和ks。。。

【在 A*******s 的大作中提到】
: 银行里是经常看KS,不过没觉得这个metric有什么大的意义。银行里似是而非的东西多
: 了去了。

l*****t
发帖数: 8319
35
都用上spline了。。。还做神马linear model啊。。。我看干脆先做几个neural在扔进
logistic里面去run。。。岂不是fit的更好。。。。

【在 s*******2 的大作中提到】
: spline 变量看起来还好。 有的categorical variable有很多categories, 增加了
: degree of freedom,这种情况下一个categorical variable可以看成是很多变量。你的
: categorical variable有多少categories?
: 你可以忽视ks test。 做cross validation.

A*******s
发帖数: 3942
36
rank ordering看的是AUC啊,AUC本来就对应Wilcoxon rank-sum test,这不也是
nonparametric test么?
KS看的是score's ability to separate good and bad。 为啥说它意义不大呢?
1. AUC的实际意义是--the probability of ranking good ahead of bad, KS对应的实
际意义是啥呢?
2. 这个东西只告诉你maximum distance of two EDFs是多少,但是这个maximum
distance出现在哪里呢?除了这点之外,两个EDF在其他地方是不是well separated的
?这两个问题的答案对于银行里model driven operation and strategy可是有很大影
响的。
我也是混银行的,不过银行搞统计的只是沧海一栗而已。

【在 l*****t 的大作中提到】
: 这个东西没有意义就没有有意义的参数了。。。首先这个东西是nonparametric的。。
: 。其次。做model无非不是要rank order。。。rank order不看ks看什么?
: 这周sas跑到我们这里来推销model。。。还不是每个model都给一个roc和ks。。。

D******n
发帖数: 2836
37
对于金融服务业采用KS,我也是比较纳闷,出了这个圈子,基本没人用。第一次面试就
有人问我比较model用啥,我答遍所有metrics也没KS,他最后说出来是KS,我也不知道
啥是KS。

【在 A*******s 的大作中提到】
: rank ordering看的是AUC啊,AUC本来就对应Wilcoxon rank-sum test,这不也是
: nonparametric test么?
: KS看的是score's ability to separate good and bad。 为啥说它意义不大呢?
: 1. AUC的实际意义是--the probability of ranking good ahead of bad, KS对应的实
: 际意义是啥呢?
: 2. 这个东西只告诉你maximum distance of two EDFs是多少,但是这个maximum
: distance出现在哪里呢?除了这点之外,两个EDF在其他地方是不是well separated的
: ?这两个问题的答案对于银行里model driven operation and strategy可是有很大影
: 响的。
: 我也是混银行的,不过银行搞统计的只是沧海一栗而已。

h*********n
发帖数: 278
38
多谢,我后来发现记错了,是81.5%,不是85%。确实我刚进入这个行业/公司不久,也
不知道他们以前的model都是什么样的,但我这是一个新的model/data structure。上
来问就是想知道是不是有什么行业的标准,是否大家看到的这样的model fit第一反应
都会是too good了。我在网上google了一下,貌似有几个网站提到AUC的标准都是90%以
上才是excellent呀。

【在 z******n 的大作中提到】
: 我觉得你的这个论断非常奇怪。对于特定的问题,AUC 99%也有可能,怎么能够光凭这
: 个数字就说非常可疑?我猜想楼主涉及的建模问题可能业界值通常很低,比如0.6什么
: 的,一下子提高这么多,用的变量和通常用的又大体相同,reviewer才会有此评论。至
: 于KS,我从来不用,也不是什么不可或缺的东西
: 另外别人问你什么时KS的时候,给个链接就行了,没必要充大尾巴狼,没意思

h*********n
发帖数: 278
39
是的,但是data structure跟一般的logistic reg处理的data不太一样。

【在 z******n 的大作中提到】
: 楼主你用的什么模型拟合数据的?看起来像是logistic reg?
:
: fit

h*********n
发帖数: 278
40
好的,我现在心里大概有点底了,觉得只要把你提到的这些做足了就应该没什么问题。

【在 D******n 的大作中提到】
: second this
: 只要training,validation, testing, out-of-time,等等datasets里面performance比
: 较稳定,当然是越准确越好。
: 0.85真的不高。

相关主题
R-square of logistic regressionHow to test the difference between two C statistics (want the P
how do you deal with sparse data?How to express cut-off value
proc logistic: how to build 2 X 2 classification tablebagging 用于logistic regression because of unbalance data
进入Statistics版参与讨论
h*********n
发帖数: 278
41
才意识到你说的.85是指roc,那请问我那个ks值看起来怎么样,在你们行业什么range
是合适的?

到0

【在 l*****t 的大作中提到】
: 当然看在哪个领域了。。。我这块审过几十个vendor。。。就是deep learning也不到0
: .85。。
: in sample validation有屁用。。。拿out sample的来test。

l*****t
发帖数: 8319
42
auc在.81的ks估计在.5到 .6左右。。。不算高。。说不上too good

range

【在 h*********n 的大作中提到】
: 才意识到你说的.85是指roc,那请问我那个ks值看起来怎么样,在你们行业什么range
: 是合适的?
:
: 到0

l*****t
发帖数: 8319
43
做marketing model的axiom用ks。。做credit的transunion用ks。。卖data的
experian也用ks。。。连paypal都问过我。。。

【在 D******n 的大作中提到】
: 对于金融服务业采用KS,我也是比较纳闷,出了这个圈子,基本没人用。第一次面试就
: 有人问我比较model用啥,我答遍所有metrics也没KS,他最后说出来是KS,我也不知道
: 啥是KS。

h*********n
发帖数: 278
44
谢谢。我说的29个parameters其实就包括那些categorial variables在model里变成的
dummy variables。有一个有16个level,另外两个2-3个level。看来做cross
validation是王道。
其实我之前还问过他们group做不做,被告知不做,然后我觉得model换了好几次不同的
building/testing都差不多,也就一直懒得做正经的cv了。还是不能犯懒啊。

【在 s*******2 的大作中提到】
: spline 变量看起来还好。 有的categorical variable有很多categories, 增加了
: degree of freedom,这种情况下一个categorical variable可以看成是很多变量。你的
: categorical variable有多少categories?
: 你可以忽视ks test。 做cross validation.

h*********n
发帖数: 278
45
我前面有个贴里有run出来的ks,是0.25. 跟0.5-0.6好像差得有点远,这个是怎么回事?
另外,如果从auc就能算出来ks,那为啥还要同时看这俩呢?
KS Two-Sample Test (Asymptotic):
KS 0.25
KSa 227.28
D 0.5
Pr > KSa: <.0001

【在 l*****t 的大作中提到】
: auc在.81的ks估计在.5到 .6左右。。。不算高。。说不上too good
:
: range

l*****t
发帖数: 8319
46
你在roc上再画另一条弧线。。在对角线右下面。。对应y=0。。。你原来的那条曲线在
对角线左上是对应y=1的population。。用卷尺量一下两条曲线最大垂直距离就是ks。
。。
这也是为啥大伙喜欢用ks。。。更容易跟屁也不懂客户或经理解释。。。

事?

【在 h*********n 的大作中提到】
: 我前面有个贴里有run出来的ks,是0.25. 跟0.5-0.6好像差得有点远,这个是怎么回事?
: 另外,如果从auc就能算出来ks,那为啥还要同时看这俩呢?
: KS Two-Sample Test (Asymptotic):
: KS 0.25
: KSa 227.28
: D 0.5
: Pr > KSa: <.0001

D******n
发帖数: 2836
47
好像D才是KS

事?

【在 h*********n 的大作中提到】
: 我前面有个贴里有run出来的ks,是0.25. 跟0.5-0.6好像差得有点远,这个是怎么回事?
: 另外,如果从auc就能算出来ks,那为啥还要同时看这俩呢?
: KS Two-Sample Test (Asymptotic):
: KS 0.25
: KSa 227.28
: D 0.5
: Pr > KSa: <.0001

c****t
发帖数: 19049
48
这是因为“做inference的”知道统计model怎么来的。“做prediction的”二百五居多

【在 t*****a 的大作中提到】
: 请问楼主的project背景是什么呢?看楼主的描述和so far的讨论,不知会不会分歧在
: 于做inference的人和做prediction的人思维的差异。做inference的话,非常强调你
: model里的每个variable和variable的处理方式都有实际的理由,就是这个variable在
: real world里的性质和作用促使你这样处理,而不是因为model fit的原因这样处理。
: 甚至会经常被问到,你对variable的选择条件和处理方式,是否在做model之前pre
: sepcify的。如果是prediction为目的的model,以上这些就不总是那么重要了,但是有
: 时候也需要考虑到。

l*****t
发帖数: 8319
49
这就是为啥我说做spline是无厘头。。。只能做monotone transfer的原因。。。做
spline。。你跟人解释说y在x 1-5中间是涨。。6-9是跌。。10-15又涨。。16-20再跌
。。会让人笑死了。。。

【在 c****t 的大作中提到】
: 这是因为“做inference的”知道统计model怎么来的。“做prediction的”二百五居多
h*********n
发帖数: 278
50
I see. Thanks!

好像D才是KS

【在 D******n 的大作中提到】
: 好像D才是KS
:
: 事?

相关主题
老板总问:C很好 为啥gain chart的夹区面积那么小Logistic model中 ROC曲线里面AUC 值太低怎么办?
logistics reg 怎么看varibale 的correlationks 只有28%
如何做ordinal logistic regression的validation?lending club的notes 数据 (转载)
进入Statistics版参与讨论
l*****t
发帖数: 8319
51
如果只care prediction。。不在乎variabe。。根本不用logistic这种线性model。。
直接上deep learning就完了。。

【在 c****t 的大作中提到】
: 这是因为“做inference的”知道统计model怎么来的。“做prediction的”二百五居多
h*********n
发帖数: 278
52
不太清楚工业界怎么区分做inference和做prediction的,听起来前者象我们在学校的
时候做论文,先要有理论和hypotheses,然后再建model,自我工作以来,好象没人关
心这个。我很好奇有没有什么特别的job title/contents特别注重做inference,还是
就是取决于公司/行业的背景文化,甚至具体工作的组里老板的背景能力导致要求的标
准不同。
不过,我觉得我的问题还没有上升到这个层次,其实是一个很简单的问题。反过来思考
,我们的presentation其实很简单,本来是做给上面的人看的,具体的建模过程什么的
根本都没有,只有一些结果,然后突然又给一个peer group present,人家不明白有疑
问也是正常的。

【在 t*****a 的大作中提到】
: 请问楼主的project背景是什么呢?看楼主的描述和so far的讨论,不知会不会分歧在
: 于做inference的人和做prediction的人思维的差异。做inference的话,非常强调你
: model里的每个variable和variable的处理方式都有实际的理由,就是这个variable在
: real world里的性质和作用促使你这样处理,而不是因为model fit的原因这样处理。
: 甚至会经常被问到,你对variable的选择条件和处理方式,是否在做model之前pre
: sepcify的。如果是prediction为目的的model,以上这些就不总是那么重要了,但是有
: 时候也需要考虑到。

c*********o
发帖数: 64
53
You used too many data points, cutting down to 100,000 otherwise it's easy
to get inflated values

perfectly
parameters

【在 h*********n 的大作中提到】
: 没用很多变量,就几个而已,80多万的数据,我也没增加过新的变量,就是把一个变量
: 弄成spline, 然后那个变量就变得fit得非常好。我也不觉得有必要fit as perfectly
: as possible, 是组里其他人,没有科班统计背景,非要这么干,但是我觉得最后fit出
: 来个好的,过程也没什么错误(至少目前没看出来),building/testing也一致,那应
: 该对自己做出来得东西还是有信心吧,结果别人一说什么,还没弄清怎么回事呢,自己
: 先检讨上了。如果是我真的担心这个问题,至少跟人家follow up一下,问清楚人家质
: 疑的具体理由是什么,有什么我们该做没做的检验(比如那个ks), 也能有的放矢,学
: 点东西不是。
:
: "fit as perfectly as possible" is wrong because by using as many parameters

y**3
发帖数: 267
54
if spline was used, the proc gam should be used
f*******3
发帖数: 206
55
工作里面都不用auc,roc,因为他们对rare class的model prediction都出乎意料的好
。现在组里只看precision-recall curve。
h***i
发帖数: 3844
56
这个curve怎么看?

【在 f*******3 的大作中提到】
: 工作里面都不用auc,roc,因为他们对rare class的model prediction都出乎意料的好
: 。现在组里只看precision-recall curve。

h***i
发帖数: 3844
57
wow 现在是个东西都要用DL了

【在 l*****t 的大作中提到】
: 如果只care prediction。。不在乎variabe。。根本不用logistic这种线性model。。
: 直接上deep learning就完了。。

s*********h
发帖数: 6288
58
hosmer lemeshow.考慮一下segment一下去掉那個class var,分開fit

【在 h*********n 的大作中提到】
: 确实有一个class var impact很大,请问HL是什么的缩写?谢谢
:
: 如果有class var的一个值意味着大量event,那auc就会很高,不代表fit很好。HL多分
: 几个group看看fit

s*******e
发帖数: 1385
59
为什么不能用spline?关于model的解释不能一味的看model formula,可以看predict
vs actual或者PDP之类的。

【在 l*****t 的大作中提到】
: 都用上spline了。。。还做神马linear model啊。。。我看干脆先做几个neural在扔进
: logistic里面去run。。。岂不是fit的更好。。。。

s*******e
发帖数: 1385
60
对,D才是KS

【在 D******n 的大作中提到】
: 好像D才是KS
:
: 事?

1 (共1页)
进入Statistics版参与讨论
相关主题
travelers summer intern 面经how do you deal with sparse data?
抛砖引玉:敢问路在何方?proc logistic: how to build 2 X 2 classification table
求助:哪位同学能提供下算CI的公式How to test the difference between two C statistics (want the P
Nonparametric methods 这门课?How to express cut-off value
问个logistic model的面试问题bagging 用于logistic regression because of unbalance data
能用模型拟合或预测debt collection吗?老板总问:C很好 为啥gain chart的夹区面积那么小
梦想公司onsite,壮烈牺牲.发面经logistics reg 怎么看varibale 的correlation
R-square of logistic regression如何做ordinal logistic regression的validation?
相关话题的讨论汇总
话题: ks话题: model话题: spline话题: fit话题: auc