n********e 发帖数: 1630 | 1 我是新手在练习ML的东西。我用的是400个data point小的dataset做 classification
(0 or 1),python,sklearn
由于dataset unbalanced, 我用了stratified shuffle split 在grid search CV
training, 找到最优的estimator (scoring = f1)
之后我用几个不同的algorithm 最优的estimator clf 去 evaluate performance的时
候,应该用什么样的strategy?
1. 我用了整个dataset,只用一次,求prediction,然后比较得出accuracy,
precision,recall。这样score很高,高达0.9 以上
2. 我也是用stratified shuffle split 去create 1000 folds, 每个fold train,然
后test, 把accuracy,precision,recall 结果average。这样的话结果很低,只有0.
3-0.6
哪个可以作为evlauate的score呢? 如果有额外新的dataset, 或者一个单独的数据点
,我们能说预测的准确性是怎么样的?
这个跟简单的train test split 相比,我有点疑惑。不明白用cv train了之后,最后
evaluate用哪些数据
谢谢 | s******y 发帖数: 8 | 2 说一点自己的看法,首先数据点太少了,400个真心不够用。
用自身做prediction结果很好很正常,因为有严重的overfitting了,所以你的CV结果
非常差。
CV相对更加客观,可见这个模型基本上是不能用的。
如果只是个练手的实例的话建议找个更大的dataset去练。如果是一定要把这个做出来
就得看你怎么忽悠了。。。。
classification
0.
【在 n********e 的大作中提到】 : 我是新手在练习ML的东西。我用的是400个data point小的dataset做 classification : (0 or 1),python,sklearn : 由于dataset unbalanced, 我用了stratified shuffle split 在grid search CV : training, 找到最优的estimator (scoring = f1) : 之后我用几个不同的algorithm 最优的estimator clf 去 evaluate performance的时 : 候,应该用什么样的strategy? : 1. 我用了整个dataset,只用一次,求prediction,然后比较得出accuracy, : precision,recall。这样score很高,高达0.9 以上 : 2. 我也是用stratified shuffle split 去create 1000 folds, 每个fold train,然 : 后test, 把accuracy,precision,recall 结果average。这样的话结果很低,只有0.
| n********e 发帖数: 1630 | 3 好的。谢谢你 :)
【在 s******y 的大作中提到】 : 说一点自己的看法,首先数据点太少了,400个真心不够用。 : 用自身做prediction结果很好很正常,因为有严重的overfitting了,所以你的CV结果 : 非常差。 : CV相对更加客观,可见这个模型基本上是不能用的。 : 如果只是个练手的实例的话建议找个更大的dataset去练。如果是一定要把这个做出来 : 就得看你怎么忽悠了。。。。 : : classification : 0.
|
|