由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 请问关于小的dataset evaluation的问题
相关主题
请教一道面试题我觉得neural network应用范围不大啊
困惑: 用cross validationce 来评估performance的时候,还需要把原始的dataset区分为train 和test吗?大数据时代的最大挑战(一)?
training dataset和unbalanced dataset的设计SE/Data scientist找工作总结[F/G/L/T/D/P/U…] (转载)
[Data Science Project Case] Bias Correction刚入行新人的两个问题
紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!!一个面试题(predictive model) (转载)
请问有关t-test(包子酬谢!) (转载)kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
报面筋求实习合租 (转载)一般data scientist都是什么背景,一定要phd吗?
用10-fold cross-validation 之后怎么挑Model?data science 面试求教
相关话题的讨论汇总
话题: dataset话题: cv话题: 我用话题: split话题: train
进入DataSciences版参与讨论
1 (共1页)
n********e
发帖数: 1630
1
我是新手在练习ML的东西。我用的是400个data point小的dataset做 classification
(0 or 1),python,sklearn
由于dataset unbalanced, 我用了stratified shuffle split 在grid search CV
training, 找到最优的estimator (scoring = f1)
之后我用几个不同的algorithm 最优的estimator clf 去 evaluate performance的时
候,应该用什么样的strategy?
1. 我用了整个dataset,只用一次,求prediction,然后比较得出accuracy,
precision,recall。这样score很高,高达0.9 以上
2. 我也是用stratified shuffle split 去create 1000 folds, 每个fold train,然
后test, 把accuracy,precision,recall 结果average。这样的话结果很低,只有0.
3-0.6
哪个可以作为evlauate的score呢? 如果有额外新的dataset, 或者一个单独的数据点
,我们能说预测的准确性是怎么样的?
这个跟简单的train test split 相比,我有点疑惑。不明白用cv train了之后,最后
evaluate用哪些数据
谢谢
s******y
发帖数: 8
2
说一点自己的看法,首先数据点太少了,400个真心不够用。
用自身做prediction结果很好很正常,因为有严重的overfitting了,所以你的CV结果
非常差。
CV相对更加客观,可见这个模型基本上是不能用的。
如果只是个练手的实例的话建议找个更大的dataset去练。如果是一定要把这个做出来
就得看你怎么忽悠了。。。。

classification
0.

【在 n********e 的大作中提到】
: 我是新手在练习ML的东西。我用的是400个data point小的dataset做 classification
: (0 or 1),python,sklearn
: 由于dataset unbalanced, 我用了stratified shuffle split 在grid search CV
: training, 找到最优的estimator (scoring = f1)
: 之后我用几个不同的algorithm 最优的estimator clf 去 evaluate performance的时
: 候,应该用什么样的strategy?
: 1. 我用了整个dataset,只用一次,求prediction,然后比较得出accuracy,
: precision,recall。这样score很高,高达0.9 以上
: 2. 我也是用stratified shuffle split 去create 1000 folds, 每个fold train,然
: 后test, 把accuracy,precision,recall 结果average。这样的话结果很低,只有0.

n********e
发帖数: 1630
3
好的。谢谢你 :)

【在 s******y 的大作中提到】
: 说一点自己的看法,首先数据点太少了,400个真心不够用。
: 用自身做prediction结果很好很正常,因为有严重的overfitting了,所以你的CV结果
: 非常差。
: CV相对更加客观,可见这个模型基本上是不能用的。
: 如果只是个练手的实例的话建议找个更大的dataset去练。如果是一定要把这个做出来
: 就得看你怎么忽悠了。。。。
:
: classification
: 0.

1 (共1页)
进入DataSciences版参与讨论
相关主题
data science 面试求教紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!!
Colah 关于 neural network 的一篇博客请问有关t-test(包子酬谢!) (转载)
做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)报面筋求实习合租 (转载)
怎么处理categorical variable有很多个level的用10-fold cross-validation 之后怎么挑Model?
请教一道面试题我觉得neural network应用范围不大啊
困惑: 用cross validationce 来评估performance的时候,还需要把原始的dataset区分为train 和test吗?大数据时代的最大挑战(一)?
training dataset和unbalanced dataset的设计SE/Data scientist找工作总结[F/G/L/T/D/P/U…] (转载)
[Data Science Project Case] Bias Correction刚入行新人的两个问题
相关话题的讨论汇总
话题: dataset话题: cv话题: 我用话题: split话题: train