请问关于小的dataset evaluation的问题 - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 请问关于小的dataset evaluation的问题

相关主题
● 请教一道面试题	● 我觉得neural network应用范围不大啊
● 困惑：用cross validationce 来评估performance的时候，还需要把原始的dataset区分为train 和test吗？	● 大数据时代的最大挑战(一）?
● training dataset和unbalanced dataset的设计	● SE/Data scientist找工作总结[F/G/L/T/D/P/U…] (转载)
● [Data Science Project Case] Bias Correction	● 刚入行新人的两个问题
● 紧急求救： SMOTE-NC 处理categorical data for unbalanced class！！！	● 一个面试题（predictive model） (转载)
● 请问有关t-test（包子酬谢！） (转载)	● kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
● 报面筋求实习合租 (转载)	● 一般data scientist都是什么背景，一定要phd吗？
● 用10-fold cross-validation 之后怎么挑Model？	● data science 面试求教

相关话题的讨论汇总
话题: dataset话题: cv话题: 我用话题: split话题: train

进入DataSciences版参与讨论

1

(共1页)

n********e 发帖数: 1630	1 我是新手在练习ML的东西。我用的是400个data point小的dataset做 classification （0 or 1），python，sklearn 由于dataset unbalanced, 我用了stratified shuffle split 在grid search CV training，找到最优的estimator （scoring = f1）之后我用几个不同的algorithm 最优的estimator clf 去 evaluate performance的时候，应该用什么样的strategy？ 1. 我用了整个dataset，只用一次，求prediction，然后比较得出accuracy， precision，recall。这样score很高，高达0.9 以上 2. 我也是用stratified shuffle split 去create 1000 folds, 每个fold train，然后test，把accuracy，precision，recall 结果average。这样的话结果很低，只有0. 3-0.6 哪个可以作为evlauate的score呢？　如果有额外新的dataset, 或者一个单独的数据点，我们能说预测的准确性是怎么样的？这个跟简单的train test split 相比，我有点疑惑。不明白用cv train了之后，最后 evaluate用哪些数据谢谢
s******y 发帖数: 8	2 说一点自己的看法，首先数据点太少了，400个真心不够用。用自身做prediction结果很好很正常，因为有严重的overfitting了，所以你的CV结果非常差。 CV相对更加客观，可见这个模型基本上是不能用的。如果只是个练手的实例的话建议找个更大的dataset去练。如果是一定要把这个做出来就得看你怎么忽悠了。。。。 classification 0. 【在 n********e 的大作中提到】 : 我是新手在练习ML的东西。我用的是400个data point小的dataset做 classification : （0 or 1），python，sklearn : 由于dataset unbalanced, 我用了stratified shuffle split 在grid search CV : training，找到最优的estimator （scoring = f1） : 之后我用几个不同的algorithm 最优的estimator clf 去 evaluate performance的时 : 候，应该用什么样的strategy？ : 1. 我用了整个dataset，只用一次，求prediction，然后比较得出accuracy， : precision，recall。这样score很高，高达0.9 以上 : 2. 我也是用stratified shuffle split 去create 1000 folds, 每个fold train，然 : 后test，把accuracy，precision，recall 结果average。这样的话结果很低，只有0.
n********e 发帖数: 1630	3 好的。谢谢你：）【在 s******y 的大作中提到】 : 说一点自己的看法，首先数据点太少了，400个真心不够用。 : 用自身做prediction结果很好很正常，因为有严重的overfitting了，所以你的CV结果 : 非常差。 : CV相对更加客观，可见这个模型基本上是不能用的。 : 如果只是个练手的实例的话建议找个更大的dataset去练。如果是一定要把这个做出来 : 就得看你怎么忽悠了。。。。 : : classification : 0.

1

(共1页)

进入DataSciences版参与讨论

相关主题
● data science 面试求教	● 紧急求救： SMOTE-NC 处理categorical data for unbalanced class！！！
● Colah 关于 neural network 的一篇博客	● 请问有关t-test（包子酬谢！） (转载)
● 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)	● 报面筋求实习合租 (转载)
● 怎么处理categorical variable有很多个level的	● 用10-fold cross-validation 之后怎么挑Model？
● 请教一道面试题	● 我觉得neural network应用范围不大啊
● 困惑：用cross validationce 来评估performance的时候，还需要把原始的dataset区分为train 和test吗？	● 大数据时代的最大挑战(一）?
● training dataset和unbalanced dataset的设计	● SE/Data scientist找工作总结[F/G/L/T/D/P/U…] (转载)
● [Data Science Project Case] Bias Correction	● 刚入行新人的两个问题

相关话题的讨论汇总
话题: dataset话题: cv话题: 我用话题: split话题: train

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)