machine learning救助模型在1数据集上表现好其他烂 - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - machine learning救助模型在1数据集上表现好其他烂

相关主题
● classification 问题求教!!	● 有做clinic trial的前辈吗？
● good classification methods for high dimension data	● 面试：nonlinear regression, predictive modeling, machining learning问什么？
● data science 面试求教	● 找工作总结 [下]
● proc logistic: how to build 2 X 2 classification table	● Principal component analysis
● 请问几个回归的sas code	● 请教确定weights 的方法
● 急问有关SVM，randomforest的问题（gene expression data）	● Correspondence analysis
● Random forests on imbalanced data (转载)	● 问两个一直含糊不清的marketing analysis 的问题
● Principal Components Analysis 中 factor 选择的问题	● 银行还是生统？contractor还是permanent？

相关话题的讨论汇总
话题: 模型话题: 数据话题: 表现话题: svm话题: 集上

进入Statistics版参与讨论

1

(共1页)

s****i 发帖数: 197	1 请教一下各位大虾, 我现在手上有一套医院的数据s(这个数据集有34个attributes,其中3个是categorical的) 我建了个模型(在这里简称模型A吧)做2-way classification 之后我对同一套数据建立了SVM, RandomForest 发现模型A要比后两个表现好7%(就是 prediction accuracy和sensitivity/specificity这些东西) 但是如果我把模型A用在其他数据上表现就会比SVM和RF低2-4个百分点现在的问题就是解释这是为什么请问一下各位大虾我应该用什么工具来检测数据s和其他数据的区别?? 该从哪个方向入手?? 顺便在这里吐槽一下半路出家的老板不要跟啊不要跟跟了就没人管啊没人管...
d******9 发帖数: 134	2 可能是lz建立的model特别适合数据s，但是放到别的数据上不一定。最简单的可以看看s和test data的outcome的distribution;然后对每个variable，看看 train data和test data是否存在difference （我觉得就用t test/chi square/ wilconxon就行） lz可以试试看把现在的training data s和test data混在一起，然后randomly 抽取70% 来train，剩下的30%来test，多做几次cross validation, 再看三种方法的结果。
s****i 发帖数: 197	3 先谢谢楼上大虾的回复, 实际上train/test数据本来都是随机取自s的每次都取s的80% 作为train 剩下的作为test, 类似于crossvalidation, 由于模型会先进行一些信息wrap 例如取一些特定的attributes做个PCA什么的所以用单个的attributes 和response来看没什么显著的结果, lz正在设法找wrap过后的 attributes和response的结果进行这3模型的对比但是这样对比dataset间好像也没什么显著的区别郁闷的lz正在墙角画圈圈啊... 70% 【在 d******9 的大作中提到】 : 可能是lz建立的model特别适合数据s，但是放到别的数据上不一定。 : 最简单的可以看看s和test data的outcome的distribution;然后对每个variable，看看 : train data和test data是否存在difference （我觉得就用t test/chi square/ : wilconxon就行） : lz可以试试看把现在的training data s和test data混在一起，然后randomly 抽取70% : 来train，剩下的30%来test，多做几次cross validation, 再看三种方法的结果。
l******n 发帖数: 9344	4 感觉这几个都没有实质差别看看variable对结果的影响程度，哪个更符合实际 80% 【在 s****i 的大作中提到】 : 先谢谢楼上大虾的回复, 实际上train/test数据本来都是随机取自s的每次都取s的80% : 作为train 剩下的作为test, 类似于crossvalidation, : 由于模型会先进行一些信息wrap 例如取一些特定的attributes做个PCA什么的所以用 : 单个的attributes 和response来看没什么显著的结果, lz正在设法找wrap过后的 : attributes和response的结果进行这3模型的对比但是这样对比dataset间好像也没什 : 么显著的区别郁闷的lz正在墙角画圈圈啊... : : 70%
h***i 发帖数: 3844	5 四个data的underlying distribution不一样。正常 classification 手?? 【在 s****i 的大作中提到】 : 请教一下各位大虾, 我现在手上有一套医院的数据s(这个数据集有34个attributes,其 : 中3个是categorical的) 我建了个模型(在这里简称模型A吧)做2-way classification : 之后我对同一套数据建立了SVM, RandomForest 发现模型A要比后两个表现好7%(就是 : prediction accuracy和sensitivity/specificity这些东西) 但是如果我把模型A用在 : 其他数据上表现就会比SVM和RF低2-4个百分点现在的问题就是解释这是为什么请问 : 一下各位大虾我应该用什么工具来检测数据s和其他数据的区别?? 该从哪个方向入手?? : 顺便在这里吐槽一下半路出家的老板不要跟啊不要跟跟了就没人管啊没人管...
s****i 发帖数: 197	6 请教一下我该如何能把找出这个underlying dist?? 该如何描述他们才能找出他们的区别?? 麻烦大虾了~~ 【在 h***i 的大作中提到】 : 四个data的underlying distribution不一样。正常 : : classification : 手??

1

(共1页)

进入Statistics版参与讨论

相关主题
● 银行还是生统？contractor还是permanent？	● 请问几个回归的sas code
● T家面试题目求解答～～	● 急问有关SVM，randomforest的问题（gene expression data）
● 谁给说说到底如何在一堆变量中找到the biggest contributing factor?	● Random forests on imbalanced data (转载)
● Sample size for clustering analysis	● Principal Components Analysis 中 factor 选择的问题
● classification 问题求教!!	● 有做clinic trial的前辈吗？
● good classification methods for high dimension data	● 面试：nonlinear regression, predictive modeling, machining learning问什么？
● data science 面试求教	● 找工作总结 [下]
● proc logistic: how to build 2 X 2 classification table	● Principal component analysis

相关话题的讨论汇总
话题: 模型话题: 数据话题: 表现话题: svm话题: 集上

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)