由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - machine learning救助 模型在1数据集上表现好 其他烂
相关主题
classification 问题 求教!!有做clinic trial的前辈吗?
good classification methods for high dimension data面试:nonlinear regression, predictive modeling, machining learning问什么?
data science 面试求教找工作总结 [下]
proc logistic: how to build 2 X 2 classification tablePrincipal component analysis
请问几个回归的sas code请教确定weights 的方法
急问有关SVM,randomforest的问题(gene expression data)Correspondence analysis
Random forests on imbalanced data (转载)问两个一直含糊不清的marketing analysis 的问题
Principal Components Analysis 中 factor 选择的问题银行还是生统?contractor还是permanent?
相关话题的讨论汇总
话题: 模型话题: 数据话题: 表现话题: svm话题: 集上
进入Statistics版参与讨论
1 (共1页)
s****i
发帖数: 197
1
请教一下各位大虾, 我现在手上有一套医院的数据s(这个数据集有34个attributes,其
中3个是categorical的) 我建了个模型(在这里简称模型A吧)做2-way classification
之后我对同一套数据建立了SVM, RandomForest 发现模型A要比后两个表现好7%(就是
prediction accuracy和sensitivity/specificity这些东西) 但是如果我把模型A用在
其他数据上 表现就会比SVM和RF低2-4个百分点 现在的问题就是解释这是为什么 请问
一下各位大虾 我应该用什么工具来检测数据s和其他数据的区别?? 该从哪个方向入手??
顺便在这里吐槽一下 半路出家的老板不要跟啊不要跟 跟了就没人管啊没人管...
d******9
发帖数: 134
2
可能是lz建立的model特别适合数据s,但是放到别的数据上不一定。
最简单的可以看看s和test data的outcome的distribution;然后对每个variable,看看
train data和test data是否存在difference (我觉得就用t test/chi square/
wilconxon就行)
lz可以试试看把现在的training data s和test data混在一起,然后randomly 抽取70%
来train,剩下的30%来test,多做几次cross validation, 再看三种方法的结果。
s****i
发帖数: 197
3
先谢谢楼上大虾的回复, 实际上train/test数据本来都是随机取自s的 每次都取s的80%
作为train 剩下的作为test, 类似于crossvalidation,
由于模型会先进行一些信息wrap 例如取一些特定的attributes做个PCA什么的 所以用
单个的attributes 和response来看没什么显著的结果, lz正在设法找wrap过后的
attributes和response的结果进行这3模型的对比 但是这样对比dataset间好像也没什
么显著的区别 郁闷的lz正在墙角画圈圈啊...

70%

【在 d******9 的大作中提到】
: 可能是lz建立的model特别适合数据s,但是放到别的数据上不一定。
: 最简单的可以看看s和test data的outcome的distribution;然后对每个variable,看看
: train data和test data是否存在difference (我觉得就用t test/chi square/
: wilconxon就行)
: lz可以试试看把现在的training data s和test data混在一起,然后randomly 抽取70%
: 来train,剩下的30%来test,多做几次cross validation, 再看三种方法的结果。

l******n
发帖数: 9344
4
感觉这几个都没有实质差别
看看variable对结果的影响程度,哪个更符合实际

80%

【在 s****i 的大作中提到】
: 先谢谢楼上大虾的回复, 实际上train/test数据本来都是随机取自s的 每次都取s的80%
: 作为train 剩下的作为test, 类似于crossvalidation,
: 由于模型会先进行一些信息wrap 例如取一些特定的attributes做个PCA什么的 所以用
: 单个的attributes 和response来看没什么显著的结果, lz正在设法找wrap过后的
: attributes和response的结果进行这3模型的对比 但是这样对比dataset间好像也没什
: 么显著的区别 郁闷的lz正在墙角画圈圈啊...
:
: 70%

h***i
发帖数: 3844
5
四个data的underlying distribution不一样。正常

classification
手??

【在 s****i 的大作中提到】
: 请教一下各位大虾, 我现在手上有一套医院的数据s(这个数据集有34个attributes,其
: 中3个是categorical的) 我建了个模型(在这里简称模型A吧)做2-way classification
: 之后我对同一套数据建立了SVM, RandomForest 发现模型A要比后两个表现好7%(就是
: prediction accuracy和sensitivity/specificity这些东西) 但是如果我把模型A用在
: 其他数据上 表现就会比SVM和RF低2-4个百分点 现在的问题就是解释这是为什么 请问
: 一下各位大虾 我应该用什么工具来检测数据s和其他数据的区别?? 该从哪个方向入手??
: 顺便在这里吐槽一下 半路出家的老板不要跟啊不要跟 跟了就没人管啊没人管...

s****i
发帖数: 197
6
请教一下 我该如何能把找出这个underlying dist?? 该如何描述他们才能找出他们的
区别??
麻烦大虾了~~

【在 h***i 的大作中提到】
: 四个data的underlying distribution不一样。正常
:
: classification
: 手??

1 (共1页)
进入Statistics版参与讨论
相关主题
银行还是生统?contractor还是permanent?请问几个回归的sas code
T家面试题目求解答~~急问有关SVM,randomforest的问题(gene expression data)
谁给说说到底如何在一堆变量中找到the biggest contributing factor?Random forests on imbalanced data (转载)
Sample size for clustering analysisPrincipal Components Analysis 中 factor 选择的问题
classification 问题 求教!!有做clinic trial的前辈吗?
good classification methods for high dimension data面试:nonlinear regression, predictive modeling, machining learning问什么?
data science 面试求教找工作总结 [下]
proc logistic: how to build 2 X 2 classification tablePrincipal component analysis
相关话题的讨论汇总
话题: 模型话题: 数据话题: 表现话题: svm话题: 集上