s****i 发帖数: 197 | 1 请教一下各位大虾, 我现在手上有一套医院的数据s(这个数据集有34个attributes,其
中3个是categorical的) 我建了个模型(在这里简称模型A吧)做2-way classification
之后我对同一套数据建立了SVM, RandomForest 发现模型A要比后两个表现好7%(就是
prediction accuracy和sensitivity/specificity这些东西) 但是如果我把模型A用在
其他数据上 表现就会比SVM和RF低2-4个百分点 现在的问题就是解释这是为什么 请问
一下各位大虾 我应该用什么工具来检测数据s和其他数据的区别?? 该从哪个方向入手??
顺便在这里吐槽一下 半路出家的老板不要跟啊不要跟 跟了就没人管啊没人管... |
d******9 发帖数: 134 | 2 可能是lz建立的model特别适合数据s,但是放到别的数据上不一定。
最简单的可以看看s和test data的outcome的distribution;然后对每个variable,看看
train data和test data是否存在difference (我觉得就用t test/chi square/
wilconxon就行)
lz可以试试看把现在的training data s和test data混在一起,然后randomly 抽取70%
来train,剩下的30%来test,多做几次cross validation, 再看三种方法的结果。 |
s****i 发帖数: 197 | 3 先谢谢楼上大虾的回复, 实际上train/test数据本来都是随机取自s的 每次都取s的80%
作为train 剩下的作为test, 类似于crossvalidation,
由于模型会先进行一些信息wrap 例如取一些特定的attributes做个PCA什么的 所以用
单个的attributes 和response来看没什么显著的结果, lz正在设法找wrap过后的
attributes和response的结果进行这3模型的对比 但是这样对比dataset间好像也没什
么显著的区别 郁闷的lz正在墙角画圈圈啊...
70%
【在 d******9 的大作中提到】 : 可能是lz建立的model特别适合数据s,但是放到别的数据上不一定。 : 最简单的可以看看s和test data的outcome的distribution;然后对每个variable,看看 : train data和test data是否存在difference (我觉得就用t test/chi square/ : wilconxon就行) : lz可以试试看把现在的training data s和test data混在一起,然后randomly 抽取70% : 来train,剩下的30%来test,多做几次cross validation, 再看三种方法的结果。
|
l******n 发帖数: 9344 | 4 感觉这几个都没有实质差别
看看variable对结果的影响程度,哪个更符合实际
80%
【在 s****i 的大作中提到】 : 先谢谢楼上大虾的回复, 实际上train/test数据本来都是随机取自s的 每次都取s的80% : 作为train 剩下的作为test, 类似于crossvalidation, : 由于模型会先进行一些信息wrap 例如取一些特定的attributes做个PCA什么的 所以用 : 单个的attributes 和response来看没什么显著的结果, lz正在设法找wrap过后的 : attributes和response的结果进行这3模型的对比 但是这样对比dataset间好像也没什 : 么显著的区别 郁闷的lz正在墙角画圈圈啊... : : 70%
|
h***i 发帖数: 3844 | 5 四个data的underlying distribution不一样。正常
classification
手??
【在 s****i 的大作中提到】 : 请教一下各位大虾, 我现在手上有一套医院的数据s(这个数据集有34个attributes,其 : 中3个是categorical的) 我建了个模型(在这里简称模型A吧)做2-way classification : 之后我对同一套数据建立了SVM, RandomForest 发现模型A要比后两个表现好7%(就是 : prediction accuracy和sensitivity/specificity这些东西) 但是如果我把模型A用在 : 其他数据上 表现就会比SVM和RF低2-4个百分点 现在的问题就是解释这是为什么 请问 : 一下各位大虾 我应该用什么工具来检测数据s和其他数据的区别?? 该从哪个方向入手?? : 顺便在这里吐槽一下 半路出家的老板不要跟啊不要跟 跟了就没人管啊没人管...
|
s****i 发帖数: 197 | 6 请教一下 我该如何能把找出这个underlying dist?? 该如何描述他们才能找出他们的
区别??
麻烦大虾了~~
【在 h***i 的大作中提到】 : 四个data的underlying distribution不一样。正常 : : classification : 手??
|