由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 请问有关t-test(包子酬谢!) (转载)
相关主题
[Data Science Project Case] Data Monitoringsuggestion on geospatial data? (转载)
新人求教一个HADOOP的问题datascientist几个基本问题
请问关于小的dataset evaluation的问题how to split samples/data for A/B test
紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!!ask for help for R programming (转载)
training dataset和unbalanced dataset的设计这样的数据怎么处理
一道药厂computational biology的面试题有关归类
[Data Science Project Case]Future Income predictingp value被摈弃了?如何算confidence interval之类的东西?
应用统计硕士选课求教Data Science方向 (转载)data scientist 一面试题目请教
相关话题的讨论汇总
话题: score话题: sample话题: 两组话题: cutoff话题: 一组
进入DataSciences版参与讨论
1 (共1页)
w*****1
发帖数: 473
1
【 以下文字转载自 Statistics 讨论区 】
发信人: wz99331 (dotti), 信区: Statistics
标 题: 请问有关t-test(包子酬谢!)
发信站: BBS 未名空间站 (Tue Nov 7 00:09:22 2017, 美东)
请问大家我需要比较两组数据:要先找到一个score 的cut-off (0.6-1), 比如说0.7,
然后把数据分成两组,一组score>0.7,一组小于0.7,然后对这两组的df_rho进行t-test
.现在不知道这个cutoff是多少,必须用for loop来search,step=0.1,来算出所有的p-
value相应于不同cutoff,然后看哪个p-value significant从而决定cutoff是多少,请
问这个问题用r-code 怎么写?大部分的score都是0.9以上,这样用0.8作为cut-off就
会出现一组有三万个sample,而另外一组却只有2千个sample,这样unbalanced数据
sample size相差这么远会有问题吗?总共有3万多行(每行一个sample).用sas也可以
,谢谢!
Score df_rho
0.999999984 0.439771127
0.999999399 0.419969991
0.99999998 0.417761585
0.999999052 0.338529164
0.999999794 0.308789174
0.999999186 -0.074590938
0.941455596 -0.072470832
0.780640105 -0.294271087
0.977120141 -0.290279591
0.999183606 -0.071392812
0.761840272 -0.146482846
0.761840272 -0.142679813
0.761840272 -0.064439892
...
1 (共1页)
进入DataSciences版参与讨论
相关主题
data scientist 一面试题目请教training dataset和unbalanced dataset的设计
求解一个水塘抽样题 (转载)一道药厂computational biology的面试题
怎么建一个AWS的real time scoring engine?[Data Science Project Case]Future Income predicting
R 里面random forest score新的data有new level的问题应用统计硕士选课求教Data Science方向 (转载)
[Data Science Project Case] Data Monitoringsuggestion on geospatial data? (转载)
新人求教一个HADOOP的问题datascientist几个基本问题
请问关于小的dataset evaluation的问题how to split samples/data for A/B test
紧急求救: SMOTE-NC 处理categorical data for unbalanced class!!!ask for help for R programming (转载)
相关话题的讨论汇总
话题: score话题: sample话题: 两组话题: cutoff话题: 一组