由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 做linear reg怎么去掉outlier?
相关主题
outlier detectionsregression的问题:怎么处理bad data
建模过程中对于outlier的处理问题SAS E-Miner regression model 问题
怎么样才能提高R SQUARE的值--using SPSS?问一个和统计相关的算法面试题 (转载)
问一个简单的问题:一个data set有100个变量(列),每列有1000个观测值,怎么找每个变量里面的outlier?问个outlier 和 sample size 的问题哈
请问你们在上交结果之前都做哪些检查?请问这个问题应该用什么方法解决
问一个technical question的回答方法问个SAS 基本问题,请大家帮忙。
正态分布,请教!about outlier identification
SVM和logistic regression 的比较请教牛人们关于time series 的 linear regression 问题
相关话题的讨论汇总
话题: outlier话题: regression话题: 去掉话题: linear话题: outliers
进入Statistics版参与讨论
1 (共1页)
d********t
发帖数: 9628
1
可不可以先用全部data搞一次,然后把error比较大的点去掉再搞一次?理论上有什么
问题?
E**********e
发帖数: 1736
2
做个boxplot, 可以删掉2个std外的data point,如果样品size大的话。 也可以
linear regression后算cook distanc是么的。 翻下统计regression基本手册。至于理
论上是么说法吗,就是用来扯的。 只要解决问题, 睡care理论怎么说啊。 outliers
大都就是用来删的。


【在 d********t 的大作中提到】
: 可不可以先用全部data搞一次,然后把error比较大的点去掉再搞一次?理论上有什么
: 问题?

d********t
发帖数: 9628
3
啥叫boxplot?
就是沿着regression的那条线平行两个error的std吗?
谢了!

outliers

【在 E**********e 的大作中提到】
: 做个boxplot, 可以删掉2个std外的data point,如果样品size大的话。 也可以
: linear regression后算cook distanc是么的。 翻下统计regression基本手册。至于理
: 论上是么说法吗,就是用来扯的。 只要解决问题, 睡care理论怎么说啊。 outliers
: 大都就是用来删的。
: 。

E**********e
发帖数: 1736
4
就是R里面的boxplots()啊。 对每个predicator做个boxplot, 然后删掉outliers,
可以用1.5~3 std, 取决于你的samples size。 你需要写个小程序来删掉这些
outliers。 另一方法是regression啦,如果outlier是也就一两个的话,看看统计书。

【在 d********t 的大作中提到】
: 啥叫boxplot?
: 就是沿着regression的那条线平行两个error的std吗?
: 谢了!
:
: outliers

S******n
发帖数: 90
5
Alternatively, try Robust Regression. Be cautious! When you delete the
outlier(s), please consult with the researcher who gave you the dataset !
d*********r
发帖数: 297
6
risk equivalent or based on Y=f(X), floor or capping.

【在 d********t 的大作中提到】
: 可不可以先用全部data搞一次,然后把error比较大的点去掉再搞一次?理论上有什么
: 问题?

n**********0
发帖数: 66
7
我个人感觉如果不是分析着玩的,去掉outlier是比较危险的,至少应该分析with and
without outlier 然后看看这两个区别大不大,或者能给你一些信息告诉你是不是值得
去掉outlier
1 (共1页)
进入Statistics版参与讨论
相关主题
请教牛人们关于time series 的 linear regression 问题请问你们在上交结果之前都做哪些检查?
linear regression的时候问一个technical question的回答方法
a question正态分布,请教!
Is there any correlation between the two data set?SVM和logistic regression 的比较
outlier detectionsregression的问题:怎么处理bad data
建模过程中对于outlier的处理问题SAS E-Miner regression model 问题
怎么样才能提高R SQUARE的值--using SPSS?问一个和统计相关的算法面试题 (转载)
问一个简单的问题:一个data set有100个变量(列),每列有1000个观测值,怎么找每个变量里面的outlier?问个outlier 和 sample size 的问题哈
相关话题的讨论汇总
话题: outlier话题: regression话题: 去掉话题: linear话题: outliers