由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 建模过程中对于outlier的处理问题
相关主题
今天看到的 - 你有进华尔街的资格吗? (转载)30+零经验大妈求转行DS建议
问问面试如何出题所谓的大数据
谁能推荐几本DS的书?Science杂志一篇关于clustering的新文章 (转载)
Regression也属于ML?如何 对播放广告对销量的影响建模
求问一个概率题Bayesian inference
请各位前辈推荐招数据科学家
目前Google, Bing, Baidu都完败章鱼帝数学phd可以再读一个cs的master,偏向data analytics?
恭喜新版成立。什么背景的人会成为data scientistDS 现在是有大泡泡吗?
相关话题的讨论汇总
话题: outlier话题: 模型话题: 数据话题: 工程话题: model
进入DataSciences版参与讨论
1 (共1页)
a********e
发帖数: 78
1
一个数据集存在一些outlier (或者说和其他数据点比较不同), 在对这个数据集建
立预测模型(比如 用回归分析)的时候应该如何处理这些outlier? 当然可以把这些
outlier分离出来不要。 但假如希望这个模型能够包含这些outlier的话,应该怎么办
。一般哪些模型能够比较好的容忍这些outlier。
c********h
发帖数: 330
2
search for robust regression by Rousseeuw
T*****u
发帖数: 7103
3
有些regression,比如说quantile regression,就不是特别敏感。
a***g
发帖数: 2761
4
有些时候可以做一些变化,比如log什么的就可以把outlier很好的fit到
Y****a
发帖数: 243
5
“这个模型能够包含这些outlier”这句话该怎么理解?
1. 首先明确做这个模型的目的是什么?预测未来?判断因果?
2. 用包含outlier的数据做模型,或多或少都会对模型造成偏差。现在要回答的问题是
这种偏差是你这个项目能接受的吗?有时候不大的偏差有可能会带来很大的business
impact。
线性模型里,一个y-direction的outlier可以 completely screw your model up
3. outlier的来源是什么?是不是valid input。
人为因素,还是系统因素。
人为因素,不建议保留,而且要implement一套自动识别机制
系统因素,建议保留,并建立一套自动处理这些数据的程序。
4. 个人感觉:比较不能接受为了outlier而更改模型的做法。

【在 a********e 的大作中提到】
: 一个数据集存在一些outlier (或者说和其他数据点比较不同), 在对这个数据集建
: 立预测模型(比如 用回归分析)的时候应该如何处理这些outlier? 当然可以把这些
: outlier分离出来不要。 但假如希望这个模型能够包含这些outlier的话,应该怎么办
: 。一般哪些模型能够比较好的容忍这些outlier。

h*****7
发帖数: 6781
6
+1

【在 T*****u 的大作中提到】
: 有些regression,比如说quantile regression,就不是特别敏感。
a********e
发帖数: 78
7
这组数据是对应不同工程的cost, 大部分是小工程(两百到三百个), 有五到十个是
大工程。大工程和小工程在各个variable方面可能都很不一样。 问题是如何才能建立
一个统一的模型同时抓住大小工程。

【在 Y****a 的大作中提到】
: “这个模型能够包含这些outlier”这句话该怎么理解?
: 1. 首先明确做这个模型的目的是什么?预测未来?判断因果?
: 2. 用包含outlier的数据做模型,或多或少都会对模型造成偏差。现在要回答的问题是
: 这种偏差是你这个项目能接受的吗?有时候不大的偏差有可能会带来很大的business
: impact。
: 线性模型里,一个y-direction的outlier可以 completely screw your model up
: 3. outlier的来源是什么?是不是valid input。
: 人为因素,还是系统因素。
: 人为因素,不建议保留,而且要implement一套自动识别机制
: 系统因素,建议保留,并建立一套自动处理这些数据的程序。

a********e
发帖数: 78
8
这组数据是对应不同工程的cost, 大部分是小工程(两百到三百个), 有五到十个是
大工程。大工程和小工程在各个variable方面可能都很不一样。 问题是如何才能建立
一个统一的模型同时抓住大小工程。

【在 Y****a 的大作中提到】
: “这个模型能够包含这些outlier”这句话该怎么理解?
: 1. 首先明确做这个模型的目的是什么?预测未来?判断因果?
: 2. 用包含outlier的数据做模型,或多或少都会对模型造成偏差。现在要回答的问题是
: 这种偏差是你这个项目能接受的吗?有时候不大的偏差有可能会带来很大的business
: impact。
: 线性模型里,一个y-direction的outlier可以 completely screw your model up
: 3. outlier的来源是什么?是不是valid input。
: 人为因素,还是系统因素。
: 人为因素,不建议保留,而且要implement一套自动识别机制
: 系统因素,建议保留,并建立一套自动处理这些数据的程序。

Y****a
发帖数: 243
9
那你这个实际上是两个population
可以引入一个indicater,0表示小项目,1表示大项目,然后根据你对数据的理解,在
模型中加入线性或interaction项。
T*****u
发帖数: 7103
10
大的小的各建一个,加一个triage的开关,给分流到不同的model
或者
大的小的各建一个,搞一个logistic function或者spline或者类似在output把两个
model给粘起来
或者
用一个model,但是给大的小的加不同的weight,不过没看到非需要用同一个model的必要
或者
类似3,resample,balance一下数据,一个model一言堂还是民主制度随你
或者
类似1,搞一个jit,或者local model或者nonparametric,每次见到input先找几个类
似的,随时建模,随时出结果
或者
类似1和4,用rbf kernel,几百个点而已
再或者
直接上svm,看运气吧
对你的数据很多可能都不make sense,只能希望启发一下思路
相关主题
请各位前辈推荐30+零经验大妈求转行DS建议
目前Google, Bing, Baidu都完败章鱼帝所谓的大数据
恭喜新版成立。什么背景的人会成为data scientistScience杂志一篇关于clustering的新文章 (转载)
进入DataSciences版参与讨论
c***z
发帖数: 6348
11
做两个模型+1
i**********a
发帖数: 149
12
LZ大工程的数据只有几个,这样分别做模型数据不够怎么办呢?

【在 c***z 的大作中提到】
: 做两个模型+1
c***z
发帖数: 6348
13
那就用dummy吧
不过这是数据的问题,模型能帮到的很小

【在 i**********a 的大作中提到】
: LZ大工程的数据只有几个,这样分别做模型数据不够怎么办呢?
T*****u
发帖数: 7103
14
我有两哥们,一个是某校统计系的教授,一个是某校某专业的某学生。后者做实验一共
测了三个点,帮忙找算法或者软件能让统计结果更精确一些。其实都可以理解。点太少
了,但一个点要花多少时间和钱啊。你做偏science还是工程?

【在 i**********a 的大作中提到】
: LZ大工程的数据只有几个,这样分别做模型数据不够怎么办呢?
a********e
发帖数: 78
15
偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗?

【在 T*****u 的大作中提到】
: 我有两哥们,一个是某校统计系的教授,一个是某校某专业的某学生。后者做实验一共
: 测了三个点,帮忙找算法或者软件能让统计结果更精确一些。其实都可以理解。点太少
: 了,但一个点要花多少时间和钱啊。你做偏science还是工程?

T*****u
发帖数: 7103
16
工程的话最开始的model差点也无所谓了。先把practice建立起来,再慢慢优化。一步
到位对于做工程也并不很现实,所以期望值不要太高。不是最好的model,but it is
the best up to date known to our knowledge,and there are optimization plans
and paths leading to next levels.

【在 a********e 的大作中提到】
: 偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗?
c***z
发帖数: 6348
17
simulation?

【在 a********e 的大作中提到】
: 偏向于工程. 但拿到大工程的数据并不容易。请问对这种小数据量有什么办法吗?
1 (共1页)
进入DataSciences版参与讨论
相关主题
DS 现在是有大泡泡吗?求问一个概率题
真诚求审稿机会 物理 大数据 统计 金融建模 机器算法相关方向请各位前辈推荐
关于统计专业毕业生在美国找工作的一些建议目前Google, Bing, Baidu都完败章鱼帝
替国内朋友贴个 (转载)恭喜新版成立。什么背景的人会成为data scientist
今天看到的 - 你有进华尔街的资格吗? (转载)30+零经验大妈求转行DS建议
问问面试如何出题所谓的大数据
谁能推荐几本DS的书?Science杂志一篇关于clustering的新文章 (转载)
Regression也属于ML?如何 对播放广告对销量的影响建模
相关话题的讨论汇总
话题: outlier话题: 模型话题: 数据话题: 工程话题: model