关于multiple imputation和variable selection的问题 - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 关于multiple imputation和variable selection的问题

相关主题
● regression prediction问题	● 关于 Risk model
● 怎样检查俩个大的dataset一样	● An interview question
● data science 面试求教	● missing data questions
● 有没有大牛来classifiy一下 PCA用法吗？ (转载)	● Fraud detection model 在testing dataset 中效果很差，求原因
● [合集] Missing data	● 用LASSO选变量后重新fit regression有什么弊端？
● 关于stepwise programming	● open的面试题
● 多大的data算是large data set？	● 请教一个截尾数据的分析方法
● 问一个关于data imputation的问题	● 请教几个logistic regression model的问题

相关话题的讨论汇总
话题: imputation话题: mice话题: missing话题: 变量

进入Statistics版参与讨论

(共1页)

s***h
发帖数: 26

实在不好意思打扰了，我最近在做一个research遇到了以下几个问题，希望能够向版上
的前辈请教。虽然查过了版上的一些类似的帖子也尝试了一下，但还是决定问问：
1. 我的原始数据missing rate相当严重（总rate 50%，每个variable的 missing rate
大概在1%-20%左右）。我使用了R里面的MICE去fill进去这些missing value，但是它的
默认setting是5个sub imputation datasets，我想问问看有什么办法能够把它们合成
一个dataset？我读过了MICE的使用paper，看起来他们只能支持输出全五个datasets或
者直接在MICE的情况下run regression。我想问问看有没有使用过MICE的人有没有什么
好的方法？
2. 我的dataset原始variable数量很多（80+），其中90%是categorical变量，在R里面
有没有快速看变量之间correlation的方法（cor function应该是不适合看categorical
之间的关系的）
3. 如果我使用一些比较raw的方法删掉了一批变量（剩下20个左右，但是还是
categorical和continuous混杂），请教Group LASSO是不是一个比较好的方法。我犹豫
的点在于，LASSO选出来的变量之后再做inference基本上没有变量显著的（这个版上有
人讨论过了）。想请教有没有比较好的解决方法。
另外我是新人，不太会发包子（我有几个），如果有SAS Base+Adv的问题咨询，我会全
力帮助（我考过了，资料和经验都有）。

s***h
发帖数: 26

w****f
发帖数: 22

1. 我也用MICE 做了最近面试的一个公司的case study，5000数据点，250个变量（
numeric and categorical），也是存在严重的missing values 问题，每个变量大概5%
missing，complete cases 只有 36个。 MICE 默认输出的5个impute data可以
用来检查是不是imputation算法收敛了，如果最终做分析的话，未必要5个都用到，或
者你取均值好了。其实我只用了一个来建模，效果也不错。
2. categorical variables 之间的相关性强度，可以看 Phi coefficient and Cramé
r's V。
3. 如果不是response和predictors之间明显不是linear的话，我建议你试试MARS 或者
GAMs。

rate
categorical

【在 s***h 的大作中提到】

: 实在不好意思打扰了，我最近在做一个research遇到了以下几个问题，希望能够向版上
: 的前辈请教。虽然查过了版上的一些类似的帖子也尝试了一下，但还是决定问问：
: 1. 我的原始数据missing rate相当严重（总rate 50%，每个variable的 missing rate
: 大概在1%-20%左右）。我使用了R里面的MICE去fill进去这些missing value，但是它的
: 默认setting是5个sub imputation datasets，我想问问看有什么办法能够把它们合成
: 一个dataset？我读过了MICE的使用paper，看起来他们只能支持输出全五个datasets或
: 者直接在MICE的情况下run regression。我想问问看有没有使用过MICE的人有没有什么
: 好的方法？
: 2. 我的dataset原始variable数量很多（80+），其中90%是categorical变量，在R里面
: 有没有快速看变量之间correlation的方法（cor function应该是不适合看categorical

T*******I
发帖数: 5138

操, 统计被一帮玩数字游戏的家伙们操翻了!
统计不是这样搞的! Imputation根本就是借所谓的数学技能胡搞。说句不客气的话, 这
是在伪造数据或经验事实, 从而伪造认知结果。与其造假, 不如没有或仅有微弱的结果。

【在 s***h 的大作中提到】

s***h
发帖数: 26

Many thanks!

5%

【在 w****f 的大作中提到】

: 1. 我也用MICE 做了最近面试的一个公司的case study，5000数据点，250个变量（
: numeric and categorical），也是存在严重的missing values 问题，每个变量大概5%
: missing，complete cases 只有 36个。 MICE 默认输出的5个impute data可以
: 用来检查是不是imputation算法收敛了，如果最终做分析的话，未必要5个都用到，或
: 者你取均值好了。其实我只用了一个来建模，效果也不错。
: 2. categorical variables 之间的相关性强度，可以看 Phi coefficient and Cramé
: r's V。
: 3. 如果不是response和predictors之间明显不是linear的话，我建议你试试MARS 或者
: GAMs。
:

t*****a
发帖数: 459

前辈其实你讨论的问题我大部分都看不懂。不过关于这个imputation的问题建议你看看
D. Rubin的一系列paper, 如果不想深入研究可以看看Xiaoli Meng的几个科普paper.
Xiaoli Meng的一个paper提到过，他18年前讨论的一个imputation的paper，就被编审
评论为胡搞，但是现在回头看，是编审在胡搞。

果。

【在 T*******I 的大作中提到】

: 操, 统计被一帮玩数字游戏的家伙们操翻了!
: 统计不是这样搞的! Imputation根本就是借所谓的数学技能胡搞。说句不客气的话, 这
: 是在伪造数据或经验事实, 从而伪造认知结果。与其造假, 不如没有或仅有微弱的结果。

T*******I
发帖数: 5138

当人们不考虑样本数据本身的自然属性而仅仅把它们看成是一堆抽象的数字的时候, 当
他们遇到样本中的这些被missed掉的抽象的数字, 并且因为这些令人感到无奈而又讨厌
的空缺令他们束手无策时, 他们便可以爱怎么玩就怎么玩弄数字游戏, 只要最后能够得
到一个令他们满意or不满意的结果就行。
面对经验观察下的事实缺失, 没有什么数学魔术可以弥补。不知道就是不知道, 人们不
可能也不应该根据假设补充 "事实", 进而伪造结果。
Imputation说得好听一点是数字游戏, 说得不好听就是作弊和造假。当然, 任何人造假
都是会寻找逻辑和方法的。
如果一个医学实验员因为疏忽漏记了一个观察结果, 而事后用其它数据的平均值或任意
一个数字去弥补这个记录, 我想, 如果发生了这样的事情, 他/她将面临被解雇而失去
工作, 因为这是不能被容忍的行为。我真是无法想象人们怎么会接受和容忍这种大规模
的数据造假的理论和方法。
所以, 我想, 18年前批判Xiaoli Meng的是一个真正的统计学家, 而此后接受他的东西
的应该都是在统计学里还没被启蒙的数学家们。

【在 t*****a 的大作中提到】

: 前辈其实你讨论的问题我大部分都看不懂。不过关于这个imputation的问题建议你看看
: D. Rubin的一系列paper, 如果不想深入研究可以看看Xiaoli Meng的几个科普paper.
: Xiaoli Meng的一个paper提到过，他18年前讨论的一个imputation的paper，就被编审
: 评论为胡搞，但是现在回头看，是编审在胡搞。
:
: 果。

t*****a
发帖数: 459

这个要么你还是先看看他说的是什么吧。
要是但凡有missing data就整个project都扔掉，那这个科研还真麻烦了。

【在 T*******I 的大作中提到】

: 当人们不考虑样本数据本身的自然属性而仅仅把它们看成是一堆抽象的数字的时候, 当
: 他们遇到样本中的这些被missed掉的抽象的数字, 并且因为这些令人感到无奈而又讨厌
: 的空缺令他们束手无策时, 他们便可以爱怎么玩就怎么玩弄数字游戏, 只要最后能够得
: 到一个令他们满意or不满意的结果就行。
: 面对经验观察下的事实缺失, 没有什么数学魔术可以弥补。不知道就是不知道, 人们不
: 可能也不应该根据假设补充 "事实", 进而伪造结果。
: Imputation说得好听一点是数字游戏, 说得不好听就是作弊和造假。当然, 任何人造假
: 都是会寻找逻辑和方法的。
: 如果一个医学实验员因为疏忽漏记了一个观察结果, 而事后用其它数据的平均值或任意
: 一个数字去弥补这个记录, 我想, 如果发生了这样的事情, 他/她将面临被解雇而失去

g*****o
发帖数: 812

笑死了，你快点去中科院美科院前面举牌子吧，买买提庙太小容不下你

【在 T*******I 的大作中提到】

T*******I
发帖数: 5138

No need. Things are too simple. You cannot transform an "unknown" to "known"
in this way.
Usually, you should not throw away the whole project, but you must throw
away those with missing status.
Of course you can do anyhow with imputation for your project, but you must
label your result with "with imputation" and the result is useless.

【在 t*****a 的大作中提到】

: 这个要么你还是先看看他说的是什么吧。
: 要是但凡有missing data就整个project都扔掉，那这个科研还真麻烦了。

相关主题
● 关于stepwise programming	● 关于 Risk model
● 多大的data算是large data set？	● An interview question
● 问一个关于data imputation的问题	● missing data questions
进入Statistics版参与讨论

T*******I
发帖数: 5138

在我看来, imputation在统计学里就是一个可笑的东西, 当然, 它在某些数学背景的人
士看来是个很有智慧的解决方案。
你要是不服气, 请告诉我们, 一个missing point measure in a sampling dataset是
什么意思, 而一个imputed point value又是什么意思。把这两个概念搞清楚了, 再来
谈imputation有何意义。

【在 g*****o 的大作中提到】

: 笑死了，你快点去中科院美科院前面举牌子吧，买买提庙太小容不下你

w****f
发帖数: 22

感觉你是无知者无畏啊，给你举个简单例子，临床实验中最典型的missing values 是
由于病人退出实验造成的。这种情况下如果不做imputation，分析结果会存在严重的
bias，因为很可能病人退出实验的原因在于药物作用不够好。FDA严格要求医药企业必
须有合理的imputation方案写进statistical analysis plan (SAP).

【在 T*******I 的大作中提到】

T*******I
发帖数: 5138

请先解释一下上楼我要gaetano回答的问题。

【在 w****f 的大作中提到】

: 感觉你是无知者无畏啊，给你举个简单例子，临床实验中最典型的missing values 是
: 由于病人退出实验造成的。这种情况下如果不做imputation，分析结果会存在严重的
: bias，因为很可能病人退出实验的原因在于药物作用不够好。FDA严格要求医药企业必
: 须有合理的imputation方案写进statistical analysis plan (SAP).

g*****o
发帖数: 812

你看来有毛用，你自己概念都一团浆糊，我才懒得解释。反正你也听不懂。
我就是无聊的时候嘲笑你惹

【在 T*******I 的大作中提到】

: 在我看来, imputation在统计学里就是一个可笑的东西, 当然, 它在某些数学背景的人
: 士看来是个很有智慧的解决方案。
: 你要是不服气, 请告诉我们, 一个missing point measure in a sampling dataset是
: 什么意思, 而一个imputed point value又是什么意思。把这两个概念搞清楚了, 再来
: 谈imputation有何意义。

T*******I
发帖数: 5138

其实, 我已经把我的认识告诉了你, 只是希望你能重复一遍。而你既不愿接受我的认识
, 又不屑于给出你自己的认识, 所以, 你应该没有资格在此问题上继续瞎叫唤, 因为在
学术领域这样做是令人讨厌的。

【在 g*****o 的大作中提到】

: 你看来有毛用，你自己概念都一团浆糊，我才懒得解释。反正你也听不懂。
: 我就是无聊的时候嘲笑你惹

w****f
发帖数: 22

我这是举个例子告诉你为什么要imputation，驳斥你的所谓“作弊”，“造假”，“数
字游戏”。。
你的那些概念我至少目前没兴趣理解，如果你觉得你的想法具有先进性，建议你投稿
JASA，Annals of Statistics, 目前而言，对你的任何没经过peer review的发现研究
，我不想浪费时间。

【在 T*******I 的大作中提到】

: 请先解释一下上楼我要gaetano回答的问题。

T*******I
发帖数: 5138

笑话, 那些peer-reviewer能够把无知说成已知?
哦，我忘了。他们确实做到了，要不,imputation是如何出笼的？

【在 w****f 的大作中提到】

: 我这是举个例子告诉你为什么要imputation，驳斥你的所谓“作弊”，“造假”，“数
: 字游戏”。。
: 你的那些概念我至少目前没兴趣理解，如果你觉得你的想法具有先进性，建议你投稿
: JASA，Annals of Statistics, 目前而言，对你的任何没经过peer review的发现研究
: ，我不想浪费时间。

a***g
发帖数: 2761

missing value部分不清楚
如果lasso选不出显著的变量，基本就说明线性model不work
可以用random forest选一下变量，再试试

rate
categorical

【在 s***h 的大作中提到】

g*****o
发帖数: 812

你有毛资格进行“学术讨论”？除非崔永元当了科技部长吧，哈哈

【在 T*******I 的大作中提到】

: 其实, 我已经把我的认识告诉了你, 只是希望你能重复一遍。而你既不愿接受我的认识
: , 又不屑于给出你自己的认识, 所以, 你应该没有资格在此问题上继续瞎叫唤, 因为在
: 学术领域这样做是令人讨厌的。

T*******I
发帖数: 5138

Ok，请把你支持imputation的核心论点放在这里，看看你能否说服我放弃我的上述基本
认知。你应该不会不知道，而且也应该如我一样，没几个字。如果你继续对此保持缄默
，就别tmd在这里装大神。

【在 g*****o 的大作中提到】

: 你有毛资格进行“学术讨论”？除非崔永元当了科技部长吧，哈哈

相关主题
● Fraud detection model 在testing dataset 中效果很差，求原因	● 请教一个截尾数据的分析方法
● 用LASSO选变量后重新fit regression有什么弊端？	● 请教几个logistic regression model的问题
● open的面试题	● 请教sas code问题
进入Statistics版参与讨论

g*****o
发帖数: 812

i dont care
我爱说不说，你管的着吗？

【在 T*******I 的大作中提到】

: Ok，请把你支持imputation的核心论点放在这里，看看你能否说服我放弃我的上述基本
: 认知。你应该不会不知道，而且也应该如我一样，没几个字。如果你继续对此保持缄默
: ，就别tmd在这里装大神。

A*******s
发帖数: 3942

哇哈哈哈

【在 T*******I 的大作中提到】

: 笑话, 那些peer-reviewer能够把无知说成已知?
: 哦，我忘了。他们确实做到了，要不,imputation是如何出笼的？

T*******I
发帖数: 5138

Are you sure that you guys really know the difference between Bias and
Random error? For the imputation declares that it is an attempt to avoid
bias caused be the missing data in sample.
I doubt you!

【在 A*******s 的大作中提到】

: 哇哈哈哈

(共1页)

进入Statistics版参与讨论

相关主题
● 请教几个logistic regression model的问题	● [合集] Missing data
● 请教sas code问题	● 关于stepwise programming
● 求教一个sas读data的问题	● 多大的data算是large data set？
● any regression model with high prediction accuracy?	● 问一个关于data imputation的问题
● regression prediction问题	● 关于 Risk model
● 怎样检查俩个大的dataset一样	● An interview question
● data science 面试求教	● missing data questions
● 有没有大牛来classifiy一下 PCA用法吗？ (转载)	● Fraud detection model 在testing dataset 中效果很差，求原因

相关话题的讨论汇总
话题: imputation话题: mice话题: missing话题: 变量

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天