由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 工作中的一个correlation analysis的问题。
相关主题
missing data imputation关于power analysis的应用(healthcare industry)
问一些关于mixed model的问题,包子悬赏,不胜感激。问大家一个propensity score matching 的问题
请教做过Multiple Imputation 的牛牛们对于Mixed Linear Model, 如何处理missing covariates?
如何处理这样的missing value?missing data questions
missing data 如何处理?How to deal with the NULL value?
[合集] 用SAS or SUDAAN处理人口统计数据的问题请教怎么用PCA capture pairwise covariance (with missing va
求教:Cox PH 模型的cluster data处理我问一个极其sb的问题。
请教高人SAS help needed, interpolating missing values
相关话题的讨论汇总
话题: website话题: theta话题: alpha话题: missing
进入Statistics版参与讨论
1 (共1页)
t***q
发帖数: 418
1
有一个工作中的一个correlation analysis的问题。有一万个website,每个website每
一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得
到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之
类的算一下),但是一万个website之间的correlation的关系,generally的怎么
evaluate?
盼回复。多谢!
D******n
发帖数: 2836
2
clustering

【在 t***q 的大作中提到】
: 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每
: 一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得
: 到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之
: 类的算一下),但是一万个website之间的correlation的关系,generally的怎么
: evaluate?
: 盼回复。多谢!

b*****n
发帖数: 685
3
这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着
还差不多。
l******n
发帖数: 9344
4
感觉楼主是说10ksites计算量太大,cluster比如按照网站内容,关键字之类分类之后
,10k变成500,或者1可,这样计算量减少

这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着
还差不多。

【在 b*****n 的大作中提到】
: 这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着
: 还差不多。

t***q
发帖数: 418
5
有一个工作中的一个correlation analysis的问题。有一万个website,每个website每
一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得
到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之
类的算一下),但是一万个website之间的correlation的关系,generally的怎么
evaluate?
盼回复。多谢!
D******n
发帖数: 2836
6
clustering

【在 t***q 的大作中提到】
: 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每
: 一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得
: 到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之
: 类的算一下),但是一万个website之间的correlation的关系,generally的怎么
: evaluate?
: 盼回复。多谢!

b*****n
发帖数: 685
7
这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着
还差不多。
l******n
发帖数: 9344
8
感觉楼主是说10ksites计算量太大,cluster比如按照网站内容,关键字之类分类之后
,10k变成500,或者1可,这样计算量减少

这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着
还差不多。

【在 b*****n 的大作中提到】
: 这应是典型的covariance matrix estimation问题,并不是clustering能解决的,反着
: 还差不多。

t*****2
发帖数: 94
9
您好,小弟是FRESH GRADATE, 最近在工作,在面试的时候很多时候被问到MISSING
VALUE的问题。我看到你经常在这里解答别人的问题,而且很专业。希望能得到您的答
案。
for example: how to deal with missing value so that it can be used as input
for model? what if 80% of the data are missing?
我就回答了: a)test the pattern of missing value (MCAR/MAR/MNAR)
test some assumptions (eg. normality, because some datasets

are assumed to be normally distributed)

b) Solution: Multiple Imputation, Propensity score method. etc
I am not sure about my answer, especially for the case when 80% of data are
missing.
然后他们说我的回答太academic.我的问题是: 一般在工作中,你们是怎样处理这个问
题呢?
S*x
发帖数: 705
10
search for "missing" in this board
you will find many previous discussion and many of them
focuses on business sense more than academia practise

input


are

【在 t*****2 的大作中提到】
: 您好,小弟是FRESH GRADATE, 最近在工作,在面试的时候很多时候被问到MISSING
: VALUE的问题。我看到你经常在这里解答别人的问题,而且很专业。希望能得到您的答
: 案。
: for example: how to deal with missing value so that it can be used as input
: for model? what if 80% of the data are missing?
: 我就回答了: a)test the pattern of missing value (MCAR/MAR/MNAR)
: test some assumptions (eg. normality, because some datasets
:
: are assumed to be normally distributed)
:

相关主题
[合集] 用SAS or SUDAAN处理人口统计数据的问题关于power analysis的应用(healthcare industry)
求教:Cox PH 模型的cluster data处理问大家一个propensity score matching 的问题
请教高人对于Mixed Linear Model, 如何处理missing covariates?
进入Statistics版参与讨论
P****D
发帖数: 11146
11
面试的时候,不要对方问啥你答啥,不喜欢的问题就推回去,也能显示你的能力。
对于第一个问题,你就说:这个问题太大了。缺失数据的处理现在已经发展成统计的一
个分支方向,绝不是我几句话可以回答得来。要不你们给我一个具体情况,我来说说我
会如何处理。
这样也显得你考虑问题比较细致,能具体情况具体分析。而且这样具体的问题会容易回
答得多。

input



【在 t*****2 的大作中提到】
: 您好,小弟是FRESH GRADATE, 最近在工作,在面试的时候很多时候被问到MISSING
: VALUE的问题。我看到你经常在这里解答别人的问题,而且很专业。希望能得到您的答
: 案。
: for example: how to deal with missing value so that it can be used as input
: for model? what if 80% of the data are missing?
: 我就回答了: a)test the pattern of missing value (MCAR/MAR/MNAR)
: test some assumptions (eg. normality, because some datasets
:
: are assumed to be normally distributed)
:

r*****d
发帖数: 346
12
应该要认为每个网站得到的是一串时间序列,然后建立一个hierarchical model:
\Alpha is the hyper prior which has pdf p(\Alpha), and then specify the
conditional distribution \Theta|\Alpha ~ f(\Theta|\Alpha), and next given \
Theta, Y_i's are independent and can be parametrized by \Theta.
Then calculate the joint posterior distribution of (\Theta, \Alpha) given
the observed data, and go from there.
只是初步的想法,不知道是否make sense.

【在 t***q 的大作中提到】
: 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每
: 一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得
: 到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之
: 类的算一下),但是一万个website之间的correlation的关系,generally的怎么
: evaluate?
: 盼回复。多谢!

w*******9
发帖数: 1433
13
Can you even test the missing pattern? Mission impossible.

input



【在 t*****2 的大作中提到】
: 您好,小弟是FRESH GRADATE, 最近在工作,在面试的时候很多时候被问到MISSING
: VALUE的问题。我看到你经常在这里解答别人的问题,而且很专业。希望能得到您的答
: 案。
: for example: how to deal with missing value so that it can be used as input
: for model? what if 80% of the data are missing?
: 我就回答了: a)test the pattern of missing value (MCAR/MAR/MNAR)
: test some assumptions (eg. normality, because some datasets
:
: are assumed to be normally distributed)
:

o****o
发帖数: 8077
14
牛啊

【在 P****D 的大作中提到】
: 面试的时候,不要对方问啥你答啥,不喜欢的问题就推回去,也能显示你的能力。
: 对于第一个问题,你就说:这个问题太大了。缺失数据的处理现在已经发展成统计的一
: 个分支方向,绝不是我几句话可以回答得来。要不你们给我一个具体情况,我来说说我
: 会如何处理。
: 这样也显得你考虑问题比较细致,能具体情况具体分析。而且这样具体的问题会容易回
: 答得多。
:
: input
:
:

T*******I
发帖数: 5138
15
Could you please give a data table to show us how you organize your dataset?
Thanks.

【在 t***q 的大作中提到】
: 有一个工作中的一个correlation analysis的问题。有一万个website,每个website每
: 一天观测一个值,也许是user agent>1 的percentage之类的值,然后每个website就得
: 到以天为index的一个vector,每个vector之间有一个correlation(可以用pearson'之
: 类的算一下),但是一万个website之间的correlation的关系,generally的怎么
: evaluate?
: 盼回复。多谢!

P****D
发帖数: 11146
16
Wrong a!
My strategy is a better-than-nothing workaround when people don't know how
to answer a certain question... Real big bulls won't need it.

【在 o****o 的大作中提到】
: 牛啊
1 (共1页)
进入Statistics版参与讨论
相关主题
SAS help needed, interpolating missing valuesmissing data 如何处理?
求推荐稍微advanced且又applied的 linear regression的书[合集] 用SAS or SUDAAN处理人口统计数据的问题
强烈呼唤牛人-question on analysis求教:Cox PH 模型的cluster data处理
请教两个序列的比较问题请教高人
missing data imputation关于power analysis的应用(healthcare industry)
问一些关于mixed model的问题,包子悬赏,不胜感激。问大家一个propensity score matching 的问题
请教做过Multiple Imputation 的牛牛们对于Mixed Linear Model, 如何处理missing covariates?
如何处理这样的missing value?missing data questions
相关话题的讨论汇总
话题: website话题: theta话题: alpha话题: missing