由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 很desperate,求问生物统计牛人一些interview技术问题。。。。
相关主题
##面试过了,问题求解答##proc GLM和proc Reg、proc Genmod的比较
正态分布,请教!Google 面经
Linear regression model 问题请教Unexpected statistical analysis results in Cox regression
如何确定什么情况time series,什么情况linear reg?matlab里怎么做residual是自回归的regression? (转载)
请教一个logistic regression的问题如果不满足normality的假设,还能用proc glm吗?
求教:几个模型的区别怎样用R 来提取 micrarray 中的regressor variable 的值? (转载)
菜鸟提问:用SAS做回归,Reg和GLM最主要的区别是什么?residual~predict plot出现这个样子,说明了什么?
residual deviance 和 dispersion parameternormality test mix model
相关话题的讨论汇总
话题: residual话题: 分布话题: linear话题: models
进入Statistics版参与讨论
1 (共1页)
Q*****T
发帖数: 558
1
背景 是这样的,我是公共卫生(public health)的phd,博士期间做的东西很杂,有
epidemiology,有小型的clinical trial,生统的东西用的相对较多,简历上也写了(
吹嘘??)自己的skill有biostatistics,最近在找工作,过了第一轮技术面(面试内
容偏epidemiology),早上得知被安排在下周一进行第二轮电话面试,对方是public
health牛校的biostatistics博士,毕业后的工作前几年title都是biostatistician。
他来现在这个公司以后,开始是associate,现在的title是manager。
我一直觉得自己的biostat水平接近一个biostat master level的学生,跟biostat的
phd当然还差得很远。具体做工作的时候,用的东西倒是都知道,会用,但是一旦触及
深层次的问题,就很迷糊。我处在有时候觉得自己生统懂得还不少,多数时候觉得自己
水的不行、没啥自信的状态。
我面的这个工作是技术类的consulting公司,title是associate。组里的人是
epidemiology和biostatistics的博士居多。我在简历上写的buzz words有以下几个:
multilevel data analysis (correlated data analysis),generalized linear
regression,propensity score matching,latent class analysis,statistical
learning (这个只是上过课),SAS(用得很多,比较熟),R(没咋用过,非常不熟)
罗嗦了这么多,终于要问关键的问题了,板上的生统牛人能不能帮我brain storm一两
个技术问题??帮助我准备下面试?假如你要面试一个生统的master在你手下干活,除
了问他project相关的问题以外,你会问怎样的生统问题,来考察对方的水平?
类似问题举例(都是我自己空琢磨出来的,也不知道算不算有考察性):
1,在correlated data analysis中,covariance structure常见的有哪几种,都有啥
分别?
2,generalized linear regression中有个assumption是residual is normal
distributed
,在实际分析中这个assumption可以被relax么?为什么?
太罗嗦了。。。。
麻烦大家了!!!!!!
c**********8
发帖数: 38
2
generalized linear regression中有个assumption是data is normal distributed???
?
K******c
发帖数: 619
3
第二个问题你想问什么?
i***y
发帖数: 98
4
呵呵,这也是我想问的
要是normal估计没link function什么事了

??

【在 c**********8 的大作中提到】
: generalized linear regression中有个assumption是data is normal distributed???
: ?

v*******e
发帖数: 11604
5

??
我看楼主确实是有点糊涂,generalized linear regression就是为了对付data is not
normal的情况发明的。比如binomial, Poisson, exponential,etc. 当然normal的情
况也能处理.

【在 c**********8 的大作中提到】
: generalized linear regression中有个assumption是data is normal distributed???
: ?

a***r
发帖数: 2677
6
你统计还没学通就敢往简历上写啊。EPI的PHD还是找偏EPI的工作比较好,拼统计还得
另下工夫。
w**********n
发帖数: 55
7
看了地下回答,lz更desperate了吧....没关系啦,学到一一个新知识嘛,说不定就问到了
呢,加油加油. lz可以去搜下logistic模型有哪些假设,共线性怎么办什么的,都是常见
统计问题
c****u
发帖数: 243
8
1. 2. 这两个都是基本的吧,
1. AR(1),unspecified,uniform correlation,还有identity
Q*****T
发帖数: 558
9
不好意思,下午急急忙忙发帖,没说清楚,我自己编的那个问题是GLM的一个
assumption是residual是normally distributed,不是data是normally distributed。
术语都没写清楚,也的确是学艺不太精。
还请各位大牛指点一二。帮我准备得更加充分。
ps 我面的不是统计职位,只是面试官是生统出身,我简历上又写了几个统计的skill,
我不太expect他主要问我生统的技术问题,我只是怕他问一两个专业的,太细的问题把
我问晕。另一方面,如果我答上来了比较细的问题,哪怕他一开始没指望我能知道,也
能impress他一下。
不管怎么说,多谢啦!

【在 Q*****T 的大作中提到】
: 背景 是这样的,我是公共卫生(public health)的phd,博士期间做的东西很杂,有
: epidemiology,有小型的clinical trial,生统的东西用的相对较多,简历上也写了(
: 吹嘘??)自己的skill有biostatistics,最近在找工作,过了第一轮技术面(面试内
: 容偏epidemiology),早上得知被安排在下周一进行第二轮电话面试,对方是public
: health牛校的biostatistics博士,毕业后的工作前几年title都是biostatistician。
: 他来现在这个公司以后,开始是associate,现在的title是manager。
: 我一直觉得自己的biostat水平接近一个biostat master level的学生,跟biostat的
: phd当然还差得很远。具体做工作的时候,用的东西倒是都知道,会用,但是一旦触及
: 深层次的问题,就很迷糊。我处在有时候觉得自己生统懂得还不少,多数时候觉得自己
: 水的不行、没啥自信的状态。

Q*****T
发帖数: 558
10
就是各位生统大牛你们招master level的手下人的时候,会问ta哪些问题考察ta的
qualifications?
相关主题
求教:几个模型的区别proc GLM和proc Reg、proc Genmod的比较
菜鸟提问:用SAS做回归,Reg和GLM最主要的区别是什么?Google 面经
residual deviance 和 dispersion parameterUnexpected statistical analysis results in Cox regression
进入Statistics版参与讨论
Q*****T
发帖数: 558
11
就是各位生统大牛你们招master level的手下人的时候,会问ta哪些问题考察ta的
qualifications?
t*****a
发帖数: 459
12
我知道的生统领域的一般不是这种问问题的风格(楼主举的例子比较像IT或data
science的提问风格)。生统工作一般直接问你做过什么project,用哪些方法做的,
sample writing, sample codes. phd级别的有的要给个talk讲自己做过的东西和方法
m*******y
发帖数: 36
13
建议你放弃吧,你这个GLM都不懂,描来描去还是错的,充分显示你的统计知识不过关
。。。

【在 Q*****T 的大作中提到】
: 不好意思,下午急急忙忙发帖,没说清楚,我自己编的那个问题是GLM的一个
: assumption是residual是normally distributed,不是data是normally distributed。
: 术语都没写清楚,也的确是学艺不太精。
: 还请各位大牛指点一二。帮我准备得更加充分。
: ps 我面的不是统计职位,只是面试官是生统出身,我简历上又写了几个统计的skill,
: 我不太expect他主要问我生统的技术问题,我只是怕他问一两个专业的,太细的问题把
: 我问晕。另一方面,如果我答上来了比较细的问题,哪怕他一开始没指望我能知道,也
: 能impress他一下。
: 不管怎么说,多谢啦!

z*******e
发帖数: 3
14
我如果告诉你其实GLM的residual也不是normally distributed你会郁闷么。。。

【在 Q*****T 的大作中提到】
: 不好意思,下午急急忙忙发帖,没说清楚,我自己编的那个问题是GLM的一个
: assumption是residual是normally distributed,不是data是normally distributed。
: 术语都没写清楚,也的确是学艺不太精。
: 还请各位大牛指点一二。帮我准备得更加充分。
: ps 我面的不是统计职位,只是面试官是生统出身,我简历上又写了几个统计的skill,
: 我不太expect他主要问我生统的技术问题,我只是怕他问一两个专业的,太细的问题把
: 我问晕。另一方面,如果我答上来了比较细的问题,哪怕他一开始没指望我能知道,也
: 能impress他一下。
: 不管怎么说,多谢啦!

Q*****T
发帖数: 558
15
太感谢了。。如果是这种风格的面试,我大概可以勉强应付。说白了我的统计就是会
data management,会针对数据和study aims用模型分析,会解释结果。 但是具体应用
后面深层次点的内容的确很水,很不懂。

【在 t*****a 的大作中提到】
: 我知道的生统领域的一般不是这种问问题的风格(楼主举的例子比较像IT或data
: science的提问风格)。生统工作一般直接问你做过什么project,用哪些方法做的,
: sample writing, sample codes. phd级别的有的要给个talk讲自己做过的东西和方法
: 。

Q*****T
发帖数: 558
16
lz对统计的迷惑程度估计已经被各位笑掉大牙了。。。其实我有挺多东西不懂(虽然其
实日常工作中也基本用不到),但是仍然很想搞清楚的。。。
1,被你们拍砖说GLM的residual不一定是正态分布以后,我google了一下,学习了
residual的分布跟response variable的分布相关,譬如data是binary,那residual就
是binomial。那么问题来了,http://www.mun.ca/biology/dschneider/b7932/B7932Final10Dec2008.pdf 这篇文章第二页第六行,说model fit improvement是chi-square distribution (关于这点我也是一知半解,我课上跟老师做过nested model comparison,就是用两个model的-2log likelihood的差,再用degree of freedom的差,用chisquare statistics比较两个model是不是有显著不同),然后这篇文章还是第二页,第13行说到“The importance of normality of residuals in GLMs, on the
other hand, is debated.” 这里的normality of residual是什么意思呢?如果打字
解释太冗长的话,可否丢几个文章、网页link让我学习一下?
2, f(y) = a + bx1 +cx2 + residual 是不是一个assumption是x1和x2是multivariate
normally distributed?然后residual的分布永远跟y的分布相同(或相关?)
3,上面模型中,b和c的point estimate是用OLS或者Maximum likelihood的方法估计出
来的(这种说法对吗??),而b和c的confidence interval是怎么估计出来的?CI的
估计是根据y 的分布(i.e. residual的分布)估计出来的,还是永远是根据正态分布
估计出来的?b,c的point estimate和CI估计跟x1和X2的数据类型有关吗(numerical
vs categorical)?
4,重学probability theory会不会让我的人生更光明一点???还是我太执着了。。
还不如再去读个统计的博士好了。。。?????
i***y
发帖数: 98
17
2, f(y) = a + bx1 +cx2 + residual 是不是一个assumption是x1和x2是multivariate
normally distributed?然后residual的分布永远跟y的分布相同(或相关?)
面试要这么说的话,估计要挂
i***y
发帖数: 98
18
1.说model fit improvement是chi-square distribution (关于这点我也是一知半解
,我课上跟老师做过nested model comparison,就是用两个model的-2log
likelihood的差,再用degree of freedom的差,用chisquare statistics比较两个
model是不是有显著不同)
likelihood ratio test
然后这篇文章还是第二页,第13行说到“The importance of normality of residuals
in GLMs, on the
other hand, is debated.”
means some people don't care the residual in GLM
try to read this book:An Introduction to Generalized Linear Models
3.上面模型中,b和c的point estimate是用OLS或者Maximum likelihood的方法估计出
来的(这种说法对吗??),
If you assume independence, equal variance, normality, then mle is the same
as lse for beta0, beta1 and beta2
而b和c的confidence interval是怎么估计出来的?
the estimators for these two follow a t distribution
b,c的point estimate和CI估计跟x1和X2的数据类型有关吗(numerical
vs categorical)?
if x1 and x2 are both categorical, there may be some non-estimable issue.
such as in one way anova, the general mean is not estimable.
Q*****T
发帖数: 558
19
然后这篇文章还是第二页,第13行说到“The importance of normality of residuals
in GLMs, on the
other hand, is debated.”
means some people don't care the residual in GLM
------> 我懂这句话的意思是说GLM中residual的normality不是太重要。但我的主要问
题是,为什么GLM的residual本来就不一定是正态分布(如logistic regression),为
什么还在讨论GLM中residual的normality是不是重要这件事呢?这两个residual是同一
个residual吗?

residuals

【在 i***y 的大作中提到】
: 1.说model fit improvement是chi-square distribution (关于这点我也是一知半解
: ,我课上跟老师做过nested model comparison,就是用两个model的-2log
: likelihood的差,再用degree of freedom的差,用chisquare statistics比较两个
: model是不是有显著不同)
: likelihood ratio test
: 然后这篇文章还是第二页,第13行说到“The importance of normality of residuals
: in GLMs, on the
: other hand, is debated.”
: means some people don't care the residual in GLM
: try to read this book:An Introduction to Generalized Linear Models

Q*****T
发帖数: 558
20
这不是在学习嘛,面试怎么会问面试官这种问题。请问,这种说法为啥不对呢?
我想问的其实是,residual的分布和y的分布,generally来说,是什麽关系。譬如Y是
continuous,那residual就是正态分布(如果y的分布未知的话,可以用boostrapping
等resampling method去估计y的分布,估计出来的y的分布也就是residual的分布---
对吗对吗对吗?不对的话为啥不对??);Y=binary,residual=binomial;Y=
multinomial, residual=multinomial。
归根结底我的问题是,residual的分布是不是跟Y有一等一的关系(唯一映射)??

multivariate

【在 i***y 的大作中提到】
: 2, f(y) = a + bx1 +cx2 + residual 是不是一个assumption是x1和x2是multivariate
: normally distributed?然后residual的分布永远跟y的分布相同(或相关?)
: 面试要这么说的话,估计要挂

相关主题
matlab里怎么做residual是自回归的regression? (转载)residual~predict plot出现这个样子,说明了什么?
如果不满足normality的假设,还能用proc glm吗?normality test mix model
怎样用R 来提取 micrarray 中的regressor variable 的值? (转载)ordinary linear regression assume数据是Normal distribution么?
进入Statistics版参与讨论
Q*****T
发帖数: 558
21
3.上面模型中,b和c的point estimate是用OLS或者Maximum likelihood的方法估计出
来的(这种说法对吗??),
If you assume independence, equal variance, normality, then mle is the same
as lse for beta0, beta1 and beta2
而b和c的confidence interval是怎么估计出来的?
the estimators for these two follow a t distribution
------>>>>>
所以b,c的分布永远是t-distribution,跟y的分布,以及跟究竟是用LSE还是MLE无关
是嘛?
还是说b,c的分布跟y的分布有关?
为什么在一个关于resampling method的讨论上,我记得有个说法是(当然很可能是我
记错了,或者根本就理解错了),如果y的分布未知(或者实际上是Y的分布的
parameters未知??),那么想得到coefficient的CI的话,可以用bootstrap去把这个
CI boostrap出来?
y的分布未知,和y的分布的parameters未知,这两个statements等价吗?

residuals

【在 i***y 的大作中提到】
: 1.说model fit improvement是chi-square distribution (关于这点我也是一知半解
: ,我课上跟老师做过nested model comparison,就是用两个model的-2log
: likelihood的差,再用degree of freedom的差,用chisquare statistics比较两个
: model是不是有显著不同)
: likelihood ratio test
: 然后这篇文章还是第二页,第13行说到“The importance of normality of residuals
: in GLMs, on the
: other hand, is debated.”
: means some people don't care the residual in GLM
: try to read this book:An Introduction to Generalized Linear Models

h***i
发帖数: 3844
22
网上找一些lecture 看看,或者找本书读读,比在这里问强多了。真的

boostrapping

【在 Q*****T 的大作中提到】
: 这不是在学习嘛,面试怎么会问面试官这种问题。请问,这种说法为啥不对呢?
: 我想问的其实是,residual的分布和y的分布,generally来说,是什麽关系。譬如Y是
: continuous,那residual就是正态分布(如果y的分布未知的话,可以用boostrapping
: 等resampling method去估计y的分布,估计出来的y的分布也就是residual的分布---
: 对吗对吗对吗?不对的话为啥不对??);Y=binary,residual=binomial;Y=
: multinomial, residual=multinomial。
: 归根结底我的问题是,residual的分布是不是跟Y有一等一的关系(唯一映射)??
:
: multivariate

Q*****T
发帖数: 558
23
我也想系统的学习一下,可是该去看什么书或者lecture呢?introduction to
biostatistics,还有intermediate biostatistics我都上过课,correlated data
analysis,statistics in clinical trials我也上过课。
我感觉但凡是目标给非stats专业的学生或工作者的biostats的书,都解决不了我的疑
问。
求推荐书!!!!!
下面是从ATS.UCLA.EDU上找到的关于GLM的书单。有没有哪本是格外推荐的??
An Introduction to Generalized Linear Models, Second Edition by Annette J.
Dobson Read it Online! (UC Only)
An Introduction to Generalized Linear Models by George H. Dunteman and Moon-
Ho R. Ho
Generalized, Linear, and Mixed Models by Charles E. McCulloch and Shayle R.
Searle
Generalized Estimating Equations, Second Edition by James W. Hardin and
Joseph M. Hilbe
Generalized Estimating Equations by James W. Hardin and Joseph M. Hilbe
Generalized Linear Models: A Unified Approach by Jeff Gill
Generalized Linear Models, Second Edition by P. McCullagh and J. A. Nelder
Generalized Linear Models: An Applied Approach by Ulf Olsson
Generalized Linear Models: An Applied Approach by John P. Hoffmann
Generalized Linear Models with Applications in Engineering and the Sciences,
Second Edition by Raymond H. Myers, Douglas C. Montgomery, G. Geoffery
Vining, and Timothy J. Robinson

【在 h***i 的大作中提到】
: 网上找一些lecture 看看,或者找本书读读,比在这里问强多了。真的
:
: boostrapping

K******c
发帖数: 619
24
https://www.youtube.com/watch?v=HXTeJfIQXUc
https://www.youtube.com/watch?v=vpKpFMUMaVw

Moon-

【在 Q*****T 的大作中提到】
: 我也想系统的学习一下,可是该去看什么书或者lecture呢?introduction to
: biostatistics,还有intermediate biostatistics我都上过课,correlated data
: analysis,statistics in clinical trials我也上过课。
: 我感觉但凡是目标给非stats专业的学生或工作者的biostats的书,都解决不了我的疑
: 问。
: 求推荐书!!!!!
: 下面是从ATS.UCLA.EDU上找到的关于GLM的书单。有没有哪本是格外推荐的??
: An Introduction to Generalized Linear Models, Second Edition by Annette J.
: Dobson Read it Online! (UC Only)
: An Introduction to Generalized Linear Models by George H. Dunteman and Moon-

h***i
发帖数: 3844
25
这里随便找一本,都足够了

Moon-

【在 Q*****T 的大作中提到】
: 我也想系统的学习一下,可是该去看什么书或者lecture呢?introduction to
: biostatistics,还有intermediate biostatistics我都上过课,correlated data
: analysis,statistics in clinical trials我也上过课。
: 我感觉但凡是目标给非stats专业的学生或工作者的biostats的书,都解决不了我的疑
: 问。
: 求推荐书!!!!!
: 下面是从ATS.UCLA.EDU上找到的关于GLM的书单。有没有哪本是格外推荐的??
: An Introduction to Generalized Linear Models, Second Edition by Annette J.
: Dobson Read it Online! (UC Only)
: An Introduction to Generalized Linear Models by George H. Dunteman and Moon-

z*****n
发帖数: 413
26
1. 没法解释。还是看书吧。这个跟计算,esitmator的好赖相关,
2。glm对independent variable的分布没有假设。假设的是Y|X是什么分布。
3。你的esitmator for b c,可以写成f(Y)。Y是有分布的,f(Y)就有。如果Y是normal
的。b,c符合t分布。如果不是,一般都可以approximate normal
4. 既然是epidemiology的背景。那就看看categorical data analysis吧。

multivariate

【在 Q*****T 的大作中提到】
: lz对统计的迷惑程度估计已经被各位笑掉大牙了。。。其实我有挺多东西不懂(虽然其
: 实日常工作中也基本用不到),但是仍然很想搞清楚的。。。
: 1,被你们拍砖说GLM的residual不一定是正态分布以后,我google了一下,学习了
: residual的分布跟response variable的分布相关,譬如data是binary,那residual就
: 是binomial。那么问题来了,http://www.mun.ca/biology/dschneider/b7932/B7932Final10Dec2008.pdf 这篇文章第二页第六行,说model fit improvement是chi-square distribution (关于这点我也是一知半解,我课上跟老师做过nested model comparison,就是用两个model的-2log likelihood的差,再用degree of freedom的差,用chisquare statistics比较两个model是不是有显著不同),然后这篇文章还是第二页,第13行说到“The importance of normality of residuals in GLMs, on the
: other hand, is debated.” 这里的normality of residual是什么意思呢?如果打字
: 解释太冗长的话,可否丢几个文章、网页link让我学习一下?
: 2, f(y) = a + bx1 +cx2 + residual 是不是一个assumption是x1和x2是multivariate
: normally distributed?然后residual的分布永远跟y的分布相同(或相关?)
: 3,上面模型中,b和c的point estimate是用OLS或者Maximum likelihood的方法估计出

F*P
发帖数: 3204
27
我领导说,generalized or general, 这是一个问题。

??

【在 c**********8 的大作中提到】
: generalized linear regression中有个assumption是data is normal distributed???
: ?

t*****a
发帖数: 459
28
如果不是纯统计职位也不用太纠结统计知识细节。咨询公司里有的epi的职位比生统地
位还要高(一个生统非常resentful地跟我说地。。。)和生统面试的话,我觉得最重
要的就是要表现出对生统的重视和景仰就好了,哈哈。
c*****m
发帖数: 4817
29
你既然是public health的phd,那就好好找public health方面的工作好了, 懂一些统
计的东西对你来说是个bonus. 但你干嘛那么纠结统计知识的细节呢,你又不是学统计
的也不需要很懂啊.
坦率的说, 从你的问题来看, 你的水平比统计master还是差挺多的。
不谈bayes, 传统统计学里面, linear model:
y = a + bx1 + cx2 + error
error term是个随即变量,前面a, b, c, x1, x2都不是,y是rv是因为error term,所
以他们的分布是一样的. x1, x2不是随即变量,也没有分布. 参数(abc)的估计值是y的
涵数f(y),因此也是随即变量。 residual是observed y and estimated y的差, 因此
也是随即变量.
这都是统计里面很基本的东西。

multivariate

【在 Q*****T 的大作中提到】
: lz对统计的迷惑程度估计已经被各位笑掉大牙了。。。其实我有挺多东西不懂(虽然其
: 实日常工作中也基本用不到),但是仍然很想搞清楚的。。。
: 1,被你们拍砖说GLM的residual不一定是正态分布以后,我google了一下,学习了
: residual的分布跟response variable的分布相关,譬如data是binary,那residual就
: 是binomial。那么问题来了,http://www.mun.ca/biology/dschneider/b7932/B7932Final10Dec2008.pdf 这篇文章第二页第六行,说model fit improvement是chi-square distribution (关于这点我也是一知半解,我课上跟老师做过nested model comparison,就是用两个model的-2log likelihood的差,再用degree of freedom的差,用chisquare statistics比较两个model是不是有显著不同),然后这篇文章还是第二页,第13行说到“The importance of normality of residuals in GLMs, on the
: other hand, is debated.” 这里的normality of residual是什么意思呢?如果打字
: 解释太冗长的话,可否丢几个文章、网页link让我学习一下?
: 2, f(y) = a + bx1 +cx2 + residual 是不是一个assumption是x1和x2是multivariate
: normally distributed?然后residual的分布永远跟y的分布相同(或相关?)
: 3,上面模型中,b和c的point estimate是用OLS或者Maximum likelihood的方法估计出

l******d
发帖数: 168
30
glm一般对于normality都比较rubust,所以很多人不care吧
1 (共1页)
进入Statistics版参与讨论
相关主题
normality test mix model请教一个logistic regression的问题
ordinary linear regression assume数据是Normal distribution么?求教:几个模型的区别
请教 这个GLM问题如何回答菜鸟提问:用SAS做回归,Reg和GLM最主要的区别是什么?
一道统计面试题residual deviance 和 dispersion parameter
##面试过了,问题求解答##proc GLM和proc Reg、proc Genmod的比较
正态分布,请教!Google 面经
Linear regression model 问题请教Unexpected statistical analysis results in Cox regression
如何确定什么情况time series,什么情况linear reg?matlab里怎么做residual是自回归的regression? (转载)
相关话题的讨论汇总
话题: residual话题: 分布话题: linear话题: models