由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 线性回归中log tranformation
相关主题
一般什么样的数据,分析起来要做log transformation?a question on transformation
请教:R或Matlab里怎么求inverse continuous Fourier transformtransformation
[合集] 统计硕士在Pharmaceuticals都做什么啊?Re: help, how to make a data normal?
y = a + b * (c ^ x)[合集] 纺锤型的残差图代表什么意思?
[sas] 怎么用自定义format里的值来计算?what is statistic score
求助:为什么box-cox transformed 后的varibale 不normal[合集] linear regression的问题
How to transform predictor variable?发包子请人review我的syllabus - stochastics
请问各位能人一个data transformation的问题[合集] how to prove this problem ?
相关话题的讨论汇总
话题: log话题: exp话题: sigma话题: variable
进入Statistics版参与讨论
1 (共1页)
r******n
发帖数: 351
1
对dependent variable做一个log tranformation:
log(y) = XB + e,
where y is my dependent variable and X is my vector of independent
variables.
Now, from this regression I would like to obtain fitted/predicted
values for y.
I understand that E(y) is not equal to exp(E(log(y))).
Is the correct fitted value:
E(y) = exp( E(y) + (sigma^2)/2 ),
where sigma is the standard deviation of the error?
Is there a closed form method for obtaining the expected value
q********i
发帖数: 795
2
你的期望值好像有点不对啊,
z=log(y), 那么 Z 是 N(XB,sigma^2)
E(y)=E(exp(Z))
用泰勒级数展开后应该是
E(y)=exp(XB)(1+(sigma^2)/2)
s*****n
发帖数: 2174
3
你首先应该考虑一个问题, 计算E(y)的意义是什么
对于正态的分布(或者对称的分布), E(y)是描述
分布中心位置的参数. 对于某些其他的分布(比如泊松)
其代表一定的实际意义(可直白解释).
你之所以要做log transformation, 就是由于
原数据的特征不符合直接做回归的条件,
比如asymmetric, long-tail, 等等.
对于这样的distribution, 计算E(y)有什么意义呢,
E(y)有什么实际的meaning? 它既不代表分布的中心
特征, 又不代表任何可解释的意义. 即使数学上可
以推导具体的形式(比如用Taylor展开), 如果没有
实际意义的话, 计算E(y)也是毫无价值的.
这种情况, 一般都是考虑新的变量Z=log(Y), 然后
讨论Z的性质, 比如E(Z)什么的, 彻底忘掉Y和E(Y).

【在 r******n 的大作中提到】
: 对dependent variable做一个log tranformation:
: log(y) = XB + e,
: where y is my dependent variable and X is my vector of independent
: variables.
: Now, from this regression I would like to obtain fitted/predicted
: values for y.
: I understand that E(y) is not equal to exp(E(log(y))).
: Is the correct fitted value:
: E(y) = exp( E(y) + (sigma^2)/2 ),
: where sigma is the standard deviation of the error?

r******n
发帖数: 351
4
很有道理。我想这也是在统计学上这方面(back tranformation)讨论不多的原因。
但是在工业界里,E(y)确实有些用。 比如我们现在就想预测y (比如说是revenue),
讨论统计学上的意义也是为了最终更好的预测y (或者说求E(y))。 所以这个转换就非
常必要了。

【在 s*****n 的大作中提到】
: 你首先应该考虑一个问题, 计算E(y)的意义是什么
: 对于正态的分布(或者对称的分布), E(y)是描述
: 分布中心位置的参数. 对于某些其他的分布(比如泊松)
: 其代表一定的实际意义(可直白解释).
: 你之所以要做log transformation, 就是由于
: 原数据的特征不符合直接做回归的条件,
: 比如asymmetric, long-tail, 等等.
: 对于这样的distribution, 计算E(y)有什么意义呢,
: E(y)有什么实际的meaning? 它既不代表分布的中心
: 特征, 又不代表任何可解释的意义. 即使数学上可

s*****n
发帖数: 2174
5
所谓工业界里面希望求E(y), 无非就是人们已经习惯了"average"这个概念,
从而把这个概念应用到各个细节, 不管所谓的"average"到底合理不合理.
比如你说的例子, 想预测revenue, 但是只有log(revenue)才好用.
这种情况从纯统计来说, 根本就不应该来预测y, 只应该预测log(y), 或者
说人们看到revenue, 脑子里面就应该想成是log(reveune), 遇到reveune
就自动取log, 根本没有原始revenue的概念. 你的project中, 讨论的永远
是log(revenue), 根本不存在back-trans的问题. 当然这是理想情况, 现实中, 你未必
能说服你的manager把脑筋转过来. 这种情况下, 如果实在无法说服别人,
那就凑合transform回去好了, 不过麻烦的问题是, 你manager有可能问你,
"我自己把原数据取了个平均, 为什么和你给我fit的差这么远呢?" 这种情况
你还得费很大力气给他解释为什么 E(Y) =/= exp(E(log(Y))).
当然也有其他的方法, 比如用glm什么的. 只要结果能

【在 r******n 的大作中提到】
: 很有道理。我想这也是在统计学上这方面(back tranformation)讨论不多的原因。
: 但是在工业界里,E(y)确实有些用。 比如我们现在就想预测y (比如说是revenue),
: 讨论统计学上的意义也是为了最终更好的预测y (或者说求E(y))。 所以这个转换就非
: 常必要了。

s*r
发帖数: 2757
6
you won't get e(y) anyway
you will only get estimate of y for each observation
if it is a mle, you can estimate the mle for the function of e(y) easily

【在 r******n 的大作中提到】
: 对dependent variable做一个log tranformation:
: log(y) = XB + e,
: where y is my dependent variable and X is my vector of independent
: variables.
: Now, from this regression I would like to obtain fitted/predicted
: values for y.
: I understand that E(y) is not equal to exp(E(log(y))).
: Is the correct fitted value:
: E(y) = exp( E(y) + (sigma^2)/2 ),
: where sigma is the standard deviation of the error?

s*r
发帖数: 2757
7
in logistic regression, people use exp transformation of the regression
coefficient to get OR all the time.

【在 s*****n 的大作中提到】
: 你首先应该考虑一个问题, 计算E(y)的意义是什么
: 对于正态的分布(或者对称的分布), E(y)是描述
: 分布中心位置的参数. 对于某些其他的分布(比如泊松)
: 其代表一定的实际意义(可直白解释).
: 你之所以要做log transformation, 就是由于
: 原数据的特征不符合直接做回归的条件,
: 比如asymmetric, long-tail, 等等.
: 对于这样的distribution, 计算E(y)有什么意义呢,
: E(y)有什么实际的meaning? 它既不代表分布的中心
: 特征, 又不代表任何可解释的意义. 即使数学上可

h******a
发帖数: 198
8
可以直接硬算啊
E(y) = exp(x*beta)*E(exp(e))
s*****n
发帖数: 2174
9
tranformation没有问题, 单点对单点.
不存在求E()这类概念就可以.
再说logistic regression 的情况和这个不一样.
那个不是对原始数据{0,1}进行transformation,
而是引入了一个概念性的probability.
而且对于这个probability的引申函数log(OR)进行
fit, 从来也没人讨论什么OR的expectation吧.

【在 s*r 的大作中提到】
: in logistic regression, people use exp transformation of the regression
: coefficient to get OR all the time.

j*****e
发帖数: 182
10
qiqiandlei (yubaobao) is right.songkun is wrong. We are dealing with the
mean of a transformed r.v., not a transformed mean. OR is a parameter, not a
r.v.
You need to use Taylor expansion to compute the mean. The higher the order,
the more acurate it would be.
s****s
发帖数: 368
11
It's a very common problem in health economics to estimate E(Y). Please see
Duan (JASA 1983) for the smearing estimate.
r******n
发帖数: 351
12
对,可以这样做。这个跟我在帖子里写的公式
E(y) = exp( E(y') + (sigma^2)/2 )
应该是等价的。

【在 h******a 的大作中提到】
: 可以直接硬算啊
: E(y) = exp(x*beta)*E(exp(e))

g*******y
发帖数: 380
13
The Prof. who taught us used this in SAS anyway.

【在 r******n 的大作中提到】
: 对,可以这样做。这个跟我在帖子里写的公式
: E(y) = exp( E(y') + (sigma^2)/2 )
: 应该是等价的。

D*****a
发帖数: 2847
14
E(x) has a much much deeper meaning. Not just a industry "convention".
But in this application, as you said, E(x) may not be the variable
of interest.

【在 s*****n 的大作中提到】
: 所谓工业界里面希望求E(y), 无非就是人们已经习惯了"average"这个概念,
: 从而把这个概念应用到各个细节, 不管所谓的"average"到底合理不合理.
: 比如你说的例子, 想预测revenue, 但是只有log(revenue)才好用.
: 这种情况从纯统计来说, 根本就不应该来预测y, 只应该预测log(y), 或者
: 说人们看到revenue, 脑子里面就应该想成是log(reveune), 遇到reveune
: 就自动取log, 根本没有原始revenue的概念. 你的project中, 讨论的永远
: 是log(revenue), 根本不存在back-trans的问题. 当然这是理想情况, 现实中, 你未必
: 能说服你的manager把脑筋转过来. 这种情况下, 如果实在无法说服别人,
: 那就凑合transform回去好了, 不过麻烦的问题是, 你manager有可能问你,
: "我自己把原数据取了个平均, 为什么和你给我fit的差这么远呢?" 这种情况

1 (共1页)
进入Statistics版参与讨论
相关主题
[合集] how to prove this problem ?[sas] 怎么用自定义format里的值来计算?
紧急求助: R heatmap求助:为什么box-cox transformed 后的varibale 不normal
发一个统计part-time的jobHow to transform predictor variable?
求助,如果x是正态分布,那么1/x的mean和std怎么算?请问各位能人一个data transformation的问题
一般什么样的数据,分析起来要做log transformation?a question on transformation
请教:R或Matlab里怎么求inverse continuous Fourier transformtransformation
[合集] 统计硕士在Pharmaceuticals都做什么啊?Re: help, how to make a data normal?
y = a + b * (c ^ x)[合集] 纺锤型的残差图代表什么意思?
相关话题的讨论汇总
话题: log话题: exp话题: sigma话题: variable