a********e 发帖数: 78 | 1 我想建立一个模型, 需要预测量是一个工程的实际花费.
自变量的类型包括以下几种类型
1) 连续变量
2)一些 binary 变量, (0, 1)
3) 一些 categorical变量, 比如 (0, 100, 100.1, 81.94); 这里有一些
categorical变量应该是存在内在order的
请问如何把它们统一在一个model里. 一般的回归模型可以处理这种情况吗? 一般还有
什么比较好的 可以试。 |
c***z 发帖数: 6348 | 2 take a look
http://www.uta.edu/faculty/kunovich/Soci5304_Handouts/Topic%208_Dummy%20Variables.doc
you can definitely try OLS, if the assumptions are met (or roughly met)
plot the data to see outliers, truncations, correlations, etc |
a********e 发帖数: 78 | 3 非常感谢, 资料很有用。
另外还有一个问题, 数据量大概有300个记录, 每个记录可能会有两百个 feature。
显然很多feature会被扔掉从domain knowledge的角度。 但仍然可能会保有100个左右
的feature。 从统计的角度可以 stepwise的选, 但还有什么办法呢。 基于经验来说
, 对于300个记录这样的数据量, 一般多少feature(可能包括高阶)对于回归模型
合适。
【在 c***z 的大作中提到】 : take a look : http://www.uta.edu/faculty/kunovich/Soci5304_Handouts/Topic%208_Dummy%20Variables.doc : you can definitely try OLS, if the assumptions are met (or roughly met) : plot the data to see outliers, truncations, correlations, etc
|
c***z 发帖数: 6348 | 4 1. ridge or lasso
2. PCA if your clients know math
try glmnet in R |
T*****u 发帖数: 7103 | |
P*****6 发帖数: 273 | 6 如果用glmnet的话, 好像有elastic net. 它比lasso会保留更多的变量
无论lasso or elastic net, they are biased. 如果你的features小于100的话,AIC
and BIC for generally linear regression may be also OK.
【在 T*****u 的大作中提到】 : 我会试试tree
|
a********e 发帖数: 78 | 7 请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。 谢谢。 |
n*****3 发帖数: 1584 | 8 all these shrinkage approach are biased with penalized term.
it is all about optimization with Bias-variance tradeoff
【在 a********e 的大作中提到】 : 请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。 谢谢。
|
a*z 发帖数: 294 | 9 try PCA or clustering first. |
P*****6 发帖数: 273 | 10 就是预测的期望值和实际值会有偏差,但是可能本身的自我误差比较小,所以high
dimension features反而可能比较准。就是上面有人提到的trade-off.
【在 a********e 的大作中提到】 : 请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。 谢谢。
|
|
|
a*****r 发帖数: 4 | 11 IBM Modeler can to do auto model selection
【在 a********e 的大作中提到】 : 我想建立一个模型, 需要预测量是一个工程的实际花费. : 自变量的类型包括以下几种类型 : 1) 连续变量 : 2)一些 binary 变量, (0, 1) : 3) 一些 categorical变量, 比如 (0, 100, 100.1, 81.94); 这里有一些 : categorical变量应该是存在内在order的 : 请问如何把它们统一在一个model里. 一般的回归模型可以处理这种情况吗? 一般还有 : 什么比较好的 可以试。
|
h*****7 发帖数: 6781 | 12 elastic net介于ridge和lasso之间
总体来说我倾向lasso选,ridge测
毕竟这两个可以用概率论解释,更加analytical,parameter也少一些 |
T*****u 发帖数: 7103 | 13 讲讲lasso选和ridge测的关系好吗
【在 h*****7 的大作中提到】 : elastic net介于ridge和lasso之间 : 总体来说我倾向lasso选,ridge测 : 毕竟这两个可以用概率论解释,更加analytical,parameter也少一些
|
h*****7 发帖数: 6781 | 14 对高维而言,lasso是拥有convex解的最sparse的方法,能在闭合解状态下最大限度的
选出优质feature,对应贝叶斯的超高斯先验。
这些都是典型的高维选特征方法。它以牺牲goodness of fitting来换取feature的鲁棒
性抑制overfitting。简言之就是用bias换variance,还不是NP hard。
ridge应用于预测,对应于高斯先验,均衡bias和variance的表现是多年证实的。选定
feature了,用ridge做预测,睡的香!
【在 T*****u 的大作中提到】 : 讲讲lasso选和ridge测的关系好吗
|
T*****u 发帖数: 7103 | 15 多谢!有啥阅读材料推荐一下吗?
【在 h*****7 的大作中提到】 : 对高维而言,lasso是拥有convex解的最sparse的方法,能在闭合解状态下最大限度的 : 选出优质feature,对应贝叶斯的超高斯先验。 : 这些都是典型的高维选特征方法。它以牺牲goodness of fitting来换取feature的鲁棒 : 性抑制overfitting。简言之就是用bias换variance,还不是NP hard。 : ridge应用于预测,对应于高斯先验,均衡bias和variance的表现是多年证实的。选定 : feature了,用ridge做预测,睡的香!
|
h*****7 发帖数: 6781 | 16 这些都是我个人的理解
其实看lasso文章就好
【在 T*****u 的大作中提到】 : 多谢!有啥阅读材料推荐一下吗?
|