由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 请问这样的数据应该用什么样的模型适合。
相关主题
feature selection的方法求教请教大家一个做feature的问题
一道药厂computational biology的面试题f.t."我不会编程"
有没有大牛来classifiy一下 PCA用法吗?报面筋求实习合租 (转载)
问个feature selection的问题借版面问个machine learning的问题
请教一个用R做cox regression的问题刚入行新人的两个问题
这类问题咋回答model selection problem
PCA 可以用在mixture of continuous 和categorical variables (转载)问个time series forecasting的问题 (转载)
大家对于有很多value的categorical feature都怎么处理?请教一个facebook的面试题
相关话题的讨论汇总
话题: lasso话题: 变量话题: 模型话题: ridge话题: feature
进入DataSciences版参与讨论
1 (共1页)
a********e
发帖数: 78
1
我想建立一个模型, 需要预测量是一个工程的实际花费.
自变量的类型包括以下几种类型
1) 连续变量
2)一些 binary 变量, (0, 1)
3) 一些 categorical变量,   比如 (0, 100, 100.1, 81.94); 这里有一些
categorical变量应该是存在内在order的
请问如何把它们统一在一个model里. 一般的回归模型可以处理这种情况吗? 一般还有
什么比较好的 可以试。
c***z
发帖数: 6348
2
take a look
http://www.uta.edu/faculty/kunovich/Soci5304_Handouts/Topic%208_Dummy%20Variables.doc
you can definitely try OLS, if the assumptions are met (or roughly met)
plot the data to see outliers, truncations, correlations, etc
a********e
发帖数: 78
3
非常感谢, 资料很有用。
另外还有一个问题, 数据量大概有300个记录, 每个记录可能会有两百个 feature。
显然很多feature会被扔掉从domain knowledge的角度。 但仍然可能会保有100个左右
的feature。 从统计的角度可以 stepwise的选, 但还有什么办法呢。 基于经验来说
, 对于300个记录这样的数据量, 一般多少feature(可能包括高阶)对于回归模型
合适。

【在 c***z 的大作中提到】
: take a look
: http://www.uta.edu/faculty/kunovich/Soci5304_Handouts/Topic%208_Dummy%20Variables.doc
: you can definitely try OLS, if the assumptions are met (or roughly met)
: plot the data to see outliers, truncations, correlations, etc

c***z
发帖数: 6348
4
1. ridge or lasso
2. PCA if your clients know math
try glmnet in R
T*****u
发帖数: 7103
5
我会试试tree
P*****6
发帖数: 273
6
如果用glmnet的话, 好像有elastic net. 它比lasso会保留更多的变量
无论lasso or elastic net, they are biased. 如果你的features小于100的话,AIC
and BIC for generally linear regression may be also OK.

【在 T*****u 的大作中提到】
: 我会试试tree
a********e
发帖数: 78
7
请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。 谢谢。
n*****3
发帖数: 1584
8
all these shrinkage approach are biased with penalized term.
it is all about optimization with Bias-variance tradeoff

【在 a********e 的大作中提到】
: 请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。 谢谢。
a*z
发帖数: 294
9
try PCA or clustering first.
P*****6
发帖数: 273
10
就是预测的期望值和实际值会有偏差,但是可能本身的自我误差比较小,所以high
dimension features反而可能比较准。就是上面有人提到的trade-off.

【在 a********e 的大作中提到】
: 请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。 谢谢。
相关主题
这类问题咋回答请教大家一个做feature的问题
PCA 可以用在mixture of continuous 和categorical variables (转载)f.t."我不会编程"
大家对于有很多value的categorical feature都怎么处理?报面筋求实习合租 (转载)
进入DataSciences版参与讨论
a*****r
发帖数: 4
11
IBM Modeler can to do auto model selection

【在 a********e 的大作中提到】
: 我想建立一个模型, 需要预测量是一个工程的实际花费.
: 自变量的类型包括以下几种类型
: 1) 连续变量
: 2)一些 binary 变量, (0, 1)
: 3) 一些 categorical变量,   比如 (0, 100, 100.1, 81.94); 这里有一些
: categorical变量应该是存在内在order的
: 请问如何把它们统一在一个model里. 一般的回归模型可以处理这种情况吗? 一般还有
: 什么比较好的 可以试。

h*****7
发帖数: 6781
12
elastic net介于ridge和lasso之间
总体来说我倾向lasso选,ridge测
毕竟这两个可以用概率论解释,更加analytical,parameter也少一些
T*****u
发帖数: 7103
13
讲讲lasso选和ridge测的关系好吗

【在 h*****7 的大作中提到】
: elastic net介于ridge和lasso之间
: 总体来说我倾向lasso选,ridge测
: 毕竟这两个可以用概率论解释,更加analytical,parameter也少一些

h*****7
发帖数: 6781
14
对高维而言,lasso是拥有convex解的最sparse的方法,能在闭合解状态下最大限度的
选出优质feature,对应贝叶斯的超高斯先验。
这些都是典型的高维选特征方法。它以牺牲goodness of fitting来换取feature的鲁棒
性抑制overfitting。简言之就是用bias换variance,还不是NP hard。
ridge应用于预测,对应于高斯先验,均衡bias和variance的表现是多年证实的。选定
feature了,用ridge做预测,睡的香!

【在 T*****u 的大作中提到】
: 讲讲lasso选和ridge测的关系好吗
T*****u
发帖数: 7103
15
多谢!有啥阅读材料推荐一下吗?

【在 h*****7 的大作中提到】
: 对高维而言,lasso是拥有convex解的最sparse的方法,能在闭合解状态下最大限度的
: 选出优质feature,对应贝叶斯的超高斯先验。
: 这些都是典型的高维选特征方法。它以牺牲goodness of fitting来换取feature的鲁棒
: 性抑制overfitting。简言之就是用bias换variance,还不是NP hard。
: ridge应用于预测,对应于高斯先验,均衡bias和variance的表现是多年证实的。选定
: feature了,用ridge做预测,睡的香!

h*****7
发帖数: 6781
16
这些都是我个人的理解
其实看lasso文章就好

【在 T*****u 的大作中提到】
: 多谢!有啥阅读材料推荐一下吗?
1 (共1页)
进入DataSciences版参与讨论
相关主题
请教一个facebook的面试题请教一个用R做cox regression的问题
请教如何求解综合指数这类问题咋回答
做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)PCA 可以用在mixture of continuous 和categorical variables (转载)
评估feature的预测能力大家对于有很多value的categorical feature都怎么处理?
feature selection的方法求教请教大家一个做feature的问题
一道药厂computational biology的面试题f.t."我不会编程"
有没有大牛来classifiy一下 PCA用法吗?报面筋求实习合租 (转载)
问个feature selection的问题借版面问个machine learning的问题
相关话题的讨论汇总
话题: lasso话题: 变量话题: 模型话题: ridge话题: feature