请问这样的数据应该用什么样的模型适合。 - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 请问这样的数据应该用什么样的模型适合。

相关主题
● feature selection的方法求教	● 请教大家一个做feature的问题
● 一道药厂computational biology的面试题	● f.t."我不会编程"
● 有没有大牛来classifiy一下 PCA用法吗？	● 报面筋求实习合租 (转载)
● 问个feature selection的问题	● 借版面问个machine learning的问题
● 请教一个用R做cox regression的问题	● 刚入行新人的两个问题
● 这类问题咋回答	● model selection problem
● PCA 可以用在mixture of continuous 和categorical variables (转载)	● 问个time series forecasting的问题 (转载)
● 大家对于有很多value的categorical feature都怎么处理？	● 请教一个facebook的面试题

相关话题的讨论汇总
话题: lasso话题: 变量话题: 模型话题: ridge话题: feature

进入DataSciences版参与讨论

(共1页)

a********e
发帖数: 78

我想建立一个模型, 需要预测量是一个工程的实际花费.
自变量的类型包括以下几种类型
1) 连续变量
２）一些　binary 变量,　（０，　１）
３）　一些　categorical变量,　　比如 (0, 100, 100.1, 81.94); 这里有一些
categorical变量应该是存在内在order的
请问如何把它们统一在一个model里. 一般的回归模型可以处理这种情况吗？一般还有
什么比较好的可以试。

c***z
发帖数: 6348

take a look
http://www.uta.edu/faculty/kunovich/Soci5304_Handouts/Topic%208_Dummy%20Variables.doc
you can definitely try OLS, if the assumptions are met (or roughly met)
plot the data to see outliers, truncations, correlations, etc

a********e
发帖数: 78

非常感谢，资料很有用。
另外还有一个问题，数据量大概有300个记录，每个记录可能会有两百个 feature。
显然很多feature会被扔掉从domain knowledge的角度。但仍然可能会保有100个左右
的feature。从统计的角度可以 stepwise的选，但还有什么办法呢。基于经验来说
，对于300个记录这样的数据量，一般多少feature（可能包括高阶）对于回归模型
合适。

【在 c***z 的大作中提到】

: take a look
: http://www.uta.edu/faculty/kunovich/Soci5304_Handouts/Topic%208_Dummy%20Variables.doc
: you can definitely try OLS, if the assumptions are met (or roughly met)
: plot the data to see outliers, truncations, correlations, etc

c***z
发帖数: 6348

1. ridge or lasso
2. PCA if your clients know math
try glmnet in R

T*****u
发帖数: 7103

我会试试tree

P*****6
发帖数: 273

如果用glmnet的话，好像有elastic net. 它比lasso会保留更多的变量
无论lasso or elastic net， they are biased. 如果你的features小于100的话，AIC
and BIC for generally linear regression may be also OK.

【在 T*****u 的大作中提到】

: 我会试试tree

a********e
发帖数: 78

请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。谢谢。

n*****3
发帖数: 1584

all these shrinkage approach are biased with penalized term.
it is all about optimization with Bias-variance tradeoff

【在 a********e 的大作中提到】

: 请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。谢谢。

a*z
发帖数: 294

try PCA or clustering first.

P*****6
发帖数: 273

就是预测的期望值和实际值会有偏差，但是可能本身的自我误差比较小，所以high
dimension features反而可能比较准。就是上面有人提到的trade-off.

【在 a********e 的大作中提到】

: 请问如何理解 lasso和 elastic net 是biased。能不能详细解释一下。谢谢。

相关主题
● 这类问题咋回答	● 请教大家一个做feature的问题
● PCA 可以用在mixture of continuous 和categorical variables (转载)	● f.t."我不会编程"
● 大家对于有很多value的categorical feature都怎么处理？	● 报面筋求实习合租 (转载)
进入DataSciences版参与讨论

a*****r
发帖数: 4

IBM Modeler can to do auto model selection

【在 a********e 的大作中提到】

: 我想建立一个模型, 需要预测量是一个工程的实际花费.
: 自变量的类型包括以下几种类型
: 1) 连续变量
: ２）一些　binary 变量,　（０，　１）
: ３）　一些　categorical变量,　　比如 (0, 100, 100.1, 81.94); 这里有一些
: categorical变量应该是存在内在order的
: 请问如何把它们统一在一个model里. 一般的回归模型可以处理这种情况吗？一般还有
: 什么比较好的可以试。

h*****7
发帖数: 6781

elastic net介于ridge和lasso之间
总体来说我倾向lasso选，ridge测
毕竟这两个可以用概率论解释，更加analytical，parameter也少一些

T*****u
发帖数: 7103

讲讲lasso选和ridge测的关系好吗

【在 h*****7 的大作中提到】

: elastic net介于ridge和lasso之间
: 总体来说我倾向lasso选，ridge测
: 毕竟这两个可以用概率论解释，更加analytical，parameter也少一些

h*****7
发帖数: 6781

对高维而言，lasso是拥有convex解的最sparse的方法，能在闭合解状态下最大限度的
选出优质feature，对应贝叶斯的超高斯先验。
这些都是典型的高维选特征方法。它以牺牲goodness of fitting来换取feature的鲁棒
性抑制overfitting。简言之就是用bias换variance，还不是NP hard。
ridge应用于预测，对应于高斯先验，均衡bias和variance的表现是多年证实的。选定
feature了，用ridge做预测，睡的香！

【在 T*****u 的大作中提到】

: 讲讲lasso选和ridge测的关系好吗

T*****u
发帖数: 7103

多谢！有啥阅读材料推荐一下吗？

【在 h*****7 的大作中提到】

: 对高维而言，lasso是拥有convex解的最sparse的方法，能在闭合解状态下最大限度的
: 选出优质feature，对应贝叶斯的超高斯先验。
: 这些都是典型的高维选特征方法。它以牺牲goodness of fitting来换取feature的鲁棒
: 性抑制overfitting。简言之就是用bias换variance，还不是NP hard。
: ridge应用于预测，对应于高斯先验，均衡bias和variance的表现是多年证实的。选定
: feature了，用ridge做预测，睡的香！

h*****7
发帖数: 6781

这些都是我个人的理解
其实看lasso文章就好

【在 T*****u 的大作中提到】

: 多谢！有啥阅读材料推荐一下吗？

(共1页)

进入DataSciences版参与讨论

相关主题
● 请教一个facebook的面试题	● 请教一个用R做cox regression的问题
● 请教如何求解综合指数	● 这类问题咋回答
● 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)	● PCA 可以用在mixture of continuous 和categorical variables (转载)
● 评估feature的预测能力	● 大家对于有很多value的categorical feature都怎么处理？
● feature selection的方法求教	● 请教大家一个做feature的问题
● 一道药厂computational biology的面试题	● f.t."我不会编程"
● 有没有大牛来classifiy一下 PCA用法吗？	● 报面筋求实习合租 (转载)
● 问个feature selection的问题	● 借版面问个machine learning的问题

相关话题的讨论汇总
话题: lasso话题: 变量话题: 模型话题: ridge话题: feature

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天