s******e 发帖数: 114 | 1 我在用R 的glmnet做binary分类。training set 的 predictor variable 的个数(10k
in my case) 能超过 sample个数(1k in my case)吗?
我以前认为如果 p > n, model 一定overfit. 但是glmnet有feature selection 的
能力, 于是我试着把所有10k features都给glmnet(lasso option) 给出的model 有
5k个feature. 不是我想象的100~200个feature. 这个model能用吗?从model accuracy
(testing set in cv)是75%看, 好像还可以用。也许model 5k feature中只有前200
features的coefficient 比较大, 我还没来得急看。请大牛答疑。 | s*r 发帖数: 2757 | 2 5k feature的系数都大于零? 它有一个系数随lambda变化的图的吧 |
|