由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - building prediction models from large dataset
相关主题
A Model question, urgent please!![合集] Variable selection with 2000 + variables.
interaction 在 predictive modeling中的意义any regression model with high prediction accuracy?
电话面试完了,肯定没戏,大家帮我看看题目,就算学习吧要面试了,请问实际工作中large data set都是存在那里的?
怎样比较hierarchical modelhow to informat on a large number of variables?
state farm phone interview多大的data算是large data set?
请问:R-square 可以用来评估GLM model得好坏吗regression prediction问题
请教SAS高手关于lasso...model sample size重要吗?
到底ROC能不能用来比较不同model关于 Risk model
相关话题的讨论汇总
话题: dataset话题: large话题: bic话题: building话题: data
进入Statistics版参与讨论
1 (共1页)
a****g
发帖数: 8131
1
请教各位一下,
这个large dataset跟一般的dataset的model building到底有什么区别?
比较model好坏的几个指标aic之类的, 有什么具体区别和好坏
thanks a lot
w********5
发帖数: 72
2
Sorry, I can't type in Chinese now.
I am doing big data modeling right now (millions-billions). I have the same
question as well.
I know when using big data, independent variables can easily become
significant. So, pre-select independent variables are very important.
Waiting for more input.
m*******1
发帖数: 855
3
有个问题请教下LS,你是用什么方法pre select variables. 我只知道factor analysis
,不知道用在这里合适不. 还有P value只跟data size有关, 如果是big data的话,是
不是P value就不可信了? 那怎么办呢?
s*********e
发帖数: 1051
4
FA is not applicable.
for large data, even calculating a median could be impossible.

analysis

【在 m*******1 的大作中提到】
: 有个问题请教下LS,你是用什么方法pre select variables. 我只知道factor analysis
: ,不知道用在这里合适不. 还有P value只跟data size有关, 如果是big data的话,是
: 不是P value就不可信了? 那怎么办呢?

z**********i
发帖数: 12276
5
做了3年了,还是没有想清楚这个问题。
以前,都是拿小的dataset,现在都是大量的obs。
需要有人指点呀。

【在 a****g 的大作中提到】
: 请教各位一下,
: 这个large dataset跟一般的dataset的model building到底有什么区别?
: 比较model好坏的几个指标aic之类的, 有什么具体区别和好坏
: thanks a lot

a****g
发帖数: 8131
6
i remember you ever had a piece of blog talking about BIC, can you provide
the link again?
Also, could you spend a few moments to briefly talk about this topic? Thanks.

【在 s*********e 的大作中提到】
: FA is not applicable.
: for large data, even calculating a median could be impossible.
:
: analysis

a****g
发帖数: 8131
7
same feeling

【在 z**********i 的大作中提到】
: 做了3年了,还是没有想清楚这个问题。
: 以前,都是拿小的dataset,现在都是大量的obs。
: 需要有人指点呀。

a****g
发帖数: 8131
8
请教各位一下,
这个large dataset跟一般的dataset的model building到底有什么区别?
比较model好坏的几个指标aic之类的, 有什么具体区别和好坏
thanks a lot
w********5
发帖数: 72
9
Sorry, I can't type in Chinese now.
I am doing big data modeling right now (millions-billions). I have the same
question as well.
I know when using big data, independent variables can easily become
significant. So, pre-select independent variables are very important.
Waiting for more input.
m*******1
发帖数: 855
10
有个问题请教下LS,你是用什么方法pre select variables. 我只知道factor analysis
,不知道用在这里合适不. 还有P value只跟data size有关, 如果是big data的话,是
不是P value就不可信了? 那怎么办呢?
相关主题
请问:R-square 可以用来评估GLM model得好坏吗[合集] Variable selection with 2000 + variables.
请教SAS高手关于lasso...any regression model with high prediction accuracy?
到底ROC能不能用来比较不同model要面试了,请问实际工作中large data set都是存在那里的?
进入Statistics版参与讨论
s*********e
发帖数: 1051
11
FA is not applicable.
for large data, even calculating a median could be impossible.

analysis

【在 m*******1 的大作中提到】
: 有个问题请教下LS,你是用什么方法pre select variables. 我只知道factor analysis
: ,不知道用在这里合适不. 还有P value只跟data size有关, 如果是big data的话,是
: 不是P value就不可信了? 那怎么办呢?

z**********i
发帖数: 12276
12
做了3年了,还是没有想清楚这个问题。
以前,都是拿小的dataset,现在都是大量的obs。
需要有人指点呀。

【在 a****g 的大作中提到】
: 请教各位一下,
: 这个large dataset跟一般的dataset的model building到底有什么区别?
: 比较model好坏的几个指标aic之类的, 有什么具体区别和好坏
: thanks a lot

a****g
发帖数: 8131
13
i remember you ever had a piece of blog talking about BIC, can you provide
the link again?
Also, could you spend a few moments to briefly talk about this topic? Thanks.

【在 s*********e 的大作中提到】
: FA is not applicable.
: for large data, even calculating a median could be impossible.
:
: analysis

a****g
发帖数: 8131
14
same feeling

【在 z**********i 的大作中提到】
: 做了3年了,还是没有想清楚这个问题。
: 以前,都是拿小的dataset,现在都是大量的obs。
: 需要有人指点呀。

S******y
发帖数: 1123
15
I would look at a range of model evaluation/diagnosis metrics including (but
no limited to) AIC, BIC.
AIC = n + n * log(2 * pi) + n * log(rss0 / n) + 2 * (p + 1)
BIC = n + n * log(2 * pi) + n * log(rss0 / n) + log(n) * (p + 1)
1 (共1页)
进入Statistics版参与讨论
相关主题
关于 Risk modelstate farm phone interview
SAS 问题:关于比较variable 包子答谢请问:R-square 可以用来评估GLM model得好坏吗
a regression model test issue请教SAS高手关于lasso...
[help]10个包子求KDD cup 2009 的orange公司dataset到底ROC能不能用来比较不同model
A Model question, urgent please!![合集] Variable selection with 2000 + variables.
interaction 在 predictive modeling中的意义any regression model with high prediction accuracy?
电话面试完了,肯定没戏,大家帮我看看题目,就算学习吧要面试了,请问实际工作中large data set都是存在那里的?
怎样比较hierarchical modelhow to informat on a large number of variables?
相关话题的讨论汇总
话题: dataset话题: large话题: bic话题: building话题: data