h******n 发帖数: 1838 | 1 公司推出个给学生用的电子教材平台,想知道学生在这个平台上的learning behavior
(比如login的次数,highlight,bookmark和做笔记的次数)会不会对GPA有影响。
问题是,95%的学生都只是看电子书,从来不做笔记,也不加bookmark。所以我有20万
的obs,几个关键的自变量(如bookmarks的count和note的count)95%以上的数据都是
零。我做出来的regression变量都显著但是r-square只有5%。我想coefficient显著主
要是因为sample size大,这么小的r2实在证明不了问题,老板听了很upset,问我有没
有别的方法。
我想这个结果大概因为data太不平衡了,能不能从那大部分为零的数据里面随机抽出一
小部分来和不是零的一起重新做regression呢?这在统计说的通么?或者有没有什么其
他的方法?我统计很弱,希望大家不吝赐教,谢谢! |
y*****y 发帖数: 98 | |
h******n 发帖数: 1838 | 3 谢谢,稍后送包子~
【在 y*****y 的大作中提到】 : zero inflated models
|
h******n 发帖数: 1838 | 4 回楼上的,我的dependent variable是GPA,不是count,好像不能做zero inflated
model吧? |
d********h 发帖数: 2048 | 5 你的逻辑是对的,搜rare event analysis。本质上也是resample, |
h******n 发帖数: 1838 | 6 感谢!现在去研究下,稍后送包子。
【在 d********h 的大作中提到】 : 你的逻辑是对的,搜rare event analysis。本质上也是resample,
|
a****e 发帖数: 150 | 7 weighted least square? inverse of sampling probability as weight? |
p********r 发帖数: 1465 | |
c*******7 发帖数: 2506 | 9 Just some brain storming here-
Did your use predictors like the student's number of logon in a certain time
, average logon span, scores of quit after each session (if available), and
covariates like demographic info (gender, age,race,..), program info (title
1, free lunch,...), and did you use a score difference (post GPA-pre GPA) as
your dependent var?
behavior
【在 h******n 的大作中提到】 : 公司推出个给学生用的电子教材平台,想知道学生在这个平台上的learning behavior : (比如login的次数,highlight,bookmark和做笔记的次数)会不会对GPA有影响。 : 问题是,95%的学生都只是看电子书,从来不做笔记,也不加bookmark。所以我有20万 : 的obs,几个关键的自变量(如bookmarks的count和note的count)95%以上的数据都是 : 零。我做出来的regression变量都显著但是r-square只有5%。我想coefficient显著主 : 要是因为sample size大,这么小的r2实在证明不了问题,老板听了很upset,问我有没 : 有别的方法。 : 我想这个结果大概因为data太不平衡了,能不能从那大部分为零的数据里面随机抽出一 : 小部分来和不是零的一起重新做regression呢?这在统计说的通么?或者有没有什么其 : 他的方法?我统计很弱,希望大家不吝赐教,谢谢!
|
l***a 发帖数: 12410 | 10 试试over sampling
behavior
【在 h******n 的大作中提到】 : 公司推出个给学生用的电子教材平台,想知道学生在这个平台上的learning behavior : (比如login的次数,highlight,bookmark和做笔记的次数)会不会对GPA有影响。 : 问题是,95%的学生都只是看电子书,从来不做笔记,也不加bookmark。所以我有20万 : 的obs,几个关键的自变量(如bookmarks的count和note的count)95%以上的数据都是 : 零。我做出来的regression变量都显著但是r-square只有5%。我想coefficient显著主 : 要是因为sample size大,这么小的r2实在证明不了问题,老板听了很upset,问我有没 : 有别的方法。 : 我想这个结果大概因为data太不平衡了,能不能从那大部分为零的数据里面随机抽出一 : 小部分来和不是零的一起重新做regression呢?这在统计说的通么?或者有没有什么其 : 他的方法?我统计很弱,希望大家不吝赐教,谢谢!
|