由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 一个project,实在想不出了
相关主题
Unexpected statistical analysis results in Cox regressiontest count data distribution in SAS
问个logistic regression的问题,谢谢!NLMIXED
zero-truncated poisson是啥意思?Fitting model, 头大,求建议
如何确定什么情况time series,什么情况linear reg?ZIP 可以用来分析 有repeated measures的data吗?
求助:Power analysis for poisson regression?请教一个数据转换和模型的问题!
请问poisson regression和 Log-linear model之间的联系?可以用一般线性回归吗?
发个高难度的面试题请帮忙下载一篇文章 (转载)
如何分析这个data?shameless promotion of my blog in statistical computing
相关话题的讨论汇总
话题: gpa话题: inflated话题: 想不出话题: project话题: zero
进入Statistics版参与讨论
1 (共1页)
h******n
发帖数: 1838
1
公司推出个给学生用的电子教材平台,想知道学生在这个平台上的learning behavior
(比如login的次数,highlight,bookmark和做笔记的次数)会不会对GPA有影响。
问题是,95%的学生都只是看电子书,从来不做笔记,也不加bookmark。所以我有20万
的obs,几个关键的自变量(如bookmarks的count和note的count)95%以上的数据都是
零。我做出来的regression变量都显著但是r-square只有5%。我想coefficient显著主
要是因为sample size大,这么小的r2实在证明不了问题,老板听了很upset,问我有没
有别的方法。
我想这个结果大概因为data太不平衡了,能不能从那大部分为零的数据里面随机抽出一
小部分来和不是零的一起重新做regression呢?这在统计说的通么?或者有没有什么其
他的方法?我统计很弱,希望大家不吝赐教,谢谢!
y*****y
发帖数: 98
2
zero inflated models
h******n
发帖数: 1838
3
谢谢,稍后送包子~

【在 y*****y 的大作中提到】
: zero inflated models
h******n
发帖数: 1838
4
回楼上的,我的dependent variable是GPA,不是count,好像不能做zero inflated
model吧?
d********h
发帖数: 2048
5
你的逻辑是对的,搜rare event analysis。本质上也是resample,
h******n
发帖数: 1838
6
感谢!现在去研究下,稍后送包子。

【在 d********h 的大作中提到】
: 你的逻辑是对的,搜rare event analysis。本质上也是resample,
a****e
发帖数: 150
7
weighted least square? inverse of sampling probability as weight?
p********r
发帖数: 1465
8
Zero Inflated Poisson
c*******7
发帖数: 2506
9
Just some brain storming here-
Did your use predictors like the student's number of logon in a certain time
, average logon span, scores of quit after each session (if available), and
covariates like demographic info (gender, age,race,..), program info (title
1, free lunch,...), and did you use a score difference (post GPA-pre GPA) as
your dependent var?

behavior

【在 h******n 的大作中提到】
: 公司推出个给学生用的电子教材平台,想知道学生在这个平台上的learning behavior
: (比如login的次数,highlight,bookmark和做笔记的次数)会不会对GPA有影响。
: 问题是,95%的学生都只是看电子书,从来不做笔记,也不加bookmark。所以我有20万
: 的obs,几个关键的自变量(如bookmarks的count和note的count)95%以上的数据都是
: 零。我做出来的regression变量都显著但是r-square只有5%。我想coefficient显著主
: 要是因为sample size大,这么小的r2实在证明不了问题,老板听了很upset,问我有没
: 有别的方法。
: 我想这个结果大概因为data太不平衡了,能不能从那大部分为零的数据里面随机抽出一
: 小部分来和不是零的一起重新做regression呢?这在统计说的通么?或者有没有什么其
: 他的方法?我统计很弱,希望大家不吝赐教,谢谢!

l***a
发帖数: 12410
10
试试over sampling

behavior

【在 h******n 的大作中提到】
: 公司推出个给学生用的电子教材平台,想知道学生在这个平台上的learning behavior
: (比如login的次数,highlight,bookmark和做笔记的次数)会不会对GPA有影响。
: 问题是,95%的学生都只是看电子书,从来不做笔记,也不加bookmark。所以我有20万
: 的obs,几个关键的自变量(如bookmarks的count和note的count)95%以上的数据都是
: 零。我做出来的regression变量都显著但是r-square只有5%。我想coefficient显著主
: 要是因为sample size大,这么小的r2实在证明不了问题,老板听了很upset,问我有没
: 有别的方法。
: 我想这个结果大概因为data太不平衡了,能不能从那大部分为零的数据里面随机抽出一
: 小部分来和不是零的一起重新做regression呢?这在统计说的通么?或者有没有什么其
: 他的方法?我统计很弱,希望大家不吝赐教,谢谢!

1 (共1页)
进入Statistics版参与讨论
相关主题
shameless promotion of my blog in statistical computing求助:Power analysis for poisson regression?
SASMarco 急问:怎样给大量的图表生成目录(bookmark)?请问poisson regression和 Log-linear model之间的联系?
How to develop this tool发个高难度的面试题
和不很懂统计和DESIGN且不愿接受新东西总以为自己是对的老板工如何分析这个data?
Unexpected statistical analysis results in Cox regressiontest count data distribution in SAS
问个logistic regression的问题,谢谢!NLMIXED
zero-truncated poisson是啥意思?Fitting model, 头大,求建议
如何确定什么情况time series,什么情况linear reg?ZIP 可以用来分析 有repeated measures的data吗?
相关话题的讨论汇总
话题: gpa话题: inflated话题: 想不出话题: project话题: zero