由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 面试被问到subscription renewal model,大家来集思广益吧 (转载)
相关主题
第一次电面失败,问题请教,多谢!请教一个关于2-phase, repeated measures 问题
急问:用stata或R算predicted probabiltiy (logistic regressiR: rulefit error on Linux
how to auto send email out with a table in the body by outlook今天的capital one statistician面试细节及抱怨,呵呵
应该让sas, r, python[排名不分先后]互相PK, 看谁胜出讲讲perl吧。
免费的云计算存储资源 Open Science Data Cloud做machine learning还有这么悲催的吗
multilevel + panel analysis有人知道GBM吗?
SAS daily tips - GEEensemble on a lot of zeros
[合集] Please help me to debug SAS code数据科学之江湖兵器谱 (转载)
相关话题的讨论汇总
话题: model话题: renewal话题: 集思广益话题: 问到
进入Statistics版参与讨论
1 (共1页)
f*******d
发帖数: 19
1
【 以下文字转载自 DataSciences 讨论区 】
发信人: flamehead (火头), 信区: DataSciences
标 题: 面试被问到subscription renewal model,大家来集思广益吧
发信站: BBS 未名空间站 (Fri Aug 7 20:52:15 2015, 美东)
像netflix,dropbox,还有telecom公司,以及基于SaaS的公司都是subscription based,
用模型来预测subscription renewal的肯定都在做吧,大家都在用什么方法?
我只能想到最基本的,以按月续订为例子,create a collection of usage metrics,
and aggregate onto monthly level.每个用户都有一个renew flag作为dependent
variable,然后用个logistic regression,或者什么tree ensemble啊,neural
network之类建个model。那么问题来了,training data怎么建?我的回答是take
several snapshots from historical data, and combine together.但是这也不能保
证这个sample representative of the scoring population.还有一个问题就是同一个
用户可能被抽到多次(比如出现在一月的snapshot里,又出现在二月的snapshot里),
这样数据的独立性又被质疑。总之,面试官肯定是想听到更sophisticated的方法。
回来以后google了下,也没找到什么,看到有用hidden markov chain的,仿佛很高端
,没太看明白。版上牛人多,请不吝赐教,也造福以后碰到类似问题的童鞋们。
f*******d
发帖数: 19
2
对了,还是这个model的问题,也被问到了time varying covariates,比如第一个星期
非常活跃,之后就很少登陆,这种变量在aggregate之后是没法体现的,但同时又是非
常重要的predictor。咋办?
我说derive some variables to represent the behavioral change, for example,
the delta between Week2 and Week1, etc.感觉不理想。现在想想,是不是应该每个
用户有好几行数据,像longitudinal那样建model啊?但这样的话scoring的时候该咋办
u*h
发帖数: 397
3
I will try to use survival analysis.
User account without renew flag is considered as death event.
User account which keep subscription will be treated as censored data.
Weekly activity can be used as time dependent variable.

based,
,

【在 f*******d 的大作中提到】
: 对了,还是这个model的问题,也被问到了time varying covariates,比如第一个星期
: 非常活跃,之后就很少登陆,这种变量在aggregate之后是没法体现的,但同时又是非
: 常重要的predictor。咋办?
: 我说derive some variables to represent the behavioral change, for example,
: the delta between Week2 and Week1, etc.感觉不理想。现在想想,是不是应该每个
: 用户有好几行数据,像longitudinal那样建model啊?但这样的话scoring的时候该咋办
: ?

f*******d
发帖数: 19
4
谢谢!但survival model很少用来predict吧,好像都是看哪些变量对survival有影响
,还有就是计算hazard ratio。不知道怎么用这个model来score new observations?

【在 u*h 的大作中提到】
: I will try to use survival analysis.
: User account without renew flag is considered as death event.
: User account which keep subscription will be treated as censored data.
: Weekly activity can be used as time dependent variable.
:
: based,
: ,

t*****a
发帖数: 459
5
我没做过这个领域的东西,但是感觉这个跟我们做的一些关于病人反复吃药或者反复住
院的东西有点像。如果是类似问题,可以用logistic regression, 里面的individual
observation不是个人,而是每个时间段里的个人(比如每人每月),这样一个人在3年
的观察期里提供up to 36个observation,分析的时候用GEE adjust for 一个人在不同
时间点数据的autocorrelation, 所以取样的时候一个人被多次取到不是个问题。
这个确实可以算survival analysis的一种。
c****s
发帖数: 395
6
这根本不用survival model,对这种time variant create一个dummy variable 就行了

【在 f*******d 的大作中提到】
: 对了,还是这个model的问题,也被问到了time varying covariates,比如第一个星期
: 非常活跃,之后就很少登陆,这种变量在aggregate之后是没法体现的,但同时又是非
: 常重要的predictor。咋办?
: 我说derive some variables to represent the behavioral change, for example,
: the delta between Week2 and Week1, etc.感觉不理想。现在想想,是不是应该每个
: 用户有好几行数据,像longitudinal那样建model啊?但这样的话scoring的时候该咋办
: ?

c***z
发帖数: 6348
1 (共1页)
进入Statistics版参与讨论
相关主题
数据科学之江湖兵器谱 (转载)免费的云计算存储资源 Open Science Data Cloud
Re: About GEE models?multilevel + panel analysis
说说统计专业Master找工作的问题SAS daily tips - GEE
药厂面试 (转载)[合集] Please help me to debug SAS code
第一次电面失败,问题请教,多谢!请教一个关于2-phase, repeated measures 问题
急问:用stata或R算predicted probabiltiy (logistic regressiR: rulefit error on Linux
how to auto send email out with a table in the body by outlook今天的capital one statistician面试细节及抱怨,呵呵
应该让sas, r, python[排名不分先后]互相PK, 看谁胜出讲讲perl吧。
相关话题的讨论汇总
话题: model话题: renewal话题: 集思广益话题: 问到