[Data Science Project Case]Future Income predicting - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - [Data Science Project Case]Future Income predicting

相关主题
● 计算 confidence interval 和 prediction interval的一般方法	● 推荐个英文网站Date Science Central
● time sliced classification models	● [Kaggle Contest] Predict the 2014 NCAA Basketball Tournament
● predict的时候对于test data，要不要standardized？	● 问个关于election prediction的面试题目
● suggestion on geospatial data? (转载)	● [IT+IEOR背景]请教一下往DtSci方向的职业发展建议
● 工作机会 data scientist@experian datalab, San Diego (转载)	● 有没有哪位通信或者网络方向转ds的啊？
● 求handle missing data的好方法	● kaggle上面的竞赛对找data scientist的工作帮助大吗？
● 急，xgboost prediction的问题	● Microsoft Unveils Machine Learning Service for Prediction
● feature selection的方法求教	● 大家给点建议，该考哪一个certificate

相关话题的讨论汇总
话题: income话题: data话题: prediction话题: future话题: project

进入DataSciences版参与讨论

(共1页)

l******n
发帖数: 9344

这个project是通过survey question,来预测将来（10年后）某个人的将来收入范围.
survey主要问一些personality, risk taking, professionalism的问题。
这又可以分成几个部分：
1. 如何设计survey questions,你想问那些问题
2. 你需要多少sample，因为survey要花钱，如何minimize费用同时确保你有足够的数
据来建立可信的模型
3. 怎么建立模型，怎么validate
大家给点input吧，特别是2，则个怎么估计

c***z
发帖数: 6348

Never did survey, but still, I would like to give a try. :)
1. education level (or intended level), favorite subject, parent education
level, parent professions, some case behavioral questions
2. around 30?
3. internal validity by random sampling, external validity by bias
correction, which is being a headache for me. :)

【在 l******n 的大作中提到】

: 这个project是通过survey question,来预测将来（10年后）某个人的将来收入范围.
: survey主要问一些personality, risk taking, professionalism的问题。
: 这又可以分成几个部分：
: 1. 如何设计survey questions,你想问那些问题
: 2. 你需要多少sample，因为survey要花钱，如何minimize费用同时确保你有足够的数
: 据来建立可信的模型
: 3. 怎么建立模型，怎么validate
: 大家给点input吧，特别是2，则个怎么估计

l******n
发帖数: 9344

It is hard to predict income with these questions. I mean I try to ask as
many as possible. Now I include many projective questions.

【在 c***z 的大作中提到】

: Never did survey, but still, I would like to give a try. :)
: 1. education level (or intended level), favorite subject, parent education
: level, parent professions, some case behavioral questions
: 2. around 30?
: 3. internal validity by random sampling, external validity by bias
: correction, which is being a headache for me. :)

c***z
发帖数: 6348

补充一点信息：
County Business Patterns (CBP) 有按county和MSA分的就业，平均年薪等信息，所以
根据这
个信息可以大致推断一下收入。
http://www.census.gov/econ/cbp/
教育水平和收入的正相关是研究证实了的；性别和种族也是。

l******n
发帖数: 9344

I am trying predict income 10 years later, not now.

【在 c***z 的大作中提到】

: 补充一点信息：
: County Business Patterns (CBP) 有按county和MSA分的就业，平均年薪等信息，所以
: 根据这
: 个信息可以大致推断一下收入。
: http://www.census.gov/econ/cbp/
: 教育水平和收入的正相关是研究证实了的；性别和种族也是。

c***z
发帖数: 6348

I know, I am not an expert on survey, and I just think that current income
is correlated to future income.

w*********y
发帖数: 7895

1. 你问什么问题，取决于你对现有可以预测未来INCOME的因素的了解。
因为我们只能从过去预测未来，虽然结果未必正确。。。你还要考虑
10后的INFLATION。。
2. 如果你确定好了多少因素，可以RUN POWER ANALYSIS来确定
SAMPLE SIZE。越多因素，需要的人越多。
3. 不知道你这个问题的负责度，一般情况会用REGRESSION来建立
MODEL。如果要VALIDATE MODEL，有好几种方法，一个是用
SEM，一个是HLM。。。
我的回答比较简单。。。具体解决方法，需要具体情况具体看。。

【在 l******n 的大作中提到】

a*z
发帖数: 294

westjourney, can you please elaborate a little more on SEM / HLM on model
validation? Thanks.

w*********y
发帖数: 7895

SEM挺好用的，一般要大于200人的数据（我不知道MAX NUMBER), 然后TEST一下SEM的
ASSUMPTIONS，无非就是homogeneity之类的。
然后你想好自己的prediction, what factor predicts future income ,what are the
moderators, what are the mediators,
然后看MODEL FIT..如果是SIGNIFICANT，说明PREDICTION成立。。
比较简单的方法是，从最SIMPLE的PREDICTION开始，比较各种因素对
结果的预测。。。就这样。。。、
HLM就比较复杂，我自己也还在学习。。。

【在 a*z 的大作中提到】

: westjourney, can you please elaborate a little more on SEM / HLM on model
: validation? Thanks.

c*****o
发帖数: 1702

I used to do this before but without taking into personality factor which I
believe is not a factor you can easily figure out. You can go to payscale.
com to find the starting and mid career income and also you can use census
for median income by career, median income by location and also inflation
for the last 15 years. With these data you should be able to get the salary
increase rate and give the prediction for a regularly employee's income. For
those people who go for their own business and make big money, you can
never ever predict how much they will make unless you know this person well
and also the income for such people are quite volatile.
I don't think sampling method will make any sense here since a generic logic
model will make more sense since it is really hard to get income data.

相关主题
● 求handle missing data的好方法	● 推荐个英文网站Date Science Central
● 急，xgboost prediction的问题	● [Kaggle Contest] Predict the 2014 NCAA Basketball Tournament
● feature selection的方法求教	● 问个关于election prediction的面试题目
进入DataSciences版参与讨论

c***z
发帖数: 6348

请教一下大家，survey收到答复以后怎么adjust for bias?

w*********y
发帖数: 7895

我们社会科学来说，先把可以影响PREDICTION的因素先分析
一遍，看他们是否会影响 PREDICTION，如果会的话，就
做为COVARIATE 来CONTROL。。。
另一种就是，收集数据的时候CONTROL。。。
如果说是怎么调整BIAS，应该是看你具体做什么样的数据分析吧。。。

【在 c***z 的大作中提到】

: 请教一下大家，survey收到答复以后怎么adjust for bias?

c***z
发帖数: 6348

比如说预先知道调查人群性别应该是1：1，但是收到的结果是65%女性怎么办
谢谢！

w*********y
发帖数: 7895

我提自己的想法。。
1. 你首先要用GENDER来预计一下它的影响，如果没有影响，就很欢喜。
2. 如果有影响，你分别用男性和女性来运行一下你的PREDICTION，看
那个是更有影响。。
3.或者采用WEIGHT的方法，大概就是计算男女比例，把这个比例放进
PREDICTION中。。。。。（这个方法我用的比较少，所以你得自己看下书，
比例具体怎么算的。我用第二个方法更多）。

【在 c***z 的大作中提到】

: 比如说预先知道调查人群性别应该是1：1，但是收到的结果是65%女性怎么办
: 谢谢！

l******n
发帖数: 9344

这个感觉不需要,因为感兴趣的是某一个特定的人群，我们只需通过一定的控制方法来
保证这个特定人群的%达到我们的要求就可以了，至于在overall population中的%和我
们的目标没有直接联系

【在 c***z 的大作中提到】

: 请教一下大家，survey收到答复以后怎么adjust for bias?

l******n
发帖数: 9344

gender是巨大的影响因素，高收入人群中(150k+)，男的%是女的%的6倍！

【在 w*********y 的大作中提到】

: 我提自己的想法。。
: 1. 你首先要用GENDER来预计一下它的影响，如果没有影响，就很欢喜。
: 2. 如果有影响，你分别用男性和女性来运行一下你的PREDICTION，看
: 那个是更有影响。。
: 3.或者采用WEIGHT的方法，大概就是计算男女比例，把这个比例放进
: PREDICTION中。。。。。（这个方法我用的比较少，所以你得自己看下书，
: 比例具体怎么算的。我用第二个方法更多）。

c***z
发帖数: 6348

通过一定的控制方法来保证这个特定人群的%达到我们的要求
怎么做到的？谢谢！

w*********y
发帖数: 7895

我猜是某种SAMPLING METHOD

【在 c***z 的大作中提到】

: 通过一定的控制方法来保证这个特定人群的%达到我们的要求
: 怎么做到的？谢谢！

w*********y
发帖数: 7895

这个取决于具体POPULATION具体分析。。比如说，美国的研究有表明
SES对小孩的成绩有很大关系，但有些特定POPULATION，SES就没有
这个影响。

【在 l******n 的大作中提到】

: gender是巨大的影响因素，高收入人群中(150k+)，男的%是女的%的6倍！

l******n
发帖数: 9344

ses - social economic status?
如果是，这东西的构造完全是random的，只能说这个Ses没有影响

【在 w*********y 的大作中提到】

: 这个取决于具体POPULATION具体分析。。比如说，美国的研究有表明
: SES对小孩的成绩有很大关系，但有些特定POPULATION，SES就没有
: 这个影响。

相关主题
● [IT+IEOR背景]请教一下往DtSci方向的职业发展建议	● Microsoft Unveils Machine Learning Service for Prediction
● 有没有哪位通信或者网络方向转ds的啊？	● 大家给点建议，该考哪一个certificate
● kaggle上面的竞赛对找data scientist的工作帮助大吗？	● 替国内朋友贴个 (转载)
进入DataSciences版参与讨论

O*****n
发帖数: 78

我觉得你首先得确定你的modeling approach - 你打算做causal-predictive model还
是explorative-predictive model？前者必须根据theory来确定predictors，然后收集
数据，进行验证，如果结果满意，那么根据model进行prediction。后者可以根据现有
data去找出哪些predictors和预测对象有correlation，然后在根据data调整model，直
到获得满意的结果。
前者的model很容易解释，因为都是有现成的theory做基础的。但是如果theory有问题
，比如缺少了某些考虑，或者时间地点的变化导致其适用性不佳，那么model的
prediction可能很不好。
后者的model可能会难以解释，因为是从data里derive出来的，但是一般可以获得比较
好的prediction。
顺便提一句，如果你打算用SEM的话，用partial least squares对prediction比较好。

g******i
发帖数: 118

能帮忙解释一下SEM 和HLM的全称不？
从来没有听说过。多谢！

the

【在 w*********y 的大作中提到】

: SEM挺好用的，一般要大于200人的数据（我不知道MAX NUMBER), 然后TEST一下SEM的
: ASSUMPTIONS，无非就是homogeneity之类的。
: 然后你想好自己的prediction, what factor predicts future income ,what are the
: moderators, what are the mediators,
: 然后看MODEL FIT..如果是SIGNIFICANT，说明PREDICTION成立。。
: 比较简单的方法是，从最SIMPLE的PREDICTION开始，比较各种因素对
: 结果的预测。。。就这样。。。、
: HLM就比较复杂，我自己也还在学习。。。

p****o
发帖数: 1340

sigh，这不太像data scients的活儿啊。难道，data scientists就是
什么样的屁股都要去擦呀，o_O？
随便说两句。
２.　因为估计一定不会太准，所以问题不用太多。这些变量都是blunt
device，而不能期望很精确。
如果可能，可以买credit score数据。里面也有很多variable的。
3. 估计的检验。因为没有真实数据可以使用，可以让你的估计值和一些
对美国GDP的估计值的分布符合。

【在 l******n 的大作中提到】

l******n
发帖数: 9344

ds的特点就是要什么活都能干，没有条件创造条件都要上
这其实是一个很open的project,很多东西都没有办法量化，从data到模型全部需要自己
设计，准不准或者有多准，并不重要。重要的是你的结果make sense，你说某个特性很
重要，你可以解释，别人会接受，你能把你的方法卖出去，这才是最重要的。

【在 p****o 的大作中提到】

: sigh，这不太像data scients的活儿啊。难道，data scientists就是
: 什么样的屁股都要去擦呀，o_O？
: 随便说两句。
: ２.　因为估计一定不会太准，所以问题不用太多。这些变量都是blunt
: device，而不能期望很精确。
: 如果可能，可以买credit score数据。里面也有很多variable的。
: 3. 估计的检验。因为没有真实数据可以使用，可以让你的估计值和一些
: 对美国GDP的估计值的分布符合。

(共1页)

进入DataSciences版参与讨论

相关主题
● 大家给点建议，该考哪一个certificate	● 工作机会 data scientist@experian datalab, San Diego (转载)
● 替国内朋友贴个 (转载)	● 求handle missing data的好方法
● 请教各位大牛	● 急，xgboost prediction的问题
● Data science/Quant analysis positions	● feature selection的方法求教
● 计算 confidence interval 和 prediction interval的一般方法	● 推荐个英文网站Date Science Central
● time sliced classification models	● [Kaggle Contest] Predict the 2014 NCAA Basketball Tournament
● predict的时候对于test data，要不要standardized？	● 问个关于election prediction的面试题目
● suggestion on geospatial data? (转载)	● [IT+IEOR背景]请教一下往DtSci方向的职业发展建议

相关话题的讨论汇总
话题: income话题: data话题: prediction话题: future话题: project

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天