由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 借版面问个machine learning的问题
相关主题
model selection problem也问个模型
time sliced classification models凑热闹转发一篇自己写的博文,轻拍
feature selection的方法求教f.t."我不会编程"
报面筋求实习合租 (转载)请问这样的数据应该用什么样的模型适合。
NY Lead Data Scientist, Finance Credit刚入行新人的两个问题
Data scientist / Machine Learning Engineer 相关面试题 (转载)有没有大牛来classifiy一下 PCA用法吗?
问个feature selection的问题做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)
Data scientist / Machine Learning Engineer 相关面试题 (转载)这类问题咋回答
相关话题的讨论汇总
话题: learning话题: regression话题: model话题: prior话题: machine
进入DataSciences版参与讨论
1 (共1页)
s****h
发帖数: 3979
1
已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
是专业(文科,理科,工科)
预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
用什么model最合适?
多谢。
j*******g
发帖数: 331
2
I don't think this is enough to build a model. Which company are you working
for, I don't think you can get anything out of this limited resource

【在 s****h 的大作中提到】
: 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
: 是专业(文科,理科,工科)
: 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
: 用什么model最合适?
: 多谢。

s****h
发帖数: 3979
3
In general,这个是不太靠谱。
不过,这是一道面试题,可能刚好这些数据能找到些关系。
所以给了这么一组数据,要求的就是利用这些条件。还要判断哪些factor的影响更大。
好些年没弄过Machine Learning的东西了,比较了解的也就是神经网络/遗传算法之类
的。都用不上。
这个好像是要用连续变量的bayes network,或者logisic regression,或者HMM?

working

【在 j*******g 的大作中提到】
: I don't think this is enough to build a model. Which company are you working
: for, I don't think you can get anything out of this limited resource

j*******g
发帖数: 331
4
听上去好像他们要用regression的方法啊 具体怎么实现regression 就有很多种办法了
… 我的意思是也许该想想这样的公司 他们有足够的resource来让你解决问题吗

【在 s****h 的大作中提到】
: In general,这个是不太靠谱。
: 不过,这是一道面试题,可能刚好这些数据能找到些关系。
: 所以给了这么一组数据,要求的就是利用这些条件。还要判断哪些factor的影响更大。
: 好些年没弄过Machine Learning的东西了,比较了解的也就是神经网络/遗传算法之类
: 的。都用不上。
: 这个好像是要用连续变量的bayes network,或者logisic regression,或者HMM?
:
: working

s****h
发帖数: 3979
5
我把变量的需要预测的东西名字换了。
他们给的是几组数据,每组数据都有几个连续变量,几个离散变量,做classifier分类。
所有的数据都是已经分好类的。他们要求的是用这些数据做training set,找出分类的
方法。
没有给test set,也许他们自己有test set,拿面试者的结果去test结果好不好。呵呵。

【在 j*******g 的大作中提到】
: 听上去好像他们要用regression的方法啊 具体怎么实现regression 就有很多种办法了
: … 我的意思是也许该想想这样的公司 他们有足够的resource来让你解决问题吗

h*****7
发帖数: 6781
6
用CART的变种

【在 s****h 的大作中提到】
: 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
: 是专业(文科,理科,工科)
: 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
: 用什么model最合适?
: 多谢。

h********3
发帖数: 2075
7
一般来说,用logistic regression配合regularization有比较好的效果。
http://en.wikipedia.org/wiki/Multinomial_logistic_regression

【在 s****h 的大作中提到】
: 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
: 是专业(文科,理科,工科)
: 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
: 用什么model最合适?
: 多谢。

B*******6
发帖数: 103
8
我一直没搞清楚的就是Lp regularization在实际问题上p的选择, 我的理解是根据
feature的分布或者根据feature selection的要求定p, 比如要sparse的时候就 
p<=1. 是这样的吗?

【在 h********3 的大作中提到】
: 一般来说,用logistic regression配合regularization有比较好的效果。
: http://en.wikipedia.org/wiki/Multinomial_logistic_regression

m*********r
发帖数: 119
9
最基本的 logistic regression 应该是可以的
或者NN也是可以的
实际中应该和几种模型比较看看哪个更好预测吧?
j*******g
发帖数: 331
10
I found this very helpful to me when I try to understand Lp ball
http://www.stanford.edu/~montanar/RESEARCH/FILEPAP/MMLP.pdf

160;

【在 B*******6 的大作中提到】
: 我一直没搞清楚的就是Lp regularization在实际问题上p的选择, 我的理解是根据
: feature的分布或者根据feature selection的要求定p, 比如要sparse的时候就 
: p<=1. 是这样的吗?

相关主题
Data scientist / Machine Learning Engineer 相关面试题 (转载)也问个模型
问个feature selection的问题凑热闹转发一篇自己写的博文,轻拍
Data scientist / Machine Learning Engineer 相关面试题 (转载)f.t."我不会编程"
进入DataSciences版参与讨论
c***z
发帖数: 6348
11
maybe you can also consider survival analysis, since there might be time
censoring in your data
h********3
发帖数: 2075
12
可以从Bayesian Learning的角度去看。
regularization就是加了一个prior。
而L1就是Laplace distribution的prior,L2是Normal distribution的prior。
Lp里面,p越大, prior distribution越圆滑(看看密度分布图就知道了)。
如果只是为了做feature selection,一般流行的做法是L1,也就是LASSO,因为
Lapalce distribution很尖,这样得到的coefficient没那么圆滑或者模凌两可。

160;

【在 B*******6 的大作中提到】
: 我一直没搞清楚的就是Lp regularization在实际问题上p的选择, 我的理解是根据
: feature的分布或者根据feature selection的要求定p, 比如要sparse的时候就 
: p<=1. 是这样的吗?

B*******6
发帖数: 103
13
数学上我大概知道个意思。
实际应用上我的感觉是信号处理用L2比较多, feature selection尤其是text用L1或者
以下的比较多, L infinite的我没有经验, 在什么方面会用到L infinite呢?

【在 h********3 的大作中提到】
: 可以从Bayesian Learning的角度去看。
: regularization就是加了一个prior。
: 而L1就是Laplace distribution的prior,L2是Normal distribution的prior。
: Lp里面,p越大, prior distribution越圆滑(看看密度分布图就知道了)。
: 如果只是为了做feature selection,一般流行的做法是L1,也就是LASSO,因为
: Lapalce distribution很尖,这样得到的coefficient没那么圆滑或者模凌两可。
:
: 160;

r*****d
发帖数: 346
14
decision tree, random forest 都很切题,而且能知道哪些predictors最有效,
multinomial model(就是那个prior选狄理克雷分布的model)(multi-class
logistic regression是不是同一个model?)请大牛科普。
neural network (sorry i should say deep learning:) 也很切题,就是那个判断数字
0-9 hand writing的model
虽然这里predictors有实数有离散,但肯定不是问题

【在 s****h 的大作中提到】
: 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
: 是专业(文科,理科,工科)
: 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
: 用什么model最合适?
: 多谢。

t*********h
发帖数: 941
15
any classifier would make sense. try logistic regression 4 example

【在 s****h 的大作中提到】
: 已经知道年龄(正实数),性别,工作时间(正实数),还有其他一个参数,可以想成
: 是专业(文科,理科,工科)
: 预测状态,状态有四种可能,可以想成(行业内跳槽,升职,开除,转行)
: 用什么model最合适?
: 多谢。

1 (共1页)
进入DataSciences版参与讨论
相关主题
这类问题咋回答NY Lead Data Scientist, Finance Credit
评估feature的预测能力Data scientist / Machine Learning Engineer 相关面试题 (转载)
一道药厂computational biology的面试题问个feature selection的问题
[Data Science Project Case]Future Income predictingData scientist / Machine Learning Engineer 相关面试题 (转载)
model selection problem也问个模型
time sliced classification models凑热闹转发一篇自己写的博文,轻拍
feature selection的方法求教f.t."我不会编程"
报面筋求实习合租 (转载)请问这样的数据应该用什么样的模型适合。
相关话题的讨论汇总
话题: learning话题: regression话题: model话题: prior话题: machine