有人考虑过kaggle上这个预测CTR的题目么？ - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 有人考虑过kaggle上这个预测CTR的题目么？

相关主题
● 转行数据挖掘和机器学习	● Data scientist / Machine Learning Engineer 相关面试题 (转载)
● 有没有人想报Cloudera的Data Scientist Certificate的	● 求handle missing data的好方法
● 现在面对data science或programming的找工作和竞赛做题网站是泥沙俱下啊	● 刚入行新人的两个问题
● lending club的notes 数据	● 请问哪些算法是可以用python写的，然后输入PMML
● 求教! how to run python programs on a hadoop cluster	● 我想写个survey报告关于KNN classification algorithms
● 现在的大数据技术的价值和功用有些被夸大了	● spark 问题
● Data Scientist的编程能力	● 有关归类
● 求Google 的 Data Science 有关的位置内推 (转载)	● 怎样能才能快速的找到KNN

相关话题的讨论汇总
话题: feature话题: ctr话题: regression话题: device话题: logistic

进入DataSciences版参与讨论

(共1页)

s****h
发帖数: 3979

今天无意在kaggle上发现了这道题，要预测CTR rate：
https://www.kaggle.com/c/avazu-ctr-prediction
不利的一点是这题已经出来两个多月，还有2周就截止了。
有趣的是这题变量很多，啥machine learning的tool都可以随便试，所以目前已经提交
答案的队居然有1400+，估计都是啥顺手的toolbox都拿来试一试。
论坛上看到很多人说直接用Vowpal Wabbit,还没tuning呢，结果就接近目前排名最高的
team了。
大家有兴趣的一起看看？分享一下思路？
evaluation is based on Logarithmic Loss.
觉得不合理啊，实际应用中应该用number of correct prediction吧。
下午比较空，就下载了数据，load进hive，先算了算group by各个变量的CTR。
我目前的思路比较too simple too naive。就是每个变量替换成该group by变量的CTR
，然后general linear regression试试看效果如何。

G****o
发帖数: 229

数据量不小，处理起来比较花时间
如果感兴趣可以一起解决一下那个 driver-telematics-analysis。
每个单独的数据都比较小，而且截止日期还比较长。坏处是目前第一个成绩非常好。
有兴趣站内联系吧

s****h
发帖数: 3979

论坛里这个人一个多月前贴出的code，号称没怎么做tuning，已经可以达到0.402
现在的领先者也不过是0.38
主要code如下：
https://github.com/mkneierV/kaggle_avazu_benchmark/blob/master/run_model.py
就做了两步
1.feature hash
2.logistic regression

s********n
发帖数: 80

嗯，我一开始也看了，现在也在做。
Google有篇2013年的文章就是用logistic regression来做CTR的，Kaggle的论坛里面有
人把对应的Python code贴出来了。
Facebook在2014年也有篇文章，是先做GBM，然后用GBM生成的tree来做logistic
regression,号称要比直接做logistic Regression要好。

py

【在 s****h 的大作中提到】

: 论坛里这个人一个多月前贴出的code，号称没怎么做tuning，已经可以达到0.402
: 现在的领先者也不过是0.38
: 主要code如下：
: https://github.com/mkneierV/kaggle_avazu_benchmark/blob/master/run_model.py
: 就做了两步
: 1.feature hash
: 2.logistic regression

k*******6
发帖数: 103

看起来接近，0.402 已经排名1000开外了。。。

py

【在 s****h 的大作中提到】

s****h
发帖数: 3979

接触这题之前，我都不知道啥是feature hash. 现在也不理解为啥结果这么好？
觉得这个feature hash有点too good了。比起啥random forest，SVM强太多了。
那位解释一下？
另外一个问题：
某个特定的device_id (或者app_id, 或者device_id & appid的组合）占了总数据的10
%的话。
单独预测这个device_id的数据，会不会比和其他device_id的数据mix起来一起预测结
果更好？
开始贴这题，是因为看到一个直接OTTB的model结果就这么好，估计有办法improve
1. intraday pattern, 每个小时的CTR rate会有不同 (其实区别不大），估计很多
team也考虑到了；
2. 某天(1022)的数据和其他9天有些不同；
3. 误以为相同device_id&app_id, CTR for the first impression 会比average of
other impressions 大。
后来才发现，其实，app_id根本不是同一个content，device_id也不是同一个user
end device。（见我上面的问题）

不过，我ran a query，结果是，对于count ( # of impressions) group by
device_id & app_id 小的情况，
CTR for the first impression 会比average of other impressions 大，虽然
不是大很多，但也足够明显了。
而这点区别，feature hash ＋ GLR是不会利用上的。

i**********a
发帖数: 149

我也关注了这个contest，我是用random forest作的，除了把hour分出来，没有任何
tune和feature engineering, LB score是0.409。据说predict成constant都有0.43
正准备试下logistic regression, 然后加一些interaction的feature

10

【在 s****h 的大作中提到】

: 接触这题之前，我都不知道啥是feature hash. 现在也不理解为啥结果这么好？
: 觉得这个feature hash有点too good了。比起啥random forest，SVM强太多了。
: 那位解释一下？
: 另外一个问题：
: 某个特定的device_id (或者app_id, 或者device_id & appid的组合）占了总数据的10
: %的话。
: 单独预测这个device_id的数据，会不会比和其他device_id的数据mix起来一起预测结
: 果更好？
: 开始贴这题，是因为看到一个直接OTTB的model结果就这么好，估计有办法improve
: 1. intraday pattern, 每个小时的CTR rate会有不同 (其实区别不大），估计很多

c***z
发帖数: 6348

没有看错的话，feature hash增加的是速度，而不是精度吧
而且matrix也不解决sparsity的问题，不如用set
个人觉得问题的关键是click是rare event，所以相应的要采用resample + weighted
cost function （对于RF，就是balanced＋weighted RF）
这里的精度是AUC还是F1 score？

i**********a
发帖数: 149

大牛说的没错，feature hash只是另一种代替one hot encode的model categorical
variable的方法，好像跟SGD常用。会不会提高精度很难说，貌似很多时候精度跟
implementation也很相关。
kaggle论坛里面贴出来的方法就是online的train了一个logistic regression model，
用了feature hash。直接run那个code我得到了leadboard score 0.398，用了feature
之间的interaction反而降低了score，0.409
这里的score是logloss，不是AUC和F1

【在 c***z 的大作中提到】

: 没有看错的话，feature hash增加的是速度，而不是精度吧
: 而且matrix也不解决sparsity的问题，不如用set
: 个人觉得问题的关键是click是rare event，所以相应的要采用resample + weighted
: cost function （对于RF，就是balanced＋weighted RF）
: 这里的精度是AUC还是F1 score？

c***z
发帖数: 6348

谢谢科普logloss，受教了：）

feature

【在 i**********a 的大作中提到】

: 大牛说的没错，feature hash只是另一种代替one hot encode的model categorical
: variable的方法，好像跟SGD常用。会不会提高精度很难说，貌似很多时候精度跟
: implementation也很相关。
: kaggle论坛里面贴出来的方法就是online的train了一个logistic regression model，
: 用了feature hash。直接run那个code我得到了leadboard score 0.398，用了feature
: 之间的interaction反而降低了score，0.409
: 这里的score是logloss，不是AUC和F1

相关主题
● 现在的大数据技术的价值和功用有些被夸大了	● Data scientist / Machine Learning Engineer 相关面试题 (转载)
● Data Scientist的编程能力	● 求handle missing data的好方法
● 求Google 的 Data Science 有关的位置内推 (转载)	● 刚入行新人的两个问题
进入DataSciences版参与讨论

s****h
发帖数: 3979

借这个楼问个random forest的问题：
random forest都是直接在feature space上做？
还是会先假设features独立；根据某个feature A的数据分布，投射到某种更接近均匀
分布的feature A'上，用A'替换A？

i**********a
发帖数: 149

是的。没有假设feature独立
什么方法会需要假设假设feature独立，然后坐作变换啊?

【在 s****h 的大作中提到】

: 借这个楼问个random forest的问题：
: random forest都是直接在feature space上做？
: 还是会先假设features独立；根据某个feature A的数据分布，投射到某种更接近均匀
: 分布的feature A'上，用A'替换A？

s****h
发帖数: 3979

哦，假设features独立是我随口说的。说错了。
其实decision tree based 算法，是不是都无所谓feature之间关系怎么样？
Random forest就是怕有些feature太相关，所以才用树的一部分，而不直接用tree
bagging.
个人觉得这种算法都只能算是无可奈何的办法。和KNN差不多。
很多方法都希望变换之后的新features独立吧。
native bayes假设features独立，有些改进型就要做变换。

c***z
发帖数: 6348

个人理解，tree的优点之一就是不用考虑interaction terms／correlation between
terms，
在recursively partition的时候自动包括进去了

y******g
发帖数: 26

这个我当时做了，最后是80多名，LB score 0.389，第一名是0.377，0.01的差距其实
相当远，因为用sklearn里面的SGD都有办法达到0.39X
排名前面的主要用的都是FTRL和FM（都是logistic regression的变形），他们表现好
的原因在于数据的稀疏性（全都是多level的离散变量）
直接加入所有interaction会使结果变差，而有选择性的加入会大大提高精确度，同时
对于用户的ip地址要做一个处理，比如访问次数低于10次的作为“rare”
还需要feature engineering，比如要判定该用户使用的是电脑还是手机，比如判定出
某个用户过去总共有多少次点了多少次没点。里面的data全都是加密过的，但通过一些
手段可以得出这些信息

s****h
发帖数: 3979

你后面说的我也考虑到了。
需要根据deviceid ／ ip 访问的次数，判断到底是个人用户（次数低）还是网络设备
（次数高）
个人用户有些不同的pattern。
感觉data scientist现在很容易做，因为很多open source的工具，很方便。
要做好，就需要很多business analysis的技巧，也就是所谓的domain knowledge。
然后就是需要爱动脑筋，做中小学数学竞赛题那种脑筋。估计这里很多人这方面都有比
较强的背景。

【在 y******g 的大作中提到】

: 这个我当时做了，最后是80多名，LB score 0.389，第一名是0.377，0.01的差距其实
: 相当远，因为用sklearn里面的SGD都有办法达到0.39X
: 排名前面的主要用的都是FTRL和FM（都是logistic regression的变形），他们表现好
: 的原因在于数据的稀疏性（全都是多level的离散变量）
: 直接加入所有interaction会使结果变差，而有选择性的加入会大大提高精确度，同时
: 对于用户的ip地址要做一个处理，比如访问次数低于10次的作为“rare”
: 还需要feature engineering，比如要判定该用户使用的是电脑还是手机，比如判定出
: 某个用户过去总共有多少次点了多少次没点。里面的data全都是加密过的，但通过一些
: 手段可以得出这些信息

O*********y
发帖数: 923

random forest 就是因为选取部分feature而进一步降低correlation吧

【在 c***z 的大作中提到】

: 个人理解，tree的优点之一就是不用考虑interaction terms／correlation between
: terms，
: 在recursively partition的时候自动包括进去了

s****h
发帖数: 3979

G****o
发帖数: 229

s****h
发帖数: 3979

相关主题
● 请问哪些算法是可以用python写的，然后输入PMML	● 有关归类
● 我想写个survey报告关于KNN classification algorithms	● 怎样能才能快速的找到KNN
● spark 问题	● 回馈本版~ 最近面的面经和收集来的面经~
进入DataSciences版参与讨论

s********n
发帖数: 80

k*******6
发帖数: 103

看起来接近，0.402 已经排名1000开外了。。。

py

【在 s****h 的大作中提到】

s****h
发帖数: 3979

i**********a
发帖数: 149

c***z
发帖数: 6348

i**********a
发帖数: 149

c***z
发帖数: 6348

谢谢科普logloss，受教了：）

feature

【在 i**********a 的大作中提到】

s****h
发帖数: 3979

i**********a
发帖数: 149

是的。没有假设feature独立
什么方法会需要假设假设feature独立，然后坐作变换啊?

【在 s****h 的大作中提到】

s****h
发帖数: 3979

相关主题
● 帮朋友招人: 要很强business solution的senior level data scientist	● 有没有人想报Cloudera的Data Scientist Certificate的
● 40道经典DS/ML面试题解答，求指导	● 现在面对data science或programming的找工作和竞赛做题网站是泥沙俱下啊
● 转行数据挖掘和机器学习	● lending club的notes 数据
进入DataSciences版参与讨论

c***z
发帖数: 6348

个人理解，tree的优点之一就是不用考虑interaction terms／correlation between
terms，
在recursively partition的时候自动包括进去了

y******g
发帖数: 26

s****h
发帖数: 3979

O*********y
发帖数: 923

random forest 就是因为选取部分feature而进一步降低correlation吧

【在 c***z 的大作中提到】

: 个人理解，tree的优点之一就是不用考虑interaction terms／correlation between
: terms，
: 在recursively partition的时候自动包括进去了

(共1页)

进入DataSciences版参与讨论

相关主题
● 怎样能才能快速的找到KNN	● 求教! how to run python programs on a hadoop cluster
● 回馈本版~ 最近面的面经和收集来的面经~	● 现在的大数据技术的价值和功用有些被夸大了
● 帮朋友招人: 要很强business solution的senior level data scientist	● Data Scientist的编程能力
● 40道经典DS/ML面试题解答，求指导	● 求Google 的 Data Science 有关的位置内推 (转载)
● 转行数据挖掘和机器学习	● Data scientist / Machine Learning Engineer 相关面试题 (转载)
● 有没有人想报Cloudera的Data Scientist Certificate的	● 求handle missing data的好方法
● 现在面对data science或programming的找工作和竞赛做题网站是泥沙俱下啊	● 刚入行新人的两个问题
● lending club的notes 数据	● 请问哪些算法是可以用python写的，然后输入PMML

相关话题的讨论汇总
话题: feature话题: ctr话题: regression话题: device话题: logistic

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天