s*i 发帖数: 388 | 1 大公司面试题。
如何检测malicious clicks on search results? 就是说,有人可以写一个脚本乱点
search
results,导致search engine 后处理的时候的ranking改变,以达到损坏ranking
quality的目
的。
给你的log文件如下格式:
user id, session id, query, url, page, timestamp | g**e 发帖数: 6127 | 2 短时间内相同的user, session的大量点击行为可以mark出来,这些不计入ranking统计
就行了
除非他有成千上万的肉鸡,从不同IP运行这些脚本模拟点击行为(但不是连续点击),
这种就没招了吧,跟普通大量用户访问的行为差不多。有这种能力和资源的人很少,就
算有人就也会去干点更值钱的事,比如说偷点信用卡什么的
【在 s*i 的大作中提到】 : 大公司面试题。 : 如何检测malicious clicks on search results? 就是说,有人可以写一个脚本乱点 : search : results,导致search engine 后处理的时候的ranking改变,以达到损坏ranking : quality的目 : 的。 : 给你的log文件如下格式: : user id, session id, query, url, page, timestamp
| s*i 发帖数: 388 | 3 lol, that's my answer :)
and it seems that they r looking for some machine learning algorithm, but i
asked them and the interviewers said there is no training data.
【在 g**e 的大作中提到】 : 短时间内相同的user, session的大量点击行为可以mark出来,这些不计入ranking统计 : 就行了 : 除非他有成千上万的肉鸡,从不同IP运行这些脚本模拟点击行为(但不是连续点击), : 这种就没招了吧,跟普通大量用户访问的行为差不多。有这种能力和资源的人很少,就 : 算有人就也会去干点更值钱的事,比如说偷点信用卡什么的
| s*i 发帖数: 388 | 4 how do u steal credit cards using "meat chicken"?
【在 g**e 的大作中提到】 : 短时间内相同的user, session的大量点击行为可以mark出来,这些不计入ranking统计 : 就行了 : 除非他有成千上万的肉鸡,从不同IP运行这些脚本模拟点击行为(但不是连续点击), : 这种就没招了吧,跟普通大量用户访问的行为差不多。有这种能力和资源的人很少,就 : 算有人就也会去干点更值钱的事,比如说偷点信用卡什么的
| g**e 发帖数: 6127 | 5 这只是我一点简单naive的想法。如果要用ML,又没有training data,那就用common
sense,如果检查到某些页面在短时间内ranking飙升,很可能也是有问题的,这时候再
把那段时间的log记录拉出来再分析分析,面试当场也想不出什么高深的算法吧
i
统计
),
,就
【在 s*i 的大作中提到】 : lol, that's my answer :) : and it seems that they r looking for some machine learning algorithm, but i : asked them and the interviewers said there is no training data.
| a****l 发帖数: 8211 | 6 hysteresis.
【在 s*i 的大作中提到】 : 大公司面试题。 : 如何检测malicious clicks on search results? 就是说,有人可以写一个脚本乱点 : search : results,导致search engine 后处理的时候的ranking改变,以达到损坏ranking : quality的目 : 的。 : 给你的log文件如下格式: : user id, session id, query, url, page, timestamp
| s*i 发帖数: 388 | 7 遲滯現象(Hysteresis)??
details?
【在 a****l 的大作中提到】 : hysteresis.
|
|