由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 如何检测malicious clicks on search results?
相关主题
关于如何检测服务器job完成的问题Kernel Programming Question: timestamp and synchronization
想学习Search方面的技术,怎么入门?看什么比较好10G文件的排序问题
linux, find command questionhow to count the times a function is used
my windows application, double click the icon doesn't workhow to convert GMT to timestamp of the computer's current time
下一个巨头是哪个?一个python script同时写一万多个文本文件
哇靠新浪被黑了,一上去就会狂连githubClearcase 的一点疑问
简单的perl问题弱问perl写网页buffer问题
一个没想明白的问题怎么样实现fuzzy join
相关话题的讨论汇总
话题: search话题: malicious话题: clicks话题: results话题: 检测
进入Programming版参与讨论
1 (共1页)
s*i
发帖数: 388
1
大公司面试题。
如何检测malicious clicks on search results? 就是说,有人可以写一个脚本乱点
search
results,导致search engine 后处理的时候的ranking改变,以达到损坏ranking
quality的目
的。
给你的log文件如下格式:
user id, session id, query, url, page, timestamp
g**e
发帖数: 6127
2
短时间内相同的user, session的大量点击行为可以mark出来,这些不计入ranking统计
就行了
除非他有成千上万的肉鸡,从不同IP运行这些脚本模拟点击行为(但不是连续点击),
这种就没招了吧,跟普通大量用户访问的行为差不多。有这种能力和资源的人很少,就
算有人就也会去干点更值钱的事,比如说偷点信用卡什么的

【在 s*i 的大作中提到】
: 大公司面试题。
: 如何检测malicious clicks on search results? 就是说,有人可以写一个脚本乱点
: search
: results,导致search engine 后处理的时候的ranking改变,以达到损坏ranking
: quality的目
: 的。
: 给你的log文件如下格式:
: user id, session id, query, url, page, timestamp

s*i
发帖数: 388
3
lol, that's my answer :)
and it seems that they r looking for some machine learning algorithm, but i
asked them and the interviewers said there is no training data.

【在 g**e 的大作中提到】
: 短时间内相同的user, session的大量点击行为可以mark出来,这些不计入ranking统计
: 就行了
: 除非他有成千上万的肉鸡,从不同IP运行这些脚本模拟点击行为(但不是连续点击),
: 这种就没招了吧,跟普通大量用户访问的行为差不多。有这种能力和资源的人很少,就
: 算有人就也会去干点更值钱的事,比如说偷点信用卡什么的

s*i
发帖数: 388
4
how do u steal credit cards using "meat chicken"?

【在 g**e 的大作中提到】
: 短时间内相同的user, session的大量点击行为可以mark出来,这些不计入ranking统计
: 就行了
: 除非他有成千上万的肉鸡,从不同IP运行这些脚本模拟点击行为(但不是连续点击),
: 这种就没招了吧,跟普通大量用户访问的行为差不多。有这种能力和资源的人很少,就
: 算有人就也会去干点更值钱的事,比如说偷点信用卡什么的

g**e
发帖数: 6127
5
这只是我一点简单naive的想法。如果要用ML,又没有training data,那就用common
sense,如果检查到某些页面在短时间内ranking飙升,很可能也是有问题的,这时候再
把那段时间的log记录拉出来再分析分析,面试当场也想不出什么高深的算法吧

i
统计
),
,就

【在 s*i 的大作中提到】
: lol, that's my answer :)
: and it seems that they r looking for some machine learning algorithm, but i
: asked them and the interviewers said there is no training data.

a****l
发帖数: 8211
6
hysteresis.

【在 s*i 的大作中提到】
: 大公司面试题。
: 如何检测malicious clicks on search results? 就是说,有人可以写一个脚本乱点
: search
: results,导致search engine 后处理的时候的ranking改变,以达到损坏ranking
: quality的目
: 的。
: 给你的log文件如下格式:
: user id, session id, query, url, page, timestamp

s*i
发帖数: 388
7
遲滯現象(Hysteresis)??
details?

【在 a****l 的大作中提到】
: hysteresis.
1 (共1页)
进入Programming版参与讨论
相关主题
怎么样实现fuzzy join下一个巨头是哪个?
一个SQL的题目哇靠新浪被黑了,一上去就会狂连github
急请教:用java实现解析parse一个log文件,多谢指点简单的perl问题
大家说怎么实现Snapshot isolation一个没想明白的问题
关于如何检测服务器job完成的问题Kernel Programming Question: timestamp and synchronization
想学习Search方面的技术,怎么入门?看什么比较好10G文件的排序问题
linux, find command questionhow to count the times a function is used
my windows application, double click the icon doesn't workhow to convert GMT to timestamp of the computer's current time
相关话题的讨论汇总
话题: search话题: malicious话题: clicks话题: results话题: 检测