由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Military版 - 一个程序员写了个爬虫程序,整个公司200多人被端了
相关主题
我跟你说说IT程序员的那点事儿 (转载)游戏“缩水”电商遇瓶颈 网易过冬从裁员开始
360违反Robots协议将引发行业大乱华为将于明日发布Ascend 910 AI处理器:达芬奇架构最强芯
研究:女性程序员比男性更擅于编程 原因不明沈阳所:北冥有鱼,其名为鲲
美中情局国安部领导人私人账号遭高中生入侵多位诺贝尔物理学奖获得者质疑超光速现象
两个布什前总统是不是没有被邀请去State Dinner呀?中国人民老朋友英国前首相:中国已间接援欧
印媒称中国空军实力将超印,成为世界第二强继HH之后,带路党怒批摩罗:《中国站起来》的敌意和荒唐
这篇百度的洗地文章还可以为毛香港文化圈不冒酸?莫言的成就在中国属于大师级
随意看了下中国工资 要大于50w还是要管理TG遥感成像探测技术获重要突破
相关话题的讨论汇总
话题: 爬虫话题: 公司话题: 程序员话题: 程序话题: 数据
进入Military版参与讨论
1 (共1页)
g**1
发帖数: 10330
1
只因写了一段爬虫,公司200多人被抓!
“一个程序员写了个爬虫程序,整个公司200多人被端了。”
“不可能吧!”
刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有写过
几段爬虫呢?只因写爬虫程序就被端有点夸张了吧。
朋友说,消息很确认并且已经进入等待审判阶段了。
01.对消息进一步确认
朋友认识几个律师朋友,和他们有一些业务来往,得知他们想尝试把业务扩展到程序员
这个群体。那段时间我刚好离职也有时间,在朋友的安排下一起聊聊看看有没有合作的
机会。
他们为什么想扩展人群到程序员这个行业呢?其实就是因为他们代理了这名程序员的官
司,才发现很多程序员完全不懂法,直接说是法盲一点都不过分。
刚好我也很好奇程序员因爬虫被抓这个案子,看看到底是怎么回事,就和两名律师以及
朋友坐到一起,深入交流后才知道整个事件的来龙去脉。
这名程序员在被警察逮捕后,警察审问期间一直不承认自己触犯了法律,并且也完全没
有意识到自己犯法了。进去之后总以为警察搞错了,过几天就会把自己放出来,结果也
错过了取保候审的机会。
律师说,这名程序员的妈妈当时在他毕业的时候,就因程序员这个行业太辛苦不同意他
做程序员,但他对这个行业一直都很感兴趣,坚持做了一名码农,没想到两年后出现了
这个事情。
他们家里人都后悔死了,距离事发当日到现在已经过去了半年,当事者还被关在监狱中
。不管这件事如何收尾,对这名程序员和他的家庭都是一个很大的打击。
以下内容根据部分推测和网上资料整理而出,可能会有细微偏差。
02.一个爬虫引发的案件
某一个知名互联网公司,突然发现公司的服务器连续几天压力倍增,导致公司内部系统
崩溃不能访问,公司领导责令技术部尽快解决。
该公司系统平时访问量一直比较平稳,但不知为何这几天系统压力突然大增,经过技术
人员几天调查发现了一个惊人的真相,公司客户信息被抓取,并且某个接口访问量巨大。
随着技术人员的深入调查发现的现象更加震惊,入侵者利用这个入口已经窃取了大量的
客户信息,并且所有的线索都指向了一家大数据公司。
这家公司的主要业务就是,出售简历数据库。经核查该公司出售的简历数据中,就包含
自己家客户的简历信息。
技术部上报领导之后,公司开会商议后决定报案。
03.案发现场
案发前一段时间,小明(化名)接到了技术部领导的需求,要求写一段爬虫批量从网上
的一个接口抓取数据,爬虫开发完后测试没有问题,小明就将程序上传到了公司服务器。
程序运行了一段时间后,也许是有了新的需求,也许是小明想对爬虫程序进行进一步的
优化,将爬虫的线程数,由原来比较小的值调到一个比较大的值。
完善后的程序上传到服务器后,小明跟踪了下爬虫的进展,运行平稳并且速度快了很多
。提交之后像往常一样,小明就把这件事情忘了。
小明没想到自己这次提交的爬虫程序,竟然能把对方的服务搞挂了,也没想到自己因为
写了一段代码而坐牢。
04.整个公司被抓
2019年的某一个工作日,公司员工像往常一样忙忙碌碌,某个程序员和产品经理正在为
了一个需求争吵,小明带着耳机正坐在办公室敲代码。
突然就来了一大群警察,要求所有人离开工位,双手离开电脑、手机等设备。整个公司
的人都懵了,不知道发生了什么事情,但也都照办了。
警察很快查封了公司的所有办公用品,问技术部相关人员要了服务器的信息,公司全体
上下 200 多人无差别的全部送到看守所了解情况。
在去看守所的路上,大家都还心里想这是不是搞错了,我们只是一个科技公司公司又没
有骗人,怎么就集体被抓了。
小明也一直认为自己没有犯罪,自己只是一名技术人员而已,所有的工作也都是按照领
导要求来执行的,应该很快就会把我们释放了吧。
随后,公司非核心人员都被释放了出来,主要集中在 HR、行政人员。最后确认公司 36
人被捕,其中大部分是程序员。
被捕后小明委托的律师事务所,就是和我们交流的两位律师的事务所,据说小明入狱后
就一直不认为自己有罪,也因一直拒绝认罪从而错过了取保候审的机会。
目前小明还在等待最后的审判。。。
05.涉事公司背景
巧达科技号称是中国最大的用户画像关键数据服务提供商,专注于大数据及人工智能领
域前瞻性产品研发,客户覆盖互联网行业及泛金融领域。
高管多为百度出身,公司2017年净赚1.86亿元。
公司2014年7月成立,B轮估值2亿美元,目前已经到了C轮融资阶段,投资者包括李开复
创新工场、百度 风投齐玉杰、中信产业基金、人工智能产业基金等等。
巧达的创始人成予曾经是百度第一任产品部负责人、联合创始人沈毅曾经是百度电子商
务事业部技术总监和百度爱乐活技术副总裁。
公司曾宣称通过整合多达2.2亿份自然人简历、100亿个用户识别ID组合和1000亿+用户
综合数据,绘制出了涉及中国8亿人口的多维度数据。其中,包含个人隐私与非隐私信
息。
此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、
家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科
技自称拥有超过8亿自然人的认知数据。
也就是说,超过57%的中国人的信息都在巧达科技的数据库里面。
“基本上所有你能数的上名的大型互联网公司,都是巧达科技的客户。”一位之前简历
中介生意的从业者。
06.近期多个大数据公司被查
最近的大数据行业,风声鹤唳。
在中秋节前一天,中国电信控股的子公司天翼征信传出风声,其总经理、副总经理以及
市场人员被警察带走,原因是与其合作的大数据公司被警方调查。
在天翼之前,新颜科技CEO黄向前被警方带走、魔蝎科技公司CEO周江翔涉事被查、公信
宝公司门口被贴了封条、知名第三方数据服务公司聚信立宣布将暂停对外提供用户授权
的运营商爬虫服务……
此外,国内大数据风控平台龙头同盾科技也被曝爬虫部门已解散,CEO蒋韬已出国避风
头,对此,同盾科技昨日发表辟谣声明表示,子公司杭州信川科技有限公司确实停止爬
虫业务,但其他言论均属不实。
.....
据内部消息,最近监管对数据乱象出手,开始清理行动,15家公司被列入调查名单,其
中几家估值都超几十亿。
国内很多大数据公司的数据来源多多少少都有一定的问题,随着我国今年6月1日起,《
中华人民共和国网络安全法》将实施,所有的网上行为将越来越严格,如果还按照之前
的惯性去操作,迟早会出问题。
07.程序员谨慎使用技术
不知道大家是否发现,随着国家经济的不断发展,以前可能处于灰色阶段的行业,现在
几乎都慢慢不能做了。写这篇文章的目的,也是为了警示大家技术是无罪的,但是用到
了错的地方代价也是非常巨大的。
我之前看过这样一个报道,一个程序员因为爱好写了一个小程序,并且把此程序上传到
了互联网上,没想到过了两年之后,有人利用这个小程序非法获利500多万。
虽然这名程序员并没有因为这个程序而获利,但是间接给犯罪人员提供了犯罪的工具,
最后被判刑 2 年缓期 2 年执行。
程序员的生活是简单的,工作大概也只关心代码和BUG。小明也从来没有把自己的职业
和犯罪联系在一起。
技术本身是不违法的,就好像一把水果刀,如果用来削苹果削梨没有任何问题,但是用
来伤人就是凶器,就要被列入物证list。
爬虫也是如此,在大多数情况下,只是采集互联网上的公开信息,很难说是违法行为。
但是一旦涉及入侵到别人系统去获取数据,那必然存在着法律风险。
可能很多同学是懵的,很多互联网公司就是靠抓取数据活着的。他只是正常执行公司安
排的工作任务,怎么就涉嫌犯罪了呢?
这里结合律师朋友给出的一些建议,这里摘录出来仅供参考。
08.单位犯罪和个人犯罪的关系
首先了解一下单位犯罪。除了自然人犯罪,还有单位犯罪,是指公司、企业、事业单位
、机关、团体为单位谋取利益,经单位决策机构或者负责人决定实施的,法律规定应当
负刑事责任的危害社会的行为。
我国刑法对单位犯罪原则上采取双罚制度,即单位犯罪的,对单位判处罚金,并对其直
接负责的主管人员和其他直接责任人员判处刑罚。相关司法解释规定,在审理单位故意
犯罪案件时,对其直接负责的主管人员和其他直接责任人员,可不区分主犯、从犯,按
照其在单位犯罪中所起的作用判处刑罚。
因此,公司犯罪有可能会牵连员工,尤其是案件中对非法获取数据有直接责任的爬虫工
程师。这也是为什么当事人在公司人小言微但还是被批捕的原因。
其次,是否可以“不知者不为罪”来辩解?刑法原则之一是法无明文规定不为罪,并没
有“不知者不为罪”。主观上的恶意是衡量犯罪的要素之一,结合客观上的行为来推理
主观恶意。破解别人的服务器,获取别人不公开的信息,不能说没有恶意,不能以不懂
法来搪塞。
09.重点:什么样的爬虫是违法?
如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码
、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民
个人信息的违法行为。
除此之外,根据相关规定,对于违反国家有关规定,向他人出售或者提供公民个人信息
,情节严重的,窃取或者以其他方法非法获取公民个人信息的,均可构成成“侵犯公民
个人信息罪”,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,
处三年以上七年以下有期徒刑,并处罚金。
重点关注:下列情况下,爬虫有可能违法,严重的甚至构成犯罪。
1.爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相
关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。
2.爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计
算机信息系统罪”
3.爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为
,情节严重的,有可能构成“侵犯公民个人信息罪”。
10.最后
最后提醒大家敬畏法律,热爱生活。
愿每一个程序员都可以用自己的技术去改变世界,让我们的社会变得更加美好!
参考:
燃财经:利用爬虫获取简历 36人被批捕
支付百科:现金贷风控遇至暗时刻:整个行业快被抓完!
X****i
发帖数: 1877
2

【公司能力不行,爬虫应该用可轮换的几千个VPN】
这在米国的黑客里,是最基本常识。所以这公司太垃圾。
本来几十元一年就可以预防的问题,何须付高昂律师费?

【在 g**1 的大作中提到】
: 只因写了一段爬虫,公司200多人被抓!
: “一个程序员写了个爬虫程序,整个公司200多人被端了。”
: “不可能吧!”
: 刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有写过
: 几段爬虫呢?只因写爬虫程序就被端有点夸张了吧。
: 朋友说,消息很确认并且已经进入等待审判阶段了。
: 01.对消息进一步确认
: 朋友认识几个律师朋友,和他们有一些业务来往,得知他们想尝试把业务扩展到程序员
: 这个群体。那段时间我刚好离职也有时间,在朋友的安排下一起聊聊看看有没有合作的
: 机会。

h*********4
发帖数: 1
3
看得我老色色发抖
天天爬老邢的器人

过几段爬虫呢?只因写爬虫程序就被端有点夸张了吧。
员这个群体。那段时间我刚好离职也有时间,在朋友的安排下一起聊聊看看有没有合作
的机会。

【在 g**1 的大作中提到】
: 只因写了一段爬虫,公司200多人被抓!
: “一个程序员写了个爬虫程序,整个公司200多人被端了。”
: “不可能吧!”
: 刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有写过
: 几段爬虫呢?只因写爬虫程序就被端有点夸张了吧。
: 朋友说,消息很确认并且已经进入等待审判阶段了。
: 01.对消息进一步确认
: 朋友认识几个律师朋友,和他们有一些业务来往,得知他们想尝试把业务扩展到程序员
: 这个群体。那段时间我刚好离职也有时间,在朋友的安排下一起聊聊看看有没有合作的
: 机会。

B*Q
发帖数: 25729
4
弯道超车
c*********n
发帖数: 1282
5
所谓爬虫就是crawler,这要是违法,google全体都该枪毙。
搜索引擎的资料来源基本上都是crawler。写个crawler算什么违法!
c****3
发帖数: 10787
6
这不是爬虫吧
利用对方给客户的接口,把所有数据都爬走
尼玛双方都是猪,才会发生这种事情
l******t
发帖数: 55733
7
写的烂变成dos攻击了,当然可能犯罪

【在 c*********n 的大作中提到】
: 所谓爬虫就是crawler,这要是违法,google全体都该枪毙。
: 搜索引擎的资料来源基本上都是crawler。写个crawler算什么违法!

b*********r
发帖数: 44
8
只要涉及到个人和部门信息,即使全部信息是公开的,获取是合法的,但是你整合了以
达到别的目的,是违法的。不过这个算是新法规
k******r
发帖数: 2300
9
根据这个新法规那百度违法吗?


: 只要涉及到个人和部门信息,即使全部信息是公开的,获取是合法的,但是你整
合了以

: 达到别的目的,是违法的。不过这个算是新法规



【在 b*********r 的大作中提到】
: 只要涉及到个人和部门信息,即使全部信息是公开的,获取是合法的,但是你整合了以
: 达到别的目的,是违法的。不过这个算是新法规

N**********d
发帖数: 2466
10
这种人应该重判,个人信息泄露有时是致命的。
[在 gc01 (gc01) 的大作中提到:]
:只因写了一段爬虫,公司200多人被抓!
:“一个程序员写了个爬虫程序,整个公司200多人被端了。”
:“不可能吧!”
:刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有写
过几段爬虫呢?只因写爬虫程序就被端有点夸张了吧。
:朋友说,消息很确认并且已经进入等待审判阶段了。
:01.对消息进一步确认
:朋友认识几个律师朋友,和他们有一些业务来往,得知他们想尝试把业务扩展到程序
员这个群体。那段时间我刚好离职也有时间,在朋友的安排下一起聊聊看看有没有合作
的机会。
:他们为什么想扩展人群到程序员这个行业呢?其实就是因为他们代理了这名程序员的
官司,才发现很多程序员完全不懂法,直接说是法盲一点都不过分。
:刚好我也很好奇程序员因爬虫被抓这个案子,看看到底是怎么回事,就和两名律师以
及朋友坐到一起,深入交流后才知道整个事件的来龙去脉。
:这名程序员在被警察逮捕后,警察审问期间一直不承认自己触犯了法律,并且也完全
没有意识到自己犯法了。进去之后总以为警察搞错了,过几天就会把自己放出来,结果
也错过了取保候审的机会。
:..........
相关主题
印媒称中国空军实力将超印,成为世界第二强游戏“缩水”电商遇瓶颈 网易过冬从裁员开始
这篇百度的洗地文章还可以华为将于明日发布Ascend 910 AI处理器:达芬奇架构最强芯
随意看了下中国工资 要大于50w还是要管理沈阳所:北冥有鱼,其名为鲲
进入Military版参与讨论
b*********r
发帖数: 44
11
光是帮你搜索网页当然没问题

【在 k******r 的大作中提到】
: 根据这个新法规那百度违法吗?
:
:
: 只要涉及到个人和部门信息,即使全部信息是公开的,获取是合法的,但是你整
: 合了以
:
: 达到别的目的,是违法的。不过这个算是新法规
:

k******r
发帖数: 2300
12
那你怎么判断百度没有“整合以达到别的目的”?


: 光是帮你搜索网页当然没问题



【在 b*********r 的大作中提到】
: 光是帮你搜索网页当然没问题
s********i
发帖数: 17328
13
公司做这种买卖难道不应该先雇律师吗?难道等出了事儿才找律师?
b*********r
发帖数: 44
14
你家有个榔头,人就得怀疑你曾入室抢劫?

【在 k******r 的大作中提到】
: 那你怎么判断百度没有“整合以达到别的目的”?
:
:
: 光是帮你搜索网页当然没问题
:

T****t
发帖数: 11162
15
尼玛,太杞人忧天了,百度个破搜索引擎啥都搜不到,怎么会犯罪呢?


: 光是帮你搜索网页当然没问题



【在 b*********r 的大作中提到】
: 你家有个榔头,人就得怀疑你曾入室抢劫?
s********i
发帖数: 17328
16
这不是判断问题,百度有privacy policy。哪些可以爬,哪些不能爬,哪些万一爬出来
了,也要删掉,哪些数据可以卖,等等,都有人把关的。(理论上)

【在 k******r 的大作中提到】
: 那你怎么判断百度没有“整合以达到别的目的”?
:
:
: 光是帮你搜索网页当然没问题
:

k******r
发帖数: 2300
17
不是百度有什么 privacy policy 而是一般网站都有一个robots.txt 我当然清楚百度
没有问题 因为百度的爬虫是公开的 我的问题是你所说的所谓新法规的解读 还是说那
个新法规是你编的


: 这不是判断问题,百度有privacy policy。哪些可以爬,哪些不能爬,哪些万一
爬出来

: 了,也要删掉,哪些数据可以卖,等等,都有人把关的。(理论上)



【在 s********i 的大作中提到】
: 这不是判断问题,百度有privacy policy。哪些可以爬,哪些不能爬,哪些万一爬出来
: 了,也要删掉,哪些数据可以卖,等等,都有人把关的。(理论上)

s********i
发帖数: 17328
18
不是我说的。不要认错人。我认为整合以后也有个目的问题。你整合出来干嘛?比如敲
诈勒索,肯定不行。法律应该规定了哪些整合可以哪些整合不可以。

★ 发自iPhone App: ChinaWeb 1.1.5

【在 k******r 的大作中提到】
: 不是百度有什么 privacy policy 而是一般网站都有一个robots.txt 我当然清楚百度
: 没有问题 因为百度的爬虫是公开的 我的问题是你所说的所谓新法规的解读 还是说那
: 个新法规是你编的
:
:
: 这不是判断问题,百度有privacy policy。哪些可以爬,哪些不能爬,哪些万一
: 爬出来
:
: 了,也要删掉,哪些数据可以卖,等等,都有人把关的。(理论上)
:

1 (共1页)
进入Military版参与讨论
相关主题
TG遥感成像探测技术获重要突破两个布什前总统是不是没有被邀请去State Dinner呀?
王建宇完成的“多维精细超光谱遥感成像探测技术”印媒称中国空军实力将超印,成为世界第二强
美智库将中国列为一级国家 成美国未来首要对手这篇百度的洗地文章还可以
伊拉克共产党印发《论持久战》:这不是自打耳光吗?随意看了下中国工资 要大于50w还是要管理
我跟你说说IT程序员的那点事儿 (转载)游戏“缩水”电商遇瓶颈 网易过冬从裁员开始
360违反Robots协议将引发行业大乱华为将于明日发布Ascend 910 AI处理器:达芬奇架构最强芯
研究:女性程序员比男性更擅于编程 原因不明沈阳所:北冥有鱼,其名为鲲
美中情局国安部领导人私人账号遭高中生入侵多位诺贝尔物理学奖获得者质疑超光速现象
相关话题的讨论汇总
话题: 爬虫话题: 公司话题: 程序员话题: 程序话题: 数据