江陵信息门户网

爬虫玩的好,监狱进的早?

2019-11-09 10:23:36 阅读:( 237)
摘要:在巨大的压力下,他最终向父母坦白,并偿还了高达10万元的网络贷款。同时,杭州新川相关人员也积极协助警方调查第三方单位的情况。事实上,网络安全和几个联合部门目前正在对大数据行业进行严格的政治调查。据接近

“我终于着陆了,也许我不需要再出海了?”Ai planet拜访了一个深陷网络贷款多年的年轻人。

如今,许多人会因各种情况而借钱。如果他们没有,他们会借的。如果他们不付款,他们将分期付款。如果他们不分期付款,他们就会过期。

这种贷款生活逐渐陷入“病态循环”,因此大多数负担过重的借款人会还清所有贷款,卸载应用程序,并将手机号码改为自己“登陆”,以改善这种状况。

这位90后贷款申请人是一名创业大学生,几年前刚从校园里出来。他不好意思向父母要钱。过去几年来,他一直过着支持贷款的生活。在此期间,从未出现任何逾期现象。

然而,直到今年年初,平静的日子还是被威胁打破了,比如“每天打几十个电话,试图暴露邮件列表,经常向父母问候”。因此,90后贷款接受者仅在20天内就偿还了60,000多笔网络贷款。在巨大的压力下,他最终向父母坦白,并偿还了高达10万元的网络贷款。

“虽然不是直接贷款平台,看着他们一个接一个地检查,现在他们终于可以尝到恐惧和不安的感觉……”这家90后贷款人在听说几家风力控制公司最近被逮捕后表示。

如今,大数据风险控制被广泛应用于金融业。例如,在银行,贷款业务是占银行风险控制日常工作比例最高的业务类型。

当客户阅读贷款详细信息时,一些中级风险控制部门通常开始对贷款接受者的个人风险评估进行风险审查。只有审核通过后,才能提交给更高一级的管理部门审批。对于一些期货、信托、小额贷款、金融租赁公司来说,它们专注于信贷、运营、市场、交易对手和其他风险操作。

在消费金融技术领域,大数据风控制已经成为一个关键环节。

然而,大数据风控制行业正面临一个多事之秋。许多为互联网小额贷款公司、个人消费业务金融和其他公司提供服务的大数据风控制公司被抓,它们的爬虫业务因“与黑有关”的原因被暂停。

这些企业背后的“收紧或停止数据服务”与涉嫌使用网络爬虫技术侵犯个人隐私有关。

9月6日下午,大数据控风平台杭州蝎子科技有限公司(以下简称蝎子科技)创始人兼首席执行官周江祥被警方带走调查。他公司的数据采集业务涉嫌侵犯隐私和协助暴力收集。

根据公共信息,蝎子科技(Scorpion Technology)成立于2016年1月,是一家提供精准营销、风险分析、反欺诈、多维用户档案、信用评级等多维风险管理服务的公司。事发当天,其官方网站无法登录,服务突然终止,甚至一些员工失业。

同一天,另一大数据风控服务提供商欣彦科技人工智能技术有限公司(以下简称欣彦科技)首席执行官黄千千也被警方带走协助调查。关于此事,欣欣科技的内部客户服务人员否认,称“他们对此一无所知,业务正常”

至此,大数据风控公司被抓调查的局面还没有结束。更糟糕的是,情况就像多米诺骨牌一样,不断崩溃。

不到一周之后,第三方数据服务公司聚新力(Juxin Li)9月10日宣布,“从9月6日开始,将停止向用户提供“crawler”相关服务,并将配合国家政策整顿内部业务部门”,并于次日关闭。

另一方面,一些内部人士透露,9月12日上午,包括天一信用局总经理、副总经理和市场人员在内的10多人全部被警方带走。天一信用调查局的一名内部员工表示,“信用调查局以前曾与几个被调查的爬虫合作过,这次我主动解释了情况。”

大数据行业陷入混乱,整个大数据行业如履薄冰,更糟糕的事情还在继续。

据黄金时代独家报道,大数据风控制平台和盾牌科技的真正控制者兼首席执行官江涛于9月16日解散了旗下的爬行动物部门,以躲避风,并建议员工不要随便“离开”,否则他们会“被抓住”。

显然,同登科技也卷入了“爬行动物风暴”,所以在事件的第二天,同登科技站起来“驳斥谣言”:“首席执行官逃跑,员工被恐吓,朋友被举报都是无稽之谈。同登科技创始人蒋韬将继续在中国开展日常公司事务,几个魔盒已经停止相关业务。”

今天(9月27日),据宅客频道报道,江涛被迫发表公开声明。董通再次“驳斥了关于这个数据魔盒的谣言”,称董通科技的子公司杭州新川科技有限公司不涉及金融业务,也不抽干或出借资金。同时,杭州新川相关人员也积极协助警方调查第三方单位的情况。一旦发现客户违规,东通科技将立即终止合作。(具体如下)

起初,一系列著名的爬行动物公司相继被带走进行调查。业内人士认为,被调查和抓到的只是从事爬行动物相关业务的公司。然而,随着工信报的关闭,甚至国有企业如天一信用调查的介入,该行业开始引起恐慌。

对于现金贷款行业和大数据风控制服务行业来说,9月似乎是“黑暗的一个月”。最初的案件导致了一些数据公司被逮捕。当时,调查和惩罚从杭州蔓延到上海,这似乎已成为全国性的反三合会活动。

事实上,网络安全和几个联合部门目前正在对大数据行业进行严格的政治调查。据接近管理层的人士称,“数据公司的重组和清理是一项重大活动”,数十家大数据公司参与了调查。

近年来,大公司的高层管理人员因“参与非法活动的爬虫”而被带走接受调查的消息屡见不鲜。

去年年底,有消息称,现金贷款系统供应商受到财务控制,消费技术服务提供商与牛科技“失去联系”,以及前几年著名的百度和岐狐360事件。

2014年8月7日,北京第一中学就岐狐科技有限公司(以下简称岐狐公司)是否因不当行为违反百度机器人协议做出一审判决。

法院认为,岐狐公司违反了百度的《爬行机器人协议》,并基于360搜索引擎随意抓取百度网页,甚至将用户浏览链接直接跳转到360快照界面的不当行为,决定赔偿百度50万元的经济损失和20万元的其他合理费用。

百度称360违反机器人协议,任意接管百度网站内容,侵犯百度权益。

大数据风控制行业和所有大公司都在不断经历一波又一波的“冲击”。其中一个导火索是因为——“爬虫生意”。这似乎也证实了技术圈子里的一句谚语:“爬行动物玩得很好,很早就去坐牢。”

2000年,易趣对价格比较网络be提起诉讼,指控其故意违反“君子协定”。

易趣是一个电子交易网站,它在诉讼中说:如果让它采取行动,它将鼓励其他从事类似业务的公司鲁莽地搜索易趣的交易系统,这将导致易趣因系统瘫痪或数据丢失而遭受巨大损失。

最终,诉讼以易趣的胜利告终。这也是历史上第一起关于君子协定争议的“爬行动物案件”。从那以后,爬行动物技术和君子协定慢慢进入了普通人的家庭。

大数据行业形势严峻,现金贷款行业的许多公司遭到广泛指责。许多被举报、捕获和指控的商业公司也在使用“爬虫技术”来持续爬行、收集和整理数据。

一位目前在搜索引擎公司工作的研发工程师告诉ai planet:“爬虫本质上是获取‘信息数据’的一种方式,除此之外,它们还包含一些不常用的名字,如蚂蚁、自动索引、模拟程序或蠕虫。”

随着网络的不断发展,万维网(中国最大的域名注册和虚拟主机服务提供商)逐渐成为信息的载体。当信息应运而生时,越来越多的企业正在利用信息获取利润。因此,它被称为“网络爬虫”(也称为网络爬虫)。

在万维网上,所有的网页都通过超链接相互连接,形成一个巨大的“网络结构”,爬行器只是根据这种特殊的网页结构沿着紧密的超链接连续爬行数据,并自动爬行万维网上的程序或脚本信息:

爬行动物通过网址输入抓取种子、解析html网页、提取超链接和抓取信息,从而不断地来回循环。

不管它是开放的还是黑暗的,对于爬虫来说,网站通常处于被动和被动的位置。

在这场利用爬虫技术获取“信息和数据”的战争中,胜利和失败对士兵来说是很自然的事。有些搜索引擎公司“跨越了五个障碍和六个将军”,从诉讼中幸存下来,并从自己的口袋里拯救了自己的生命,还有现在在国内外享有盛誉的谷歌搜索引擎巨头。

然而,值得考虑的是,百度和谷歌搜索引擎巨头也在利用“爬虫”达到“信息时代”的巅峰,而天蝎座、欣欣和李聚新等科技公司则被推到了“非法犯罪”的最前沿,这主要与企业之间的“君子协定”有关。

20世纪90年代初,一些搜索引擎网站使用爬虫技术在互联网上捕捉大量信息。为了营造一个和谐的网络环境,一些搜索引擎从业者和站长通过邮件建立了“绅士协议”(Generals Agreement)。

根据对ai planet的采访,一位资深程序员表示:“从功能上讲,当谷歌收集数据时,有一种叫做seo(搜索引擎优化)的方法,这种方法在工作原理上与crawler相似,并且有自己既定的君子协定。”

多年来,在爬虫技术方面,各种网站都建立了自己的“君子协定”(绅士协定)——机器人协定——来保护自己的权益,以防止肆无忌惮的商人和个人利用爬行的数据和信息进行非法交易。

机器人排除协议(ROBOS)是一种既定的规则,网站告诉一些“爬虫玩家”和搜索引擎哪些页面需要捕捉,哪些页面不需要捕捉,以维护自己的数据信息。

例如,这是京东的“君子协定”:

(不要让无聊的代码阻止你继续阅读的欲望,真正的君子协定将是“亮剑”)

在上述协议中:用户代理指示哪些爬网程序有效,*指示所有爬网程序;不允许,就像它的翻译一样,表示爬网程序拒绝爬网的网址,/表示根目录;通常当一个爬虫抓取一些网站时,它需要得到robots.txt文件,并且通过分析其中的规则,它可以知道它可以抓取的范围和规则。

然而,事实上,这些规则是一种道德认可。在爬行动物看来,如果遵守“君子协定”,绅士就是绅士。当他视而不见时,他就像撕一张废纸。

据高级程序员ai planet称:“两年前,在当时的数据交易市场上,爬虫捕获的数字和身份等信息通过隐藏网络和其他渠道出售。价格通常根据数量和质量来划分。每种价格从1美分到5美分不等,一些信息,比如更多的私人身份证号码,多卖了几美分。尽管每只爬行动物只需几美分,但每次爬行的爬行动物数量至少有数万只。”

尽管机器人绅士的协议明确规定了哪些网站可以被抓取,哪些信息不能被获取,道德似乎总是向利益让步。

不仅如此,这位绅士的协议还有一个明显的暴露隐私的问题:在robots.txt中清楚地列出“无法爬行的网站”,这相当于挑衅,激起了一些爬行动物检测“无法获得的永恒混乱”的强烈愿望。

君子协定是为了保护隐私还是故意泄露隐私?没有严格的法律来支持它。君子协定徘徊在道德和被忽视之间。君子协定何时才能成为真正的君子?

爬行动物和反爬行动物之战:黑色和灰色工业的诱惑

爬行动物技术首次出现时,互联网仍然是一片“净土”,每个从业者都会默默地遵守“君子协定”。

随着互联网的发展,个人隐私已经开始成为一种商品出售。在利益面前,“君子协定”只是一种道德。当君子协定开始到期时,反爬虫技术也应运而生。

商家开始使用技术手段来保护自己的利益:例如,当用户浏览网站太快时,系统会要求输入验证码,因为这种快速浏览行为类似于爬虫。

现在,“爬虫”关键词像这样被随机输入到搜索引擎中。大大小小的爬虫工具,“蟒蛇课程”出现了。

诚然,爬虫技术近年来已经兴起,各公司的网站已经建立了“君子协定”来保护用户的隐私,但这还远远不够。据媒体报道,去年8月28日,中国生活集团(China Living Group)旗下近5亿家连锁酒店开业,居民信息被卖家打包出售在“暗网中。

显然,把容易撕毁的“君子协定”作为对抗爬行动物的最终保护墙是远远不够的。为此,他们还在各公司的网站上建立了自己的“反爬行动物机制”。反爬行动物,就像它的名字一样,是“爬行动物”的一种核心技术。

根据一家搜索引擎公司的研发工程师所说,反爬虫和爬虫之间最初的攻击和防御战是检测http头文件的版本号。一旦反爬虫发现爬虫的不当抓取行为,它将立即通过返回“404,空页面,500”和其他错误的页面信息来停止其不当行为。

在某种程度上,爬虫本身不具备浏览器的功能,而只是作为客户端存在。在网络中,没有绝对安全的系统,只有在激烈的攻击和防御中不断完善自己的防御和攻击,才能赢得稳定。

在对爬行动物无休止的攻击中,网站只会不断增加反爬行动物的复杂性,这使得肆无忌惮的经销商越来越难以编写爬行动物。随着爬行动物的复杂性不断增加,营销人员的成本也呈上升趋势。

“当制作爬虫的成本远远高于获取信息数据的好处时,爬虫的存在就变得毫无意义。”这是反爬虫的核心概念。

据ai planet采访的高级程序员称,如果一家公司数据库的信息数据是在黑网上获得的,那么只有2g的数据可以卖到3到4万元,所以很多兼职爬虫程序员会利用这个黑白两色的行业不断为自己谋利。

在一份报告中,一名程序员在工作之外的业余时间从事爬行类兼职工作,仅在一年内就获得了50多万元的额外收入。......

目前,网页的反爬虫机制似乎不足以让“爬虫”放弃,也远不能抵挡隐藏在深处的“黑灰色产业”带来的诱惑。战斗将会继续。......

爬行动物,就其本质而言,作为一种计算机技术,决定了它的中立性。他们自己的技术不能违反法律,但是使用它们获取非法数据的行为会带来犯罪的风险。

在刑法中,爬行动物法如下:

刑法第二百八十五条第二款:违反国家规定,侵入前款规定以外的计算机信息系统,或者采用其他技术手段获取计算机信息系统中存储、处理或者传输的数据,或者非法控制计算机信息系统的。

处罚:情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

《刑法》第285条明确指出,“获取计算机信息系统中存储、处理或传输的数据”是非法行为,但大多数时候道德判断与人们的潜意识相混淆。

使用爬虫技术不仅可以批量获取网络上的公共信息,还可以捕获非法的个人隐私信息。

就像谷歌的搜索引擎一样,它每隔几天扫描和更新一次网页。用户可以实时获得最新消息。虽然这种爬虫违反法律法规,但在一定道德水平上被定义为“善意爬虫”。

与此同时,从抓取私人数据到在黑网上销售,“恶意爬虫”只能从法律层面来看待它。

“君子协定”被认为是一种道德约束,而反爬行机制则是九倍于九倍的距离。从道德到法律,爬虫仍然是“多面的”。在适当的时候,我们应该给像普通公民一样的爬行动物发放身份证:因为爬行动物,像人类一样,将被使用,将在道德和法律之间徘徊,爬行动物将变得越来越困难。......

快乐十分开奖结果 吉林快三投注 安徽快3投注 广东快乐十分app