日前,有网友在微博中爆料,搜狗微信搜索数据遭遇“爬虫”侵入,其中,百度也公然违反Robots协议,对搜狗搜索的独家微信资源进行肆意抓取,以充实其搜索结果。
作为专注搜索引擎领域,关注机器学习的专家,该网友分析指出,腾讯仅将微信资源独家开放给了搜狗搜索,这种优质的独家数据需要“独家保护”,事实上搜狗也使用了搜索引擎常用的Robots协议,并明确指出搜狗微信搜索的数据是Disallow,除搜狗搜索以外的其他搜索引擎,如果能够获得这部分数据即为通过不正当的抓取获得。
(网友微博内容截图显示,搜狗Robots协议明确指出微信搜索的数据是Disallow)
(百度“爬虫”抓取搜狗微信搜索页面截图)
(搜狗搜索上对微信公众号内容的搜索结果页)
(百度抓取到相同内容并出现在其搜索结果页)
据悉,Robots协议(也称为爬虫协议)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。然而,作为国内知名搜索引擎,百度却无视该协议,肆意抓取搜狗搜索引擎中抓取的微信页面,无疑对搜狗搜索的业务带来了严重影响。
该网友客观且专业的分析,出乎意料地引发了近百名网友对话题的讨论,甚至得到了不少互联网行业大V的热议。参与话题讨论的网友中,有人援引此前3百大战中百度坚持“尊重Robots协议”、“反对不正当竞争”、“保护用户隐私”的产品理念,有网友调侃称“听见了李总被打脸的啪啪声”。
这类的评论出现正是因为,此前百度和360之间曾发起了一场“数据争夺战”。百度起诉奇虎360,明确表态对方违反“Robots协议”,非法抓取、复制百度网站内容的行为,严重侵害了百度的合法权益,构成了不正当竞争,并索赔1亿元。现在来看,当其在搜索市场的地位受到威胁时,百度玩的却是“双重标准”。过去一年,搜狗搜索在连接独有内容上获得突破,实现与百度产品的差异化。如今百度不遵守Robots协议直接抓取的行为,或许正是觊觎搜狗搜索所积累的独有数据优势。
百度抓取搜狗搜索独家内容一事曝光后,有业内人士表示,作为搜索引擎行业默认规则,若无视Robots协议,那么各大搜索引擎以及相互间存在竞争关系的市场参与者可以肆意抓取对方网站的内容,势必引发行业乱象。
近日,正在热播的《芈月传》也在百度云等平台上发生泄漏事件,81集可完整下载,版权方乐视网、花儿影视、腾讯视频、北京卫视、上海东方卫视等发布联合声明,谴责百度云盘等平台的盗播行为,加之对搜狗搜索独有微信数据的盗取行为,百度一系列企图用“偷盗”来维持其在搜索引擎内容上占有的做法,让行业和用户都质疑一家价值观出现问题的公司还可以走多远。