从全国首例短视频爬虫案浅谈数据爬取的合规要点

“爬虫”,本质是一种能自动获取网页信息并按照指定规则提取相应内容的程序。 但“爬虫技术”的广泛应用,带来的不仅是信息共享上的便利,更引发了诸多法律问题。

01 全国首例短视频爬虫案案情介绍

基本案情:

2021年9月,某信息公司员工吴某在网上巡查时发现有人在兜售一款“爬虫”软件,通过对方官网及电话购买了该软件。使用后,吴某发现该软件可以“爬取”自己公司后台数据和直播间用户的相关信息,随即报警。

经侦查,公安机关很快锁定了丁某。后经梁溪法院审理查明,被告人丁某在经营公司期间,从丁某某(另案处理)处购买一款“爬虫”软件代理权后,在明知该款软件系未经授权、专门用于入侵某短视频服务器后非法获取用户昵称、UID等数据的情况下对外销售。

2021年10月至12月期间,丁某组织公司销售人员通过网络向多人销售上述软件,违法所得共计24360元。

裁判结果:

法院认为,被告人丁某伙同他人提供专门用于侵入计算机信息系统的程序,情节严重,其行为已构成侵入计算机信息系统程序罪。

当庭判处丁某有期徒刑一年六个月,缓刑二年,并处罚金3万元。同时禁止丁某在缓刑考验期内从事互联网相关经营活动。

律师观点:

“网络爬虫”作为一项技术手段本身并不违法,但在使用爬虫爬取数据的过程当中,能否把握合法边界是“生死存亡”的关键。

由于本案的软件采取了避开或突破计算机信息系统的安全保护措施,未经许可进入被害单位的计算机系统,即属于非法获取计算机信息系统数据罪中的侵入行为。

02 国内网络爬虫法律规制的实践情况

目前,我国关于爬虫运用的法律法规或政策要求尚不明确,主要通过《中华人民共和国刑法》(下称“《刑法》”)《中华人民共和国反不正当竞争法》(下称“《反不正当竞争法》”)《中华人民共和国著作权法》(下称“《著作权法》”)等现有法律法规进行规制。

《刑法》的规制

诚如上述案例,若爬虫涉及侵入计算机系统的情况,则涉嫌触犯《刑法》第二百八十五条所规定的非法侵入计算机信息系统罪等罪名以及第二百八十六条所规定的破坏计算机信息系统罪;

若爬取的内容涉及个人信息,那么可能违反《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》关于收集个人信息合规性的要求,甚至可能触犯《刑法》第二百五十三条所规定的侵犯公民个人信息罪。

《反不正当竞争法》的规制

在未征得被爬取方授权的情况下,爬取数据的行为可能会违反Roberts协议,进而可能会被认定为违反《反不正当竞争法》第二条“诚实信用原则及商业道德”的规定。

同时,网络上的某些信息可以通过采取技术措施使得仅有特定用户可以接触,因此网络上的信息可能具备商业秘密要求的秘密性和保密性,构成商业秘密。

若爬取数据的过程中有意规避网络经营者设置的保护措施,接触、保存甚至披露了一般用户无法访问的信息,而该等信息又构成商业秘密,则爬取行为可能构成《反不正当竞争法》第九条所规定的“侵犯商业秘密”的行为。

另外,因为爬取数据的过程中可能会对被爬取方的网络系统造成妨碍,所以爬取行为可能违反《反不正当竞争法》第十二条[3]相关规定。

典型案例:

2022年5月23日,杭州市市场监管局查处了一起杭州某软件技术有限公司(下称“当事人”)不正当竞争案。

经查,当事人自2020年起利用他人的数据爬虫接口,开发了一款“搬家助手”软件,将相关爬虫接口内嵌入软件内,并在某社交电商平台(以下简称“P平台”)服务市场内上线,向“P平台”内经营者定向销售“搬家助手”应用服务。

“P平台”内经营者使用该“搬家助手”软件,可在“P平台”后台通过提交的第三方平台商品链接,直接将第三方平台内相关店铺及其销售商品的详细数据爬取后,按“P平台”的数据格式要求重新整合,并上传至“P平台”商家后台形成与被爬取店铺及商品完全相同的店铺及商品预上架的审核状态,待“P平台”内经营者确认后即可最终在其“P平台”店铺内上线并开展线上销售。

“数据搬家”过程中没有设置第三方平台经营者或平台内经营者授权同意的环节,实际操作中也未取得第三方平台经营者或平台内经营者的授权同意。

当事人开发的“搬家助手”应用共爬取第三方平台1800余万条商品详情数据,并将上述商品详情数据上传至“p平台”后台;其通过销售“搬家助手”会员服务,共计收取服务费用220余万元。

当事人上述行为同时违反了《中华人民共和国反不正当竞争法》第二条和第十二条第二款第(四)项的规定,杭州市市场监管局依法对当事人作出罚款120万元的行政处罚。

《著作权法》的规制

无论是网络上的文章、图片、视频资料,还是网站自身的数据库,都有可能在具备独创性的情况下构成著作权法保护的作品。对于该等信息的抓取和使用可能会构成对复制权、网络信息传播权等著作权的侵犯。

03 运用网络爬虫技术获取数据的合规建议

数据爬取行为不但容易引起监管部门的注意,亦会受到来自竞争对手的诉讼,建议爬取数据时注意以下几点:

1.进行事前综合评估与定期检查

参照《网络安全管理条例(征求意见稿)》第十七条第一款“数据处理者在采自动化工具访问、收集数据时,应当评估对网络服务的性能、功能带来的影响,不得干扰网络服务的正常功能”及《数据安全管理办法(征求意见稿)》第十六条“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止”之规定,数据爬取收集流量不得超过网站日均流量的三分之一。

因此,在进行数据爬取前,可以对拟抓取的数据类型、数量、频次,拟抓取对象网站性质、类型,拟抓取对象网站是否具备Roberts协议或反爬措施等进行评估,以避免造成目标网络崩溃、无法正常运营等情况。

2.应爬取明确公开的数据,遵守Roberts协议等网站明确公开的协议,避免爬取平台禁止爬取的数据

对于目标网站已经明确采取技术手段阻止爬虫访问的,爬取方不应侵入、破坏其防护措施;若目标网站明确发出停止数据爬取的相关通知说明,则应停止数据爬取行为,及时采取对策。

例如,爬取方爬取数据前可以提前设置抓取内容的限制策略,注意审查抓取内容,避免因抓取著作权法保护的作品、个人信息、商业秘密等而构成违法犯罪。已经抓取的,应当及时停止抓取行为并删除。

3.重点防范抓取商业模式相同或相似主体的平台数据,避免竞争对手依据《反不正当竞争法》提起诉讼的风险。

作者介绍