《网络安全法》背景下大数据业务合规要点

big_data_matrix.jpg
全国人民代表大会常务委员会2016年11月7日发布的《中华人民共和国网络安全法》(以下简称“《网络安全法》”)及配套法律法规已于2017年6月1日生效,《网络安全法》的实施对于以大数据为主营业务的公司(以下简称“大数据公司”)将产生重大影响,其中重要方面之一即在于大数据公司数据挖掘的合规性。

大数据公司业务——以大数据征信为例

某公司核心产品或服务主要采取SAAS(Software as a service,软件即服务)的用户服务模式,主要面向模式银行、第三方支付、P2P及小贷公司、消费金融、理财平台、电商平台等主流金融机构或金融平台(“风控商户”),主要用于解决以上风控商户在线运营各阶段所可能产生的风险控制问题,降低风控商户在线风控成本,风控过程主要包括:

1、注册登录阶段:木马钓鱼、界面劫持、密码明文等;
2、平台交易阶段:批量注册、伪冒申请、模拟交易、异常登陆、团伙欺诈等;
3、用户判别阶段:高风险用户、虚假用户等(反欺诈云/资信云)。

其中,与本次《网络安全法》所涉相关的主要为产品涉及到两大类数据采集情形:其一为数据信息主体通过向风控商户授权间接授权该公司使用,其二为该公司通过爬虫相关技术主动从公开信息源爬取信息后整理。两类数据获取及使用行为关涉个人信息及隐私权保护,进而影响到公司现时及未来业务的合规性问题。

大数据采集所涉法律法规

根据前述公司业务模式及流程,公司大数据风控业务主要涉及到数据采集、数据分析、数据存储、数据运算、数据输出环节,该类环节涉及到互联网服务提供商(ISP)对互联网用户的个人隐私、商业秘密、数据安全等的保护问题,经梳理现行与大数据信息采集等业务的相关法律法规及其要点如下:

(一)《规范互联网信息服务市场秩序若干规定》(工业和信息化部令第20号)

2012年3月15日生效的《规范互联网信息服务市场秩序若干规定》(工业和信息化部令第20号,以下简称“20号文”)就互联网信息服务提供者信息搜集规定如下方面:

1、搜集须经许可:未经用户同意,不得搜集与用户相关、能够单独或者与其他信息结合识别用户的信息(“用户个人信息”),但法律法规另有规定除外;

2、限定搜集范围和用途:经用户同意搜集用户个人信息的,应当明确告知搜集和处理用户个人信息的方式、内容和用途,不得收集其提供服务所必需以外的信息,不得将用户个人信息用于其提供服务之外的目的;

3、用户个人信息保障:互联网信息服务提供者应当加强系统安全防护,妥善保管用户个人信息,未经用户同意,不得向他人提供用户上载信息,但是法律法规另有规定的除外。

(二)《全国人民代表大会常务委员会关于加强网络信息保护的决定》

2012年12月28日全国人民代表大会常务委员会专门出台《全国人民代表大会常务委员会关于加强网络信息保护的决定》,明确“国家保护能够识别公民个人身份和涉及公民个人隐私的电子信息”,主要要点如下:

1、不得窃取或非法获取公民个人电子信息,不得出售或非法提供公民个人电子信息;

2、网络服务提供者在业务活动中收集、使用公民个人电子信息,应当遵循合法、正当、必要的原则,明示收集、使用信息的目的、方式和范围,公开收集、使用规则,并经被收集者同意,不得违反法律、法规的规定和双方的约定收集、使用信息。

3、网络服务提供者应当采取技术措施和其他必要措施,确保信息安全,防止在业务活动中收集的公民个人电子信息泄露、毁损、丢失。

4、违反本决定行为的,依法给予警告、罚款、没收违法所得、吊销许可证或者取消备案、关闭网站、禁止有关责任人员从事网络服务业务等处罚;构成违反治安管理行为的,依法给予治安管理处罚。构成犯罪的,依法追究刑事责任。侵害他人民事权益的,依法承担民事责任。

(三)《中华人民共和国网络安全法》

2016年11月7日发布的《中华人民共和国网络安全法》(以下简称“网络安全法”)已于2017年6月1日生效,《网络安全法》明确“个人信息”是指是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等,就网络服务中的个人信息保护问题作出系统规定如下:

1、鼓励大数据产业:国家鼓励开发网络数据安全保护和利用技术,促进公共数据资源开放,推动技术创新和经济社会发展;国家实施网络可信身份战略,支持研究开发安全、方便的电子身份认证技术,推动不同电子身份认证之间的互认;

2、保护个人信息:网络产品、服务具有收集用户信息功能的,其提供者应当向用户明示并取得同意;涉及用户个人信息的,还应当遵守本法和有关法律、行政法规关于个人信息保护的规定。

3、合法收集使用个人信息:网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意。不得收集与其提供的服务无关的个人信息,不得违反法律、行政法规的规定和双方的约定收集、使用个人信息,并应当依照法律、行政法规的规定和与用户的约定,处理其保存的个人信息。

4、不得向他人提供个人信息:网络运营者不得泄露、篡改、毁损其收集的个人信息,未经被收集者同意,不得向他人提供个人信息,但经过处理无法识别特定个人且不能复原的除外。

5、法律责任:网络运营者、网络产品或者服务的提供者违反规定侵害个人信息依法得到保护的权利的,由有关主管部门责令改正,可以根据情节单处或者并处警告、没收违法所得、处违法所得一倍以上十倍以下罚款,没有违法所得的,处一百万元以下罚款,对直接负责的主管人员和其他直接责任人员处一万元以上十万元以下罚款;情节严重的,并可以责令暂停相关业务、停业整顿、关闭网站、吊销相关业务许可证或者吊销营业执照。

(四)《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》

与《网络安全法》同期生效的为《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》(以下简称“《个人信息刑事案件司法解释》”),就《中华人民共和国刑法》第二百五十三条之一1所涉的“侵犯公民个人信息罪”及第二百八十六条之一[2]所涉的“拒不履行信息网络安全管理义务罪”相关犯罪构成要件作出明确规定,要点如下:

1、未经被收集者同意,将合法收集的公民个人信息向他人提供的,属于刑法第二百五十三条之一规定的“提供公民个人信息”,但是经过处理无法识别特定个人且不能复原的除外。

2、网络服务提供者拒不履行法律、行政法规规定的信息网络安全管理义务,经监管部门责令采取改正措施而拒不改正,致使用户的公民个人信息泄露,造成严重后果的,应当依照刑法第二百八十六条之一的规定,以拒不履行信息网络安全管理义务罪定罪处罚。

大数据业务司法判例基本立场

公司目前业务的数据搜集、存储、使用在本次《网络安全法》实施背景下,所涉及的主要问题系公司大数据业务与数据信息主体个人隐私权的保护问题。现时司法判决文书 所确定的基本司法实践立场,可对公司业务合规整改提供一般性参考。

(一)网络用户协议作为格式合同的不利解释及合同相对性问题——(2015)宁民辖终字第176号:上诉人浙江淘宝网络有限公司与被上诉人刘文林买卖合同纠纷管辖权异议

就淘宝买家刘文林与淘宝卖家上海钧钛公司出售假冒及不合格商品纠纷案件管辖权问题,淘宝公司作为连带责任人,认为被上诉人刘文林(淘宝买家)在注册淘宝用户时,点击同意了《淘宝服务协议》,在该等协议中约定被告所在地人民法院为第一审管辖法院。

就《淘宝服务协议》中所涉争议解决条款(内含管辖权约定)的适用问题,二审法院结合《合同法》、《最高人民法院关于适用<中华人民共和国合同法>若干问题的解释(二)》的相关规定,阐述观点如下:实际生活中,网民或用户对于用户协议大多不会认真阅读,而是直接点击同意,甚至不会注意到协议管辖条款的存在。本案中,当事人提供的《淘宝服务协议》打印本有19页之多,协议管辖条款夹杂在繁琐资讯中,处于末页,虽变为黑体但字体均较小,且未置于突出位置易为用户忽略。对此可认定不符合采取“合理方式予以提示”的情形

就《淘宝服务协议》相关条款的适用问题,法院认为:网站注册的《淘宝服务协议》是上诉人淘宝公司提供的格式合同,作为格式合同的提供者,上诉人淘宝公司具有优势地位,根据《中华人民共和国合同法》第四十一条的规定,对格式条款有两种以上解释的,应作出不利于提供格式条款一方的解释

此外,法院还就合同相对性问题作了特别说明:“协议管辖条款不对未签署人生效”,是合同相对性原则在协议管辖制度中的体现。本案中,被上诉人刘文林点击登录上诉人淘宝公司平台的行为,原审被告钧钛公司入驻淘宝网店经营的行为,即使可视为其均认可上诉人淘宝公司关于争议解决的设定,但鉴于上诉人刘文林与原审被告钧钛公司之间未直接达成有关争议解决方式的约定,被上诉人刘文林将上诉人淘宝公司、原审被告钧钛公司一并同时诉至法院时,如将三当事人之间两两分别达成的管辖合意概括适用,则有违协议管辖制度意思表示真实和直接达成合意的适用原则

在本案中,二审法院驳回淘宝公司管辖异议上诉,维持原裁定,案涉买卖合同纠纷由合同履行地法院管辖,而不由淘宝公司所在地法院管辖。本案虽为管辖权异议裁定,但却明确如下基本立场:

(1)采用格式条款与合同对方订立协议的,关键条款应当采取足以引起对方注意的文字、符号、字体等特别标识,并按照对方的要求对该格式条款予以说明,否则合同对方有异议时相关格式条款不予适用或以不利于格式条款提供方的方式解释适用;

(2)在网络服务用户协议场景下,如无特别、突出方式提示用户关键条款,则虽有用户点击确认,仍视为未以合理方式提示关键条款,相关条款存疑时则作出对提供格式条款的网络服务提供者(ISP)不利的解释与执行。

(3)网络服务用户协议仅在C端用户与提供用户协议ISP之间发生合同效力,三方当事人之间两两分别达成的协议不能概括适用于三方,否则有违意思表示真实原则。

(二) 整体隐私信息保护及过错责任推定:(2017)京01民终509号——庞理鹏与北京趣拿信息技术有限公司等隐私权纠纷

在本案所涉机票代理公司(趣拿公司,去哪网运营方)、航空公司(东方航空)泄漏乘客隐私信息纠纷中,二审法院在论述姓名、电话号码及行程安排等是否可以通过隐私权纠纷寻求救济时阐述道:姓名和手机号,在日常民事交往中,发挥着身份识别和信息交流的重要作用。因此,孤立来看,姓名和手机号不但不应保密,反而是需要向他人告示的。然而,在大数据时代,信息的收集和匹配成本越来越低,原来单个的、孤立的、可以公示的个人信息一旦被收集、提取和综合,就完全可以与特定的个人相匹配,从而形成某一特定个人的详细而准确的整体信息。此时,这些全方位、系统性的整体信息,就不再是单个的可以任意公示的个人信息,这些整体信息一旦被泄露扩散,任何人都将没有自己的私人空间,个人的隐私将遭受巨大威胁,人人将处于惶恐之中。因此,基于合理事由掌握上述整体信息的组织或个人应积极地、谨慎地采取有效措施防止信息泄露。任何他人未经权利人的允许,都不得扩散和不当利用能够指向特定个人的整体信息

在乘机人信息泄露的情况下,论述东方航空公司及趣拿公司泄露个人隐私该然性时阐明:在本院已经确认东航、趣拿公司存在泄露庞理鹏(注:原告、乘机人)隐私信息的高度可能的情况下,东航和趣拿公司并未举证证明本案中庞理鹏的信息泄露的确是归因于他人;也并未举证证明本案中庞理鹏的信息泄露可能是因为难以预料的黑客攻击;同时也未举证证明庞理鹏的信息泄露可能是其自身或鲁超(注:代购方)所为。在这种情况下,东航、趣拿公司存在泄露庞理鹏隐私信息的高度可能很难被推翻

在推定东方航空公司及去拿公司泄露乘客隐私的情况下,法院就其责任承担问题进一步阐明如下:东航和趣拿公司均有泄露隐私的高度可能性,但其是否应该承担责任归根到底还须审查其是否有过错。近些年来,对公民个人隐私以及个人信息的保护已成为社会共识。2013年新颁布的《中华人民共和国消费者权益保护法》第二十九条第二款中明确规定,经营者及其工作人员对收集的消费者个人信息必须严格保密,不得泄露、出售或者非法向他人提供。经营者应当采取技术措施和其他必要措施,确保信息安全,防止消费者个人信息泄露、丢失。这是在立法层面上对消费者个人隐私和信息的保护,也是对经营者保护消费者个人信息的强制性规定。经营者违反了该条规定,即视为其存在过错

就第三人可能的泄漏行为是否免责问题,法院论述:如果本案中东航和中航信都泄露了庞理鹏的隐私信息,则东航和中航信基于各自的泄露行为均应向庞理鹏承担侵权责任,此时,东航和中航信对庞理鹏构成不真正连带责任。而在不真正连带责任中,作为受害人的庞理鹏有权选择起诉侵权人

在本案中,二审法院最终判决撤销一审判决,判令被上诉人(机票代理公司及航空公司)向上诉人赔礼道歉,在该案中,法院就信息搜集方隐私信息保护义务明确如下要点:

(1)基于合法理由掌握个人综合性、立体性信息的组织或个人对该等整体信息负有严格保密义务,未经权利人的允许,不得扩散和不当利用能够指向特定个人的整体信息;

(2)如果个人整体信息泄露而又无明确相反证据证明系由第三方或者数据信息主体自身泄漏,则推定隐私信息系由保存整体信息的信息搜集方泄漏;

(3)推定信息搜集方泄漏隐私信息的情况下,其责任承担仍视信息搜集及存储方泄露信息有无过错,如果数据存储及信息安全管理存在漏洞,或违反法律规定出售或非法向他人提供,则视为存在过错;

(4)在整体信息可能由第三方搜集、保存且该等第三方也有泄漏整体信息的情况下,真正泄漏人与可能的第三方泄漏人为不真正连带责任人,隐私权人有权选择起诉对象,被起诉方应首先承担侵权责任。

(三)Cookies方式综合利用用户信息及数据可识别性问题:(2014)宁民终字第5028号:上诉人北京百度网讯科技有限公司与被上诉人朱烨隐私权纠纷

因百度搜索引擎Cookies技术跟踪其网络浏览器浏览信息,并根据其搜索关键词追踪个人兴趣爱好,学习工作特点等,通过百度联盟网站向其推送关键词广告,朱烨作为普通网民据此起诉百度公司,称百度公司追踪浏览网页投放广告侵犯其隐私权,要求停止侵害并赔偿精神损害。

一审法院认为:个人在互联网空间留下私人活动轨迹反映了个人兴趣、需求等私人信息,在一定程度上标识个人基本情况和个人私有生活情况,属于个人隐私范围,百度公司默认网民同意使用Cookies技术并利用网民上网信息,百度公司网站上的《使用百度前必读》标识位于网页最下方,字体明显较小,无法起到提示作用更,不足以让网民存在“选择同意”的权利,即未经用户许可搜集网民信息,因此支持原告除精神损害赔偿外的诉请

百度公司不服一审判决,上诉请求撤销原判决,驳回原告朱烨全部诉讼请求。二审法院判决中明确“个人信息可识别”要求:百度网讯公司在提供个性化推荐服务中运用网络技术收集、利用的是未能与网络用户个人身份对应识别的数据信息,该数据信息的匿名化特征不符合“个人信息”的可识别性要求。网络用户通过使用搜索引擎形成的检索关键词记录,虽然反映了网络用户的网络活动轨迹及上网偏好,具有隐私属性,但这种网络活动轨迹及上网偏好一旦与网络用户身份相分离,便无法确定具体的信息归属主体,不再属于个人信息范畴。经查,百度网讯公司个性化推荐服务收集和推送信息的终端是浏览器,没有定向识别使用该浏览器的网络用户身份

就个性化推荐服务问题,二审法院认为:百度网讯公司的个性化推荐利用大数据分析提高了推荐服务的精准性,推荐服务只发生在服务器与特定浏览器之间,没有对外公开宣扬特定网络用户的网络活动轨迹及上网偏好,也没有强制网络用户必须接受个性化推荐服务,而是提供了相应的退出机制,没有对网络用户的生活安宁产生实质性损害

就百度公司《使用百度前必读》所涉的网络用户知情权问题,二审认为:在《使用百度前必读》中,百度网讯公司已经明确说明Cookies技术、使用Cookies技术的可能性后果以及通过提供禁用按钮向用户提供选择退出机制,朱烨在百度网讯公司已经明确告知上述事项后,仍然使用百度搜索引擎服务,应视为对百度网讯公司采用默认“选择同意”方式的认可。此外,法院还援引《信息安全技术公共及商用服务信息系统个人信息保护指南》中关于个人信息区分为一般信息和敏感信息的规定,认为:将个人信息区分为个人敏感信息和非个人敏感信息的一般个人信息而允许采用不同的知情同意模式,旨在保护个人人格尊严与促进技术创新之间寻求最大公约数。举重以明轻,百度网讯公司在对匿名信息进行收集、利用时采取明示告知和默示同意相结合的方式亦不违反国家对信息行业个人信息保护的公共政策导向,未侵犯网络用户的选择权和知情权

基于上述分析,二审法院认为百度公司利用Cookies技术的个性化推荐服务不构成侵犯隐私权,判决撤销一审判决,驳回朱烨全部诉讼请求。

本案中,一审判决与二审判据迥然各异,主要在于对“个人信息”以及“搜集个人信息模式”的理解上存在不同,二审法院在本案中确立如下意见:

(1)ISP搜集的信息如果未能与网络用户个人身份对应识别,则属于匿名化的非个人信息,不具有可识别性要求。

(2)个性化推荐基于匿名化信息,从服务器端直接面向浏览器端,并不对外公开特定用户的特定信息。

(3)个人信息分为一般性个人信息和敏感性个人信息,敏感性个人信息须经信息主体授权方可搜集使用,一般性个人信息可采用默示同意方式搜集使用。

(四)公开渠道搜集信息并使用的合法性:(2015)西民初字第28460号:王刃与北京奇虎科技有限公司隐私权纠纷

原告王刃因个人手机登记为所投资公司联系电话,被奇虎科技360手机卫士标记手机号码功能标记显示为公司号码,导致原告王刃手机被被叫方误认为是诈骗电话,因之以侵犯隐私权起诉360手机安全卫士所属公司奇虎科技。

就奇虎科技所作的号码标记行为,法院在本案判决中阐明:被告出示的证据可以证明原告所使用的号码已经在企业黄页被公开披露,原告在工商行政管理机关登记企业信息时,亦将该手机号码予以登记,以备信息查阅。被告通过大数据比对功能,确定该手机号码与浙江维特网络信息有限公司合肥分公司相对应,并进行标记,其信息并无错误,且软件标记的企业信息,而非公民个人信息。被告已证实其获取手机号码对应的标记信息均来源于公开渠道,因此亦不能认定被告标记号码的行为侵犯了其隐私权

同时法院还提出:对于360手机卫士软件中主动标记企业信息的功能,本院认为仍存在一定改进之处,我国小微企业的业主为工作方便、节约资源,将私人电话作为办公电话使用是普遍情况,这并不意味着手机号码被登记在工商行政管理机关后,就专用于商务。如非号码所有人主动申请标记,建议针对被标记号码采取短信确认的方式,对所有人有所提示,有助于其获得相应知情权

据上述分析,法院驳回原告诉讼请求。本案似乎确立了公开渠道搜集信息的合法性,但同时又建议要求数据服务方对个人信息标记使用,应取得被标记号码机主同意。本案可以说再次重申通过公开渠道搜集信息的合法性,亦即前述的“默示同意”许可方式。

(五)爬虫技术爬取服务器数据行为的刑事风险:(2014)杭余刑初字第1231号:黄后荣、翁秀豪非法获取计算机信息系统数据、非法控制计算机信息系统罪

案涉被告翁秀豪发现淘宝店铺源码存在漏洞,利用该漏洞在源码中植入url可以获取访问被植入url淘宝店铺所有淘宝用户Cookies信息,并可以再次植入实现自动循环,以获取更多淘宝用户信息。经黄后荣授意,以非法获取Cookies数据为目的,编写了用于获取Cookies的Javascript,存储在其租用的阿里云服务器中,通过上述方法非法获取淘宝用户Cookies达2600万余组,并将获取的Cookies存放在虚拟队列中。黄后荣利用被告人翁秀豪事先编写的网络爬虫程序读取虚拟队列中的Cookies并获取淘宝用户的交易订单数据(内容包含用户昵称、姓名、商品价格、交易创建时间、收货人姓名、收货人电话、收货地址等)达1亿余条。

因被告爬虫技术存在非法植入行为,且利用爬虫技术所获得的Cookies可以执行对应帐号权限内的所有操作,法院最终判决两被告犯非法获取计算机信息系统数据罪,分别判处有期徒刑及罚金。

在本案中,被告利用爬虫技术获刑,主要不在于爬虫技术本身获取数据行为,而在于爬虫技术所获得Cookies信息具备操作权限。

公司大数据业务合规风险及合规建议

结合前述法律法规、司法案例,目前大数据公司业务所涉合规风险及合规整改建议如下所示:

(一)授权式数据搜集:用户授权不充分的风险

在公司授权式搜集数据场景下,该公司所获得数据系数据信息主体根据与风控商户签署(通过点击“确认”或类似方式)服务协议、用户协议、隐私权声明等方式首先提交给风控商户,再通过对风控商户间接授权给该公司,协议中表述一般为“允许信息搜集方将用户信息提交给第三方使用”。

如前案例分析,该等用户协议首先由风控商户与数据信息主体签署,并非与该公司直接签署该等协议或授权文件,该公司仅与风控商户就数据问题签署《补充协议》。根据合同的相对性原则,该公司如果使用数据超出风控商户与数据信息主体签署协议所约定的用途范围,则属于无当事人合意的数据搜集、存储及使用行为,如果数据信息主体以该公司侵犯其隐私权,则该公司将无法取得有效的授权证明。

此外,因风控商户网站或APP服务协议、用户协议为风控商户提供的格式条款合同,如果风控商户未尽到其可能将用户信息提交第三方的“合理提示”,而“数据使用”、“第三方”等均存在不同解释空间,如届时存在不同理解,则将按照有利于数据信息主体的方式解释,进而导致该公司不能间接获得充分授权对数据信息进行继续存储、二次分析使用,影响公司未来业务面的进一步拓展。

合规建议:

1、该公司与风控商户进一步协调,明确其网站用户协议或隐私协议内容,要求风控商户对数据信息主体明确提示“授权第三方再次搜集、存储、使用数据信息”条款(简单黑体、加粗在司法实践中不认为已尽到“合理提示”义务)已尽到“合理提示义务”,例如可采用技术手段强制用户确认该等条款(常见方式有逐条点击确认、强制拉完所有用户协议页面、强制用户协议阅读时间等);

2、该公司与风控商户进一步协调,将其网站用户协议或隐私协议中关于提交数据给第三方使用的类别、范围、使用用途、数据使用第三方范围等予以明确,尽可能避免模糊化授权,以免未来发生争议时作出不利于风控商户的解释,进而影响该公司搜集、存储、使用数据的合法性;

3、未来如果技术上可行,可直接由数据信息主体向该公司进行授权,与该公司签署网站服务协议或用户协议,操作方式可通过在风控商户特定页面跳转至该公司数据服务协议。

(二)爬虫式数据搜集:对被爬虫网站的侵权风险

爬虫搜集数据情形下,不存在数据信息主体授权,由爬虫引擎自动爬取互联网主动获取数据,该等情形下,视被爬取网站类型及爬取方式有所区分:

其一,如果爬取的网站是提供公开查询服务的网站,则该等爬取并不违反法律规定,形同数据信息主体自行查询数据,数据爬取不存在合规风险。例如爬取全国企业信用信息公示系统符合《中华人民共和国政府信息公开条例》、《企业信息公示暂行条例》的规定,爬取中国裁判文书网系符合《最高人民法院关于人民法院在互联网公布裁判文书》的规定,爬取执行信息公开网符合《最高人民法院关于公布失信被执行人名单信息的若干规》的规定。该等爬取行为与百度、google搜索引擎爬取网页、关键词SEO等行为并无实质区别。

其二,如果爬取的网站是第三方商业网站(如互联网金融平台),则一方面面临第三方网站反爬虫技术限制,另一方面受到第三方网站反爬虫声明限制。在该等情形下,如果绕过反爬虫技术限制强行爬虫,则有可能构成非法侵入计算机系统罪(虚拟主机、服务器等)、非法获取计算机信息系统数据罪。在有反爬虫声明的情况爬取,如果网站运营方根据服务器日志、记录及IP追踪等,以侵权纠纷或反不正当竞争纠纷追究该公司责任,则该公司将面临被追诉的不利局面,可能面临赔偿的商业损失。但是,据既有案例观之,并不存在侵权纠纷的过往案例,主要以爬取视频网站引发的反不正当竞争纠纷居多。

合规建议:

1、如果被爬虫网站实行了反爬虫技术限制,该公司应放弃对该部分数据的爬取,以避免通过技术手段强行侵入被爬虫网站服务器,进而涉嫌非法侵入计算机系统罪、非法获取计算机信息系统数据罪。

2、如果被爬虫网站为依法提供公众查询服务的网站,则该公司在技术手段允许的情况下,可以自行爬取。如果被爬虫网站明确反爬虫声明,则该公司应避免爬取该等网站数据,若必须爬取则应采用反IP追踪手段,尽量避免被爬虫网站运营方以侵权纠纷追诉。

3、对于可爬取数据,如果系被爬虫方核心化、批量式的主营业务商业数据,应尽量避免以爬虫方式搜集,以避免涉嫌不正当竞争的民事纠纷或非法获取计算机系统数据罪。

(三)数据存储:敏感数据信息管理义务及泄漏损害赔偿风险

纵令该公司已合法、合意地基于用户授权或爬虫技术搜集获得数据信息主体的数据信息,但就数据存储而言仍存在两方面问题:

其一,数据信息主体授权范围中是否已包含了数据存储,否则用户基于单次合同目的而予以授权的数据信息,在合同目的实现后该公司作为数据使用方(风控商户的供应商)无权限期或永久性保存该等数据,即《信息安全技术公共及商用服务信息系统个人信息保护指南》所称“最小够用原则”。

其二,在用户授权存储数据信息的情况下,该公司作为数据存储方即负有安全管理义务及防止泄漏义务。如前“去哪网”案例所述,该公司从单次业务中可能获得的为单一方面信息,但多个信息综合之后即形成数据信息主体的“整体信息”,单一信息与整体信息代表着不同的隐私价值及商业价值,用户对单一信息的授权不代表对整体信息的授权,该公司基于合法商业活动取得的“整体信息”应予以严格保密,一旦泄露即推定该公司存在过错,需承担数据泄漏所造成的损失。

其三,48小时缓存机制需视缓存方式而定,如果仅仅是数据信息主体浏览器端的Cookies缓存,则为Cookies技术的通行做法,缓存有效期内调用用户本地浏览器Cookies信息免密登录。如果系缓存至该公司服务器后在48小时之外返回提供给风控商户,本质上是一种存储行为,在获得数据信息主体明确授权后即可,如无授权,则名为“缓存”实为“保存”的行为可能面临隐私权侵权追诉。

合规建议:

1、将多渠道沉淀的数据信息主体碎片化信息整合为“整体信息”时,应对“整体信息”数据进行妥善保存,避免数据泄漏(数据信息主体对碎片化信息的个别授权,不代表对经整合后“整体信息”的概括授权)。

2、对整体信息中的敏感数据(身份证号码、手机号码等)尽可能以技术手段进行脱敏处理后存储,确保存储数据不具备可识别性,以避免大规模泄露后引发群体性损失追诉及行政处罚责任。

(四)数据输出:未来多维信息综合性商业使用的风险

该公司数据输出分为两个阶段、两种场景:

其一,为公司现阶段金融商户风险预防、预估业务进行商业资信信息输出,为风控商户商业决策提供参考,该等用户信息输出系在数据信息主体合法、有效授权下进行的单次业务,且二次输出系以标签化方式输出,并不涉及到数据信息主体的原始、原貌个人信息,该等数据输出不存在合规风险。

其二,为公司在合法商业活动中通过用户授权或主动爬虫获得一定数量数据源沉淀,积累多字段个人信息后,公司基于对多字段数据信息的整合,进行二次数据运算、分析和输出,使用场景可拓展至非金融资信领域,例如个人消费、商业营销等跨行业领域。该等数据输出基于沉淀后“整体信息”,而该等“整体信息”未经用户的概括授权。根据《网络安全法》的规定,ISP不得收集与其提供的服务无关的个人信息,不得违反法律、行政法规的规定和双方的约定收集、使用个人信息,并应当依照法律、行政法规的规定和与用户的约定,处理其保存的个人信息。因此该等基于“整体信息”数据输出,超出了搜集信息时约定的服务用途,有违《网络安全法》的规定,可能面临罚款、暂停相关业务、停业整顿、关闭网站、吊销相关业务许可证或者吊销营业执照等行政处罚。

合规建议:

1、确保公司现有金融征信业务的数据输出系基于有效授权或合法爬取的数据,数据安全存储且以标签化(不可识别特定个人信息)的方式定向输出给风控商户。

2、公司基于不同渠道合法商业活动取得的数据信息(多批次但碎片化),应进行脱敏后进行保存以备未来商业模式拓展使用,确保敏感信息不因故意或重大过失泄露。

3、公司基于已沉淀的“整体信息”,因未获得数据信息主体的概括性授权,暂时不宜大规模进行新的商业利用,以免因超出单次授权约定适用范围而引发侵权民事责任及行政处罚责任。

已有 4 条评论
  1. Furau Furau

    ?大哥>
    以后做爬虫都违法?

    1. 本文没有得出类似结论。

  2. Haoran Haoran

    用的什么SEO插件?

    1. 没有使用SEO插件

嘤其鸣矣,求其友声