活动新闻

在这里,你可以看到聚信立每天发生的点点滴滴。

大数据时代的数据安全

2017-07-27

随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战--个人隐私信息的保护。个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如何保护人的隐私信息,这是每一个大数据公司必须解决的问题。

在数据安全问题上,隐私数据的保护已成为许多监管企业的法规之一。所谓的隐私数据又可称为敏感数据,例如:姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类 ( 如账户查询密码、取款密码、登录密码等 )、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。

网络安全事件频发
5月12日晚,WanaCrypt0r 2.0勒索软件在全球爆发(简称 WCry2.0)。 在无需用户任何操作的情况下,Wcry2.0即可扫描开放445文件共享端口的Windows机器,从而植入恶意程序。目前,病毒已经扩散至全球上百个国家。全英国上下25家医院遭到大范围攻击,中国众多高校也纷纷中招。黑客则通过锁定电脑文件来勒索用户交赎金,而且只收比特币。

近年来,各个国家频繁暴露出泄露个人隐私信息的事件,在互联网时代黑客已经不再是躲在地下室,为了一时的兴趣进行破坏,越来越多的黑客正在“商业化”,愈发成熟的黑产一次次的证明数据的价值。企业赖以生存的用户信息都存其数据库内,所以数据库中数据的安全事关企业生死存亡。

在信息化时代,网络已经深刻地融入了经济社会生活的各个方面,网络安全威胁也随之向经济社会的各个层面渗透,网络安全的重要性随之不断提高,在这样的形势下,我国于2016年11月7日通过了《中华人民共和国网络安全法》,自2017年6月1日起施行,所以数据安全问题尤为重要。

数据安全
对于隐私数据的保护,个人认为要点在于建立完善的安全机制,包括建立完善的数据访问机制、对关键数据加密,对敏感数据脱敏,多方面系统化解决问题。

A、建立完善的数据访问机制
首先,在网络层建立严格的网络访问控制,建立有效的防火墙和白名单机制,对于每一个数据产品或服务,只有经过授权的人才能访问,而对于一切可能的入侵者,将被阻挡在数据服务器之外,或者彻底物理隔断网络,保证服务器的安全。

其次,建立分级的帐号体系,让每个数据的访问者只能访问被允许访问的数据,从而有效控制数据泄露的风险。

最后,建立严格的安全制度,在某个关键的信息保密上,建议有两人共同负责,一人了解原理但不允许直接操作,而另一人有权操作但不了解原理和密钥,从而大大减少信息泄漏的风险。

B、数据加密
通过数据加密,即使入侵者侵入了数据服务器,也因为数据已经加密,而无法解读,从而大大减少信息泄露的风险

目前常用的数据加密方式有:
对称加密:数据发送方使用密钥对数据加密,使用接收方使用同一密钥对数据进行解密,优点是算法成熟,加解密速度快,缺点是密码为双方所知,容易泄露;目前最常用的对称加密算法为DES、IDEA和AES。

非对称加密:数据加解密使用一对配对的公钥和私钥来完成,数据发送方使用公钥对数据进行加密,数据接受方使用私钥对数据进行解密,该方法的优点是解密的私钥只为数据接受方一方所知,信息不容易泄露,目前最常用的非对称算法为RSA算法。

不可逆加密:一般为hash加密,不需要密钥,数据明文加密后,只要找到原来的明文重新加密后与之比对,若一致则解出,该方法一般适用于两机构间的合作,一方将自身的数据hash加密后供另一方研究,目前常用的hash算法包括md5和sha算法。

C、数据脱敏
将生产上的海量数据拉到离线的分析环境进行挖掘分析, 数据脱敏是个必然的过程。那么,常用的脱敏方法有那些呢?

名称

描述

示例

优缺点

Hiding(隐藏)

将数据替换为常量,常用作不需要该字段

2333-->0

433 -->0

该字段将没有可识别性和区分度,可以直接抛弃

Hashing(哈希)

将不定长数据hash成定长字段(不一定一一映射)


有一定的识别性和区分度,但不严谨(非一一映射)

Mask(掩码)

数据长度不变,部分用掩码掩盖

15634323229-->1563423****


Floor

将数值和时间字段按一定规则取整

29-->20

53-->50

2016-12-21 12:30:42 --> 20161221

该操作的具体逻辑需根据具体业务规则决定

加密

使用对称和非对称加密,保证一一映射


能保证数据的唯一性,方便统计和关联,一般会加大数据存储的长度

ID转换

对每个不同的数据分配不同的id,id可能是整数或长整数

张三-->1

李四-->2

能保证数据的唯一性,方便统计和关联,不会加大数据存储的长度,但是对算法的性能和一致性有较高的要求

数据脱敏具体采用哪种算法,和具体的业务逻辑相关。一般来说,用户隐私数据保护与挖掘用户数据价值是两个互相冲突的矛盾体,彻底的数据脱敏,抹去全部的用户隐私信息,将会使得数据潜在的分析价值大大降低。另一方面,完全保留用户隐私数据信息,可最大化数据的分析价值,但同时导致用户隐私泄露的风险无法控制。

数据安全的目标
大数据平台安全的设计目标并不是实现工具算法用来完全抹去全部的用户隐私信息,而是包括如下几个目标:

数据泄露风险可控。首先,实现基于大数据平台的脱敏算法库,可并行,高效的按照脱敏规则对隐私数据进行脱敏。其次,基于数据脱敏的理论基础,建立用户隐私数据泄露风险的衡量模型,可定性定量的准确衡量数据可能发生泄露的风险。

可管理。结合大数据平台的用户认证体系,权限管理体系,以及隐私数据不同保护级别的权限管理体系,实现对隐私数据基于审批的数据访问机制。结合公司制度,规范,法务等管理,实现在尽可能保护用户隐私数据,减少数据泄露风险的前提下,最大化保留数据分析挖掘的价值。

可审计。对数据的访问要保证可回溯,可审计,当发生数据泄露时,要保证能够通过审计日志找到对应的泄露人员。

聚信立在数据安全上所做的工作

聚信立是一家风控数据提供商,主要是通过用户授权获取非传统风控数据,如通话信息、消费数据等互联网信息,对客户风险特征进行描述,并提供给金融机构,供其做相应的后续决策。聚信立服务的金融机构的金融机构超过1300家,包括传统的银行、消费金融公司、网贷信息平台等,目前的日查询量已经近百万,覆盖的人群已经超过8亿。

我们在数据安全方面所做的工作包括但不限于:
1、完善的数据访问控制机制,通过云桌面、跳板机、防火墙的白名单、以及完善的帐号访问体系,保证每个员工均能安全的访问所需的数据,防范数据泄露的风险。

2、数据的加密, 对于生产环境的敏感数据,我们采用了RSA的非对称加密方式,公钥分发给需要加密敏感数据的各个生产线,而私钥由特定的人员保管,同时,解密的服务由特定的人员开发,然后由不清楚技术细节的IT人员部署,并使用防火墙的白名单限制访问IP,从而最大程度的防范安全风险。

3、数据脱敏,数据分析部门需要大量的数据进行建模,这样如何保证隐私敏感数据不被泄露,就是数据脱敏所做的工作了。这里我们一方面采用生产环境采用的RSA加密,另一方面为了减少磁盘和内存存储,采用了转ID的方法,将64字节的加密串转换为只占4或8个字节的整数或长整数进行处理,同时不需要的敏感数据不选取。对于外部机构的联合建模,一般会采用hash方式进行匹配,包括md5和sha算法。从而在最大程度上保证用户的隐私,同时发掘潜藏在海量数据中的巨大价值。