新闻中心

聚量思享 | 数据脱敏:数据“变形记”

2022.03.29

导读

数字经济时代,谁能最快、最好地利用好数据,谁就能掌握发展的主动权,数据采集、挖掘、分析、使用已经成为大量企业争相涌入的热门领域。与此同时,过度采集个人信息、误用滥用企业商业秘密甚至国家机密等的情况也并不罕见,有的还带来了重大危害和巨额损失。数据安全正在被提到前所未有的高度。尤其在金融业机构中,大量的数据直接关联着金融客户、国家和社会的利益,在实际应用时,必须把敏感信息保护放在首位,通过数据脱敏,对数据进行变形处理,防止敏感信息泄露。

1、数据脱敏让数据“降级”

说到数据脱敏,就不得不从源头讲起:数据的分类分级。

要保障数据有序自由流动,明确数据保护对象,合理分配数据保护资源和成本,就必须要建立数据分类分级保护制度。根据中国人民银行发布的《金融数据安全 数据安全分级指南》,金融数据共分为5级。其中,1级数据一般为公开数据,原则上无保密性要求;2级至4级数据的安全防护,应在平衡安全需求与业务需求的基础上,根据数据安全级别不同,有侧重地采取适当的安全措施;5级数据一般属于重要数据,其数据保护应按照国家及行业主管部门的有关要求执行。基于此,金融机构也在逐渐强化对数据的安全访问控制,建立数据全生命周期的安全管理机制。

然而,数据的级别不是一成不变的,根据实际情况和某些特定条件,数据的安全等级可以进行变更。比如,我们国家统计局的经济数据,在未对外公布前,都属于国家机密数据,为5级数据。但是一旦对外公布了,就是公开数据,数据安全级别就降到了1级。除此之外,还有很多情况会导致数据安全级别的变更,如下图所示。

数据安全级别调整方式

可以说,数据脱敏是降低数据安全级别的有效手段,在日常实践中有着广泛的应用。数据脱敏是指从原始环境向目标环境进行敏感数据交换时,通过一定的方法消除原始环境中数据的敏感性,并保留目标环境业务所需的数据特性或内容的数据处理过程。因此,使用合适的脱敏技术进行数据脱敏,就可以让原本高等级不能分享的数据可以分享使用。

2、脱敏法则一二三

2022年1月出台的《关于银行业保险业数字化转型的指导意见》第二十八条“加强数据安全和隐私保护”中指出:加强第三方数据合作安全评估,交由第三方处理数据的,应依据“最小、必要”原则进行脱敏处理。因此,首先需要明确什么是“最小、必要”。

最小

 根据业务场景需求,在确保业务可行的前提下,最小限度地采集或共享数据,不进行过度采集、使用。

必要

根据业务场景需求,在确保业务可行的前提下,所采集的数据都对业务执行和结果达成具有影响;不具有影响的,不予采集、使用。

 “最小、必要”原则,从数据采集和使用的源头上就划定了数据边界,在该边界范围内选取合适的脱敏技术进行数据脱敏;而不会采集和使用那些与业务执行和结果达成无关的冗余数据。

数据脱敏的目的是为了进行数据交换和共享,因此在确保消除数据敏感性的同时,必须尽可能地平衡数据脱敏的成本、使用方的业务需求等多个因素,让数据脱敏的过程及代价可控,得到的结果正确且满足业务需求。所以数据脱敏在具体实施时,还需要遵循以下原则。

有效性

 指数据脱敏过程的有效性,原始数据经脱敏处理后,原始信息中包含的敏感信息已被消除,无法通过处理后的数据得到敏感信息,防止使用非敏感数据进行推断、重建、还原敏感原始数据。

高效性

指数据脱敏过程的高效性,通过借助计算机程序实现脱敏自动化,并可重复执行,在不影响有效性的前提下,平衡脱敏的力度和代价,将数据脱敏工作控制在一定的时间和经济成本内。

可重现

即相同原始数据在配置相同算法和参数的情况下,脱敏后的数据具有一致性,随机类的算法除外。

关联性

对于结构化和半结构化数据,在同一数据表中某字段与另外字段有对应关系,如果脱敏算法破坏了这种关系,该字段的使用价值将不复存在,通常在进行数据统计需要参考量的情况下,数据关联性较高。

可配置性

指数据脱敏过程中的可配置性,由于不同场景下的安全需求不同,数据脱敏的处理方式和处理字段也不尽相同,因此需通过配置的方式,按照输入条件的不同,生成不同的脱敏结果,从而可按数据使用场景等因素为不同的需求提供不同的脱敏数据。

实际操作中,普遍使用下表中的这些数据脱敏技术。

数据脱敏技术列表

举例说明,在分析一家公司的员工收入与员工的年龄、性别之间的关系时,为了保护这类个人敏感信息,可以通过上述数据脱敏方法,如抑制法,将员工真实姓名显示为“林XX“,再去分析的“林XX“年龄、性别和收入,那么该类数据就无法定位到个人信息主体(即无法确定具体个人),从而降低数据安全等级,保障个人信息安全。

3、风控管理中的数据脱敏及效果评估

银行在进行风控管理时,需要基于企业内外部交易和历史数据,利用客户基本信息、账号基本信息、交易历史、客户历史行为模式、正在发生行为模式等,进行实时或准实时预测和分析。其中必然要涉及到客户的一些敏感信息,需要通过数据脱敏等手段来达到数据的业务使用需求。

越来越多的银行在数据安全治理方面,通过自行开发或与第三方科技公司合作,采用数据脱敏、数据水印、数据安全库等各种技术,来保证数据的安全与应用需求。很多国有大行都具备完善的数据共享和应用体系,既保证数据的安全,又实现数据的共享应用。

为了确保数据脱敏后依然能够共享应用,过度的脱敏显然是不合适的。在一个合理的数据脱敏过程中,不仅不会影响风控数据的加工逻辑,而且可以通过独立检验的方式对脱敏结果进行有效性的验证。

数据脱敏有效性验证

总 结

银行要实现高质量数字化转型,战略理念与商业模式需要从“竞争战略”转变为“生态战略”,与客户、第三方机构形成同频共创、彼此赋能的价值共同体。作为一家懂金融的科技公司,聚均科技有效利用隐私计算、数据脱敏等技术,在保障数据安全的前提下,规范开展数据共享应用,确保数据交互安全、使用合规、范围可控,实现数据可用不可见,坚持最小必要、专事专用,提升数据要素资源配置效率,有效赋能金融机构产业金融服务的数字化转型。

参考文献:
   【1】全国人民代表大会常务委员会:《中华人民共和国数据安全法》
   【2】全国人民代表大会常务委员会:《中华人民共和国个人信息保护法》
   【3】中国人民银行:《金融数据安全 数据安全分级指南》
   【4】中国人民银行:《金融数据安全 数据生命周期安全规范》
   【5】中国人民银行:《金融科技发展规划(2022-2025年)》
   【6】中国银保监会:《关于银行业保险业数字化转型的指导意见》

微信公众号
扫码关注微信公众号
  • 上海总部

    上海市浦东新区樱花路868号建工大唐国际A座20楼

  • 北京分公司

    北京市朝阳区东三环光华路众秀大厦3903

打开微信扫一扫进行分享。

关闭