合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
首先来介绍一下数据安全智能分类分级平台建设背景。
我国在 2021 年发布了《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》两大法律,将数据安全提升到了新的高度。随着监管机构发布银行保险机构的安全管理办法,以及人民银行发布《中国人民银行业务领域数据安全管理办法(征求意见稿)》,对银行业数据安全提出了非常高的要求。
在此背景下,平安银行注重数据分类分级,准确识别需要重点保护的高敏感数据,以满足监管要求并确保数据安全。接下来就将介绍平安在数据安全分类分级方面的建设思路和实现方法。
数据分类分级是平安银行开展数据安全工作的基础。要对数据进行安全保护,首先应该知道哪些数据是需要重点保护的,也就是哪些是重要数据、敏感数据。大众认知中的重要数据与监管标准中要求的敏感数据可能并不一致,除了姓名、手机、身份证号等,还有其它一些敏感数据需要重点保护。
平安银行在进行数据安全分类分级建设时,采取了三步走的策略:
下面详细介绍每一步中的重点内容。
参考国家法律法规、金融行业标准和平安自身数据资产现状来建立数据安全标签体系。
根据金标委标准要求,数据密级分为五级,由低到高分别为:非保密级(1 级)、秘密级(2 级)、机密级(3 级)、绝密级(4 级)和国密级(5 级)。个人金融信息分为三级,由低到高分别为 C1、C2 和 C3。其中 C3 为虹膜、指纹、密码等用于个人身份鉴别的信息。C2 比如身份证号、银行卡号等。
上图中展示了部分案例。平安还开展了数据安全保护措施的标准化工作,公司系统众多,需要统一标准,如姓名、手机号、身份证号等信息的掩码的统一性要求。
第二步——打标签。平安银行自研了鹰眼数据安全智能标签打标平台,已从 1.0 版本发展到目前的 3.0 版本,覆盖了越来越多的数据安全标签,准确率从 83% 到 91%,再到 95%,逐步提高。人工达标准确率常在 80%~90%,因此该平台可以完全代替人工工作。3.0 版本的智能打标平台具有以下功能和特点:
鹰眼智能打标平台的逻辑架构分为三个层次:
在扫描层下面数据主要来源有业务系统数据库、数据资产管理平台和大数据平台三部分。
打标流程包括人工打标、智能打标模型训练和人工复核,形成最终打标结果。
首先,进行人工打标,向智能打标模型提供训练集,进行训练;然后,智能打标模型生成打标结果;最后,再进行人工复核,随着准确率提升到 95%,人工复核不再进行大批量、全部的复核,而是仅做小部分抽样的人工复核。最终,打标结果有两个方向,一个是结果直接上架提供给各个数据平台使用;另一方面,将人工复核发现的错误反馈给模型进行优化,实现循环优化。
智能打标结果放到数据安全管理平台进行人工复核,初稿复核通过后流转到业务人员进行复核。如果初稿未通过,结果直接结束,但错误结果会重新整理反馈给模型优化。复核确认后,结果可以上架使用。错误结果也会反馈给模型进行优化。
双向打标方案包括控增量和盘存量两个方面:
数据安全打标能力直接放到建模平台,使得数据在设计阶段就能智能推荐和打标,伴随全生命周期流转。这样可以避免返工和保护措施不到位的问题,实现双向打标方案。
使用标签对银行敏感信息进行屏蔽基线保护,比如根据保护措施要求,对客户姓名只保留姓,其余掩盖,性别全部掩盖等等,并在智能打标平台识别出全行的敏感字段数量和位置,一旦查询或展示这些数据,保护措施就能直接落地。
当前数据资产管理平台共计上架了 300 多万个机密级以上的敏感字段,已对接的平台包括数据安全保护伞平台、数据模型设计平台、大数据查询平台、数据权限审批平台、行内测试-生产数据交换平台及行内数据作业调度平台等,这些平台可以实时调用数据安全分类分级的打标结果。
TOP