平安银行智能化数据安全分类分级实践分享-大数据–飞度网络科技 - 专业的全球云服务器、服务器租用托管、云安全服务、全球域名注册提供商

平安银行智能化数据安全分类分级实践分享

来源:CTO 日期:2024/4/29 7:13:13 阅读量:(0)

一、数据安全智能分类分级平台建设背景

首先来介绍一下数据安全智能分类分级平台建设背景。

我国在 2021 年发布了《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》两大法律，将数据安全提升到了新的高度。随着监管机构发布银行保险机构的安全管理办法，以及人民银行发布《中国人民银行业务领域数据安全管理办法（征求意见稿）》，对银行业数据安全提出了非常高的要求。

在此背景下，平安银行注重数据分类分级，准确识别需要重点保护的高敏感数据，以满足监管要求并确保数据安全。接下来就将介绍平安在数据安全分类分级方面的建设思路和实现方法。

二、数据安全分类分级建设思路和实践

数据分类分级是平安银行开展数据安全工作的基础。要对数据进行安全保护，首先应该知道哪些数据是需要重点保护的，也就是哪些是重要数据、敏感数据。大众认知中的重要数据与监管标准中要求的敏感数据可能并不一致，除了姓名、手机、身份证号等，还有其它一些敏感数据需要重点保护。

平安银行在进行数据安全分类分级建设时，采取了三步走的策略：

第一步做标签：确定数据安全分类标准，即需要一个标准来识别数据的级别。同时，参考法律法规和行业标准进行数据识别和定级，梳理标签体系。此部分工作，先确定数据分类，即数据属于哪个业务类别，确定目录，然后再确定数据级别，根据泄露后造成的影响来确定级别，如密级、绝密级、国密级等不同的安全等级。
第二步打标签：探索智能化手段替代人工识别以降低成本。因为，平安银行的数据量是个天文数字，数据库有几百万张表、几千万个字段之多，所以，我们在识别不同级别的数据时，需要运用智能化的手段，利用工具平台代替人工来实现。
第三步用标签：根据打标签结果制定保护措施，例如对姓名进行脱敏掩码、对身份证号和手机号进行数据脱敏、加密存储等工作，并遵循相关标准进行数据保护。

下面详细介绍每一步中的重点内容。

1. 做标签– 数据安全标签体系

参考国家法律法规、金融行业标准和平安自身数据资产现状来建立数据安全标签体系。

根据金标委标准要求，数据密级分为五级，由低到高分别为：非保密级（1 级）、秘密级（2 级）、机密级（3 级）、绝密级（4 级）和国密级（5 级）。个人金融信息分为三级，由低到高分别为 C1、C2 和 C3。其中 C3 为虹膜、指纹、密码等用于个人身份鉴别的信息。C2 比如身份证号、银行卡号等。

上图中展示了部分案例。平安还开展了数据安全保护措施的标准化工作，公司系统众多，需要统一标准，如姓名、手机号、身份证号等信息的掩码的统一性要求。

2. 打标签– 鹰眼智能打标平台 3.0

第二步——打标签。平安银行自研了鹰眼数据安全智能标签打标平台，已从 1.0 版本发展到目前的 3.0 版本，覆盖了越来越多的数据安全标签，准确率从 83% 到 91%，再到 95%，逐步提高。人工达标准确率常在 80%～90%，因此该平台可以完全代替人工工作。3.0 版本的智能打标平台具有以下功能和特点：

数据完善性：剔除冷冻表、备份表和临时表，对表进行区分和梳理，引入母子表概念来识别数据表之间的关系。
数据安全分类分级识别：对母表进行打标后，子表可以继承其数据安全分类分级的打标结果，从而降低工作量。
技术手段：采用了内容正则、元数据正则以及深度学习技术，包括循环神经网络进行训练，以提高准确率。
血缘继承：实现了上游表和下游表之间的血缘关系，使下游表可以直接继承上游表的打标结果，进一步降低工作量。
提升准确率：通过多轮训练优化调优，最终将准确率提升至 95%。
高效率：能够取代人工打标，实现自动化的数据安全分类分级识别，提高工作效率。

鹰眼智能打标平台的逻辑架构分为三个层次：

扫描层，主要包括三个引擎，分为正则引擎、AI 引擎和血缘引擎。其中，正则引擎主要是针对一些数据内容和元数据做了一些正则条件；不适合做正则扫描的情况，就根据 AI 模型进行智能打标；血缘引擎通过继承的方式识别每一张表的上下游表，并保持标签的一致性。
整合层是将三套的引擎的打标结果做统一，整合成全行统一的数据安全分类分级打标结果。
服务层提供多种形式的访问方式，如通过 API、查询/下载、离线等。利用打标结果，支撑数据生命周期的六大环节，即采集、传输、存储、使用、删除、销毁，提供统一的服务。

在扫描层下面数据主要来源有业务系统数据库、数据资产管理平台和大数据平台三部分。

打标流程包括人工打标、智能打标模型训练和人工复核，形成最终打标结果。

首先，进行人工打标，向智能打标模型提供训练集，进行训练；然后，智能打标模型生成打标结果；最后，再进行人工复核，随着准确率提升到 95%，人工复核不再进行大批量、全部的复核，而是仅做小部分抽样的人工复核。最终，打标结果有两个方向，一个是结果直接上架提供给各个数据平台使用；另一方面，将人工复核发现的错误反馈给模型进行优化，实现循环优化。