终端DLP定制开发-轻识

产品亮点

可以根据用户定义的数据内容识别特征，自动智能发现终端关键数据进行备份，系统根据关键数据的内容进行智能收存

产品说明

1.产品介绍

越来越多的企业为了降低数据外泄的风险，已经或准备部署数据防泄露产品，以确保有效提高敏感数据管控水平，达到预期的管理目标。一个运行良好的数据安全解决方案需要在正式运营前充分做好两个方面的准备：数据分类分级和分类规则制定。对于信息化部门和系统管理员来说，这些准备工作十分繁重复杂，因此希望能够引入智能工具帮助简化操作，解决以下事项：

·企业中积累的海量历史数据可以达到PB级别，人工初始化费时费力且不现实，需要有自动工具辅助完成此项任务；

·若使用国外某些基于正则表达式的DLP产品，首先需要归纳有效的正则表达式，要求操作人员有丰富经验并进行大量试错，从数以千计的特定类别文档中发现重复出现的关键词和特征，是员工十分头疼的工作；

· 管理员职位的变动，使关键词和正则表达式库的日常维护变得非常困难，数据分类分级工作需要理解原设计思路，工作量巨大；

·随着企业发展，新数据类别不断涌现，例如一家大型企业每半年就会制定超过十个类别的新规则，辅助工具能显著提高工作效率。使用基于自然语言处理、机器学习、和数据挖掘的思睿嘉得“智慧数据安全”数据分类分级引擎，可以有效帮助企业员工解决上述问题，提高数据分类分级的效率，为数据安全解决方案更好的部署在企业中做好充分准备！完善的数据分类分级数据的重要性各不相同，高价值的数据需要更严格的保护机制。试图保护所有数据，会造成流程复杂且成本高昂，不符合卓越绩效企业的现实要求。大型企业的数据分类分级工作能有效提升数据治理水平，帮助领导层洞察关键数据的分类和分布，并有助于提升企业整体绩效。

数据分类分级是一项持续性的任务，主要包括如下内容：

·根据组织机构的管理目标和业务部门的工作内容，基于现有的数据，制定出全面、完善的数据分类分级规范；

·基于敏感数据发现系统提供的各种发现技术，为各类数据选取适合的发现方式，并根据发现方式制定对应的检测规则；

·在条件允许的情况下，对历史数据进行分类分级，并使用标签进行标记。

由于数据本身内在特征十分复杂和分散，很难使用单一侦测方式即可发现所有关键数据。因此，为满足企业数据安全管控要求，完善的敏感数据发现产品应支持多种数据发现方式，主要包括如下技术：

- 基于文档内容的全局或局部的二进制比对。在某些国外产品中被称为指纹识别。此方式主要用于快速发现某些重要的敏感数据，准确率高，但是抗干扰性差，例如更改一个标点符号即会改变指纹造成无法识别；

- 基于关键词和正则表达式的敏感数据发现。也包括这种技术的扩展，如基于逻辑表达式的敏感数据发现和词典模式等。由于这种技术需要人工制定发现规则，因此发现规则的规模大小受限，不适宜制定过于繁琐复杂的发现规则，更适用于结构化数据的发现和已经完成标签标记的非结构化数据的发现。当非结构化数据没有标签或者标签丢失的时候，这种方式无法正常工作；

- 基于自然语言处理的机器学习和分类系统。由于数据分类分级引擎以中文自然语言处理中的切词为基础，通过引入恰当的数学模型和机器学习系统，能够支持基于数量较大的识别特征、以及机器学习自动生成的识别规则，实现基于内容识别的且不依赖于数据自身的标签属性的海量的非结构化的敏感数据发现。

2.功能介绍

· 数据自动分类

数据分类分级引擎支持自然语言处理规则、以及关键词和正则表达式规则；支持所有主流数据格式，如Office文档、压缩文件、Outlook邮箱PST文件、PDF、网页等；支持Unicode、UTF-8、GB18030等中文编码方式。

· 标记敏感数据

监管机构要求敏感数据文件需要标识，如国资委印发的《中央企业商业秘密保护规定》中有明确规定。关键数据分类分级结果经过验证后，可以使用自动标签模块对指定的分类数据标记合适的标签，例如：

- 在Office类型文档（Word、Excel、PowerPoint）页面或页脚部分添加指定样式的文本或图片；

- 在Office类型文档添加首页，首页可以使指定样式的文本或图片；

3.核心优势

· 基于中文自然语言处理的数据内容识别及分类

真正意义上的中文自然语言处理已经发展了20余年，业界已经普遍认识到：

- 传统的基于句法-语义规则的理性主义方法受到质疑；

- 统计数学方法越来越受到重视，自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识；

- 自然语言处理中越来越重视词汇的作用，出现了强烈的“词汇主义”的倾向。所以，在近30年里，虽然研究人员在文档聚类和分类领域分别尝试了基于句子、语法、词性、语义等多种手段，但是最终发现目前为止基于统计和概率的算法是文档聚类和分类效果最佳的方法。

· 文档格式支持

数据分类分级引擎已支持常见数据存储格式。

· 中文编码支持

支持Unicode、UTF-8、GB18030等。

· 高性能、高并发

通过系统优化，充分发挥设备的运算能力，支持超过百万字小说等超长样本数据的分析。

· 支持指定特征的抽取

数据分类分级引擎除了可以基于概率模型和词库进行关键词抽取，还可以帮助用户枚举数据样本中的特定信息（如字号信息），并将结果导出，帮助用户制定更加有效的识别规则。

· 标准的引擎接口协议，易于使用

提供标准引擎接口协议，可与任何数据处理系统进行集成对接，如邮件系统、终端加密系统等。基于自然语言处理、机器学习、和数据挖掘技术的关键数据识别定义系统界面设计简洁，操作简便，易于使用，并已在众多企业中实际应用。

产品参数

交付方式	人工服务
质保时间	365天
交付时间	1工作日

售后支持范围

1.项目咨询服务针对客户的应用实际和业务发展要求，为客户提供深入的项目服务。主要是从实际项目需求和项目应用延伸的角度上，提出合理的建议。使技术方案在完成客户基本需求的基础上，能够具有良好适应弹性和发展切合能力，以便使客户最大化的获得项目收益。包含现状分析、业务影响分析、需求分析、方案建议等支持； 2.系统调试服务提供系统调试相关服务，包括接口调试、平台规则调试等； 3.技术支持服务提供技术支持相关服务，包含：热线支持：包含产品咨询、技术答疑以及使用指导等常规支持：包含策略配置及优化、产品BUG修复、系统运维以及常规问题处理等 4.需求开发服务为用户提供定制化需求开发服务支持，包含：系统优化：针对已有系统的功能、性能、架构等进行优化和调整。需求开发：针对已有系统进行全新功能需求开发。产品定制：提供专属性产品或需求定制服务。