数据湖是一种专用平台,可存储来自各种来源的大量结构化和非结构化数据。调研机构的分析师可以使用各种工具直接访问数据湖中的信息,也可以将其作为准备要加载到数据仓库中信息的暂存区。
换句话说,数据湖拥有有关企业业务的信息宝库。与所有企业数据存储一样,需要保护数据湖免遭未经授权的访问。
识别和分类现有数据和传入数据
如果不知道所存储的数据是敏感数据,就不会采取必要的预防措施来保护它。大多数企业都有将数据元素分为敏感度级别的安全分类。其级别基于行业和政府法规的安全标准,以及如果未经授权披露或修改该数据将对企业产生什么影响。
这些分类使管理人员可以部署适当级别的基准安全机制和过程控制。为了确保正确分类,企业需要评估数据湖中的现有数据,并制定程序以分析传入的信息。
保护输入、输出和工作文件
在讨论数据库安全性时,其原则是“没有数据库就是孤岛”。而这个原则也适用于数据湖。
黑客的常见策略是获得对加载系统的输入文件,日常处理中使用的工作文件,以及输出文件的访问权限。企业需要保护的输出包括用于将数据传输到其他应用程序的文件、报告文件和数据湖备份。
帐户管理和访问权限
有许多数据湖平台可供选择。亚马逊、甲骨文、Cloudera、微软和Teradata都有流行的数据湖选项。尽管每个平台可能具有不同的机制和过程来创建帐户和分配访问权限,但数据湖安全优秀实践对于每个环境都是相同的。
为了正确保护数据湖,企业应该遵循传统的行业建议,其范围从授予用户执行工作所需的最低安全权限到设置适当的密码复杂性、有效期和锁定设置。
还应使用双因素身份验证、密码库和企业身份验证机制来保护平台。数据湖的管理指南是极好的资源。大多数供应商手册都包含详细的准则,以帮助管理人员保护其系统。
系统保护优秀实践
操作系统和数据湖的供应商手册还提供信息,以帮助企业正确安装和配置其软件,以防止未经授权的访问。使软件保持最新状态并识别、分析和应用安全修复程序是所有平台(包括数据湖)的标准做法。同样,应用行业优秀实践也很重要,其中包括正确的系统配置和补丁程序管理。
基本的配置错误问题和优秀实践的缺失会导致安全问题。根据SiliconAngle公司发表的一篇文章,越来越多的黑客利用基本的安全管理错误对Hadoop系统(数据湖的主要平台)造成了严重破坏。
正在进行的安全评估
定期计划的渗透测试、漏洞扫描和审计都是有效的数据湖安全计划的基本要素。
这些扫描的共同目标是识别安全漏洞。重要的是要注意,所有这三个标识针对特定时间点的漏洞,并且必须定期执行以维护高水平的数据湖安全性。
渗透测试软件允许安全分析师执行一系列进程,试图利用已知系统漏洞访问目标平台。漏洞软件还可以识别已知的系统漏洞,但不会试图利用这些漏洞获取访问权限。漏洞扫描的侵入性较小,运行频率高于渗透测试。安全审计审查现有控制措施的执行情况,并评估对组织政策和程序的行政遵守情况。
企业使用渗透测试、漏洞扫描和审核产生的输出来识别安全问题,并采取必要的纠正措施来补救或减轻其影响。
学习和培训
学习如何保护环境就像学习其他任何东西一样。人们需要花费时间学习各种安全最佳实践,可以通过大量培训材料进行学习,并且在Udemy和Coursera等网站上提供安全等级和认证。