3.6 安全性要求
大数据蕴藏的价值为大家公认,企业不仅要学习如何挖掘数据价值,抓住大数据带来的机遇加以利用,同时别忘记大数据作为新技术也会引入新的安全威胁,存在于大数据时代“潘多拉魔盒”中的魔鬼可能会随时出现,正如Gartner所说:“大数据安全是一场必要的斗争。”能否保护自己的隐私安全、信息安全,成为了企业部署大数据之前的首道难题。
首先,网络化使大数据更易成为攻击目标,网络化社会为大数据提供了一个开放的环境,分布在不同地区的资源可以快速整合,实现数据与计算资源的集中存储与共享,然而大数据平台的暴露使得蕴含着海量数据、敏感数据及巨大潜在价值的大数据集群更容易吸引更多潜在的攻击者。黑客、间谍的犯罪动机也比以往任何时候都来得强烈。他们的组织性、专业性更强,作案工具也更先进,作案手段更是层出不穷,而且一旦遭受攻击,失窃的数据量也是巨大的,造成的损失也是惨重的。所以在大数据时代,网络安全防护可以说至关重要。
其次,大数据时代的数据安全比传统数据安全更加复杂,企业部署大数据面临的数据安全风险体现如下几个方面:
(1)大量数据的集中存储增加了大数据泄露风险,大数据中心往往存储海量的客户信息、客户的隐私和行为轨迹,这些数据的集中存储增加了数据泄露风险;
(2)海量数据本身就蕴藏着价值,但是如何将有用的数据与没有价值的数据进行区分是一个棘手的问题,甚至引发越来越多的安全问题;
(3)敏感数据的所有权和使用权并没有被明确界定,敏感数据的共享与隔离存在风险,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题,未考虑敏感数据屏蔽;
(4)大数据对数据完整性、可用性和秘密性带来挑战,被滥用和被破坏的风险很高;
(5)海量数据的集中存储涉及如何防止数据丢失或者被误删除,同时数据容灾、数据的备份与恢复等引入了新的技术难题;
(6)随着大数据存储规模不断扩大,集群冷热数据分布会更加不均匀,如何管理数据生命周期也是一个挑战;
(7)如何进行大数据安全访问控制、安全审计、安全监控也是一个难题。
最后,大数据时代的应用安全比传统IT应用安全问题更加突出,具体体现在如下几个方面:
(1)大数据集群上线后往往运行各种类型的应用程序(统称作业),同时这些作业将访问集群各类软硬件资源,如CPU/硬盘/网络/内存以及各类业务数据等,在同一集群下数据、作业、资源的安全访问及隔离是一个巨大的挑战;
(2)同一个集群可能多计算框架并存,保证不同应用、相同/不同计算框架间的安全更加困难;
(3)具体到作业权限管理,即如何实现从客户端接入、作业提交、作业执行、作业监控、作业资源管理等端到端全流程权限控制;
(4)大数据服务众多,如何打通各个组件间的权限控制,对服务进行安全管理是必须解决的问题;
(5)大数据业务访问控制,如数据与应用访问控制、集群管理访问控制、Web访问控制,如何对访问审计等;
(6)大数据用户的认证、授权及企业已有权限系统与大数据权限控制结合也是个难题;
(7)数据传递安全管理,保证数据传递过程的安全性。
因此,构建大数据体系时需要根据系统的特征,统筹规划安全相关的部署,建立大数据安全体系。当然,我们也需要认识到,安全是一个全方位的系统性工作,对安全的投入可以说是没有止境的,所以,也需要根据项目的需求,划分安全工作的边界,在安全规划与资源投入方面取得合理的平衡。