7、论数据灾备技术与应用
摘要:
本文讨论了某某公司数据中心容灾备份系统的规划与设计,该项目投资1200万,建设周期8个月。我作为公司信息中心技术负责人,参与了公司数据中心整体建设方案规划、设计、建设等工作。由于互联网迅速发展,公司规模扩大,核心数据量增长迅速,同时国内信息安全事件层出不穷,于是数据安全被提到了公司战略发展新高度。为了保障公司核心数据安全,本项目在同城建设了灾备机房,并按照B级机房建设标准,实现了4级灾备要求。项目完工后,经过多次灾备演练,主数据中心故障,业务可以切换到灾备数据中心,有效提升了企业数据的安全性。由于资金方面的限制,此次项目仅对核心业务数据进行了容灾备份,后续可以考虑全部数据的备份,同时考虑建立异地灾备中心,建设两地三中心,实现业务平滑迁移等。
正文:
2018年5月至2018年12月,我作为某某公司数据中心容灾备份解决方案负责人,参与了公司数据中心容灾备份方案的规划、设计,并组织参与了整个项目的招标、工程建设,且组织了后期的灾备演练工作。我公司主要业务范围是在全球范围内进行服装生产和销售。公司自2015年开始,公司高层业务定位从线下赚到了线上,逐步从线下的实体店转型至线上电子商务,所以公司经营积累的各类业务数据成为了公司宝贵的资产。为了有效保障数据的安全性,公司决定建立自己的容灾备份数据中心,实现数据多副本保存,防止技术失误或自然灾害,造成数据丢失。
国标《信息系统灾难恢复规范》六个层次,这六个层次对应的容灾方案在功能、使用范围等方面都有所不同,根据目前业务系统及使用需求考虑,灾备中心建设定为4级。4级要求,一旦灾难发生,灾备中心已保留有企业生产系统在线备份的最新业务数据,可在此备份数据的基础上,使用灾备中心的机房场地、备用主机及外围系统,迅速恢复信息系统的运行。
本次备用数据中心为暖备部署,应用业务由朱永数据中心进行响应,当主用数据中心出现故障造成该业务不可用时,需要在规定的RTO(Recover Time Objiective,即灾难发生后,信息系统从停顿到恢复正常的时间要求)时间内,实现数据中心的整体切换。在具体实现上,主备数据中心的两套业务系统网络配置完全一样,备用数据中心路由平时不对外发布。当实现主备数据中心切换时,需要断开主用数据中心路由链路,并连接备用数据中心路由链路,保证同一时间只有一个数据中心在线。暖备技术还是手工方式,从知道主用数据中心故障到备用数据中心工作需要有人值守才能完成。
一、灾备中心选址与机房设计
灾备中心选址有七大要素,按重要性排序为自然地理条件、配套设施、周边环境、成本因素、环境政策、高科技人才资源环境、社会经济人文环境。按照上述七大要素进行评估,我们重点考虑自然地理条件,不容易遭受自然灾害,另外需要基础配套设施比较齐全,简化后期运维管理,降低TCO成本,故我们将同城灾备中心选址定为租用电信机房,后续异地灾备中心通过改造贵州分公司机房,作为异地容灾备份中心(本次暂未建设)。机房按照国家B级标准进行基础设施及弱电系统建设,满足应用系统该数据集中运行的需求,同时具有标准、稳定、先进和灵活的架构,能为企业信息系统运营提供可靠、安全的保障,保证数据及业务安全,能随需调整并可持续扩展。
同城两个数据中心之间采用裸光纤连接,保证双中心之间高带宽需求,以响应实时的业务数据需求。灾备数据中心网络采用二层架构,分为:核心层、接入层,具体建设规划如下:
二、核心层设计
核心层时灾备数据中心网路的核心,需满足数据中心内部大流量的业务数据交互,对设备的选择要求较高,不仅要求能提供大容量、无阻塞的数据交换,还需要具备持续扩展的能力,支持高密度的40G、10G接口、分布式缓冲机制等。考虑网络的高扩展性及高性能,本次采用2台华为CLOS架构交换机S12700E系列,本次采用8槽位设备,本次实际使用4各,预留4个扩展槽位。每台核心交换机配置双引擎双电源双交换主板,保障关键部件冗余。同时采用CSS虚拟化技术,将两台核心交换机虚拟成一台,技能实现统一管理,又能保证任何一台故障都不影响业务正常运行。另外,核心交换机配置防火墙及IPS入侵防御业务插卡,进行区域隔离和网络安全防护。数据中心接入交换机采用40G多模光纤与两台核心交换机进行互连,确保链路容量和同时提供链路冗余。
备份数据中心网络出口部署两台防火墙,与主数据中心进行连接,对进出数据中心的流量进行安全监测,阻断各类攻击行为,两台防火墙使用VRRP网关冗余技术,进行互为备份。
三、接入层设计
数据中心内部接入网络主要包括IP业务网、管理网、FC存储网络,其中IP业务网部署华为万兆TOR交换机,配置10G下行接口,40G上行接口,管理网络配置全千兆TOR交换机,FC存储网络配置博科16G 光纤交换机,服务器通过HBA卡与FC存储进行互联。
四、灾备中心数据备份设计
数据复制是容灾中的关键技术,一般分为同步复制和异步复制。同步复制可以保证两地数据的完全一致性,但同步容灾过程中本地系统必须等到数据成功写入异地系统,才能进行下一个I/O操作,同步容灾数据复制一般只在较短距离或同城范围部署(10km~80km)。超过80公里以上一般采用异步复制方式进行容灾,异步复制中,本地操作完成后直接返回,而不需等待异地I/O的返回,甚至,异步复制并非针对每个I/O进行复制,而是根据数据的增量或时间等方式进行复制。由于此次灾备中心距离主数据中心距离较近,所以此次方案实施选择了同步复制的方式。在同城灾备中心建立一个在线更新的数据副本。当有数据下发到生产中心阵列时,阵列间的同步复制都会同时将数据复制一份到同城灾备中心。
五、灾备演练
为了保障整个方案的安全平稳实施,切实保障公司内部数据的安全性,在方案设计初期我们制定了严格的灾备演练流程。并做了多次灾备演练:通过停止灾难节点的部件服务、切断数据复制链路、建立数据容灾基线、启动容灾节点的部件服务、通知前端设备进行业务网络切换等多种不同的方式检验了灾备机房数据的时效性,及业务的连续性。
以上工程均于2019年1月底前完成验收和测试,新的灾备数据中心上线后切实提升了我单位数据中心的安全性。但是随着公司业务未来的迅猛法阵及两地三中心更高安全性的要求,后续我公司还需要在一下几个方面加以完善,以更加保障数据的安全性:
1、按照两地三中心灾备方案,建立我公司异地灾备中心。用于本地双数据中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复
2、可以考虑使用云备份和云容灾等技术,通过购买服务的方式,快速实现容灾本分中心的搭建。
还没有评论,快来发表第一个评论!