沃卡logo

容灾及备份的关键指标

2023-01-11来源:

  (1)灾备的基础知识

  衡量一个灾备系统建设优秀与否,或是否符合等级保护要求的两大关键指标是恢复时间目标(RTO)、恢复点目标(RPO)。

  恢复时间目标(RTO)∶Recovery Time Objective,即恢复时间目标,指的是用户业务系统所能容忍的业务停止服务的最长时间。

容灾及备份的关键指标

  恢复点目标(RPO)∶Recovery Point Objective,即数据恢复点目标,指的是业务系统所能容忍的数据丢失量。

  根据恢复的目标与需要的成本投入,灾备等级依次可分为数据级灾备、应用级灾备、业务级灾备,级别越高,需要投资的费用也相应增长。

  云灾备∶狭义上,云灾备是将灾备看作一种服务,由客户付费使用灾备服务提供商提供灾备的服务模式,行业通常称为DRaaS,租户通过类似于灾备计算管理平台,按需设置容灾备份规则,实现对多租户的灾备管理,确保云端数据安全。广义上,云灾备是本地灾备的延伸拓展,容灾备份的场景可发生于云平台,或本地与云平台间。在云灾备的模式下,数据保护的对象和灾备的目标端由本地系统转向云端系统。和本地灾备相比,云灾备的传输环境具有带宽窄、不稳定等特点,对数据复制技术的压缩能力、断点续传能力等提出了更高的要求。

  云灾备(云容灾、云备份)提供商可以是云平台服务商,也可以是灾备服务商。相比前者,灾备服务商在专业度、备份颗粒度、兼容性、跨平台系统迁移及数据保护方面,更有优势。

  灾备演练∶指通过假设某种灾难场景发生时,如系统宕机、地震、火灾等,灾备系统或体系是否可紧急使用,进而进行的一种主动应急演练行为。在金融、医疗、政务等领域常举行周期性的灾备演练。

  业务连续性∶是灾备技术的升华概念,是一种由计划和执行过程组成的策略,其目的是为了保证企业包括生产、销售、市场、财务、管理以及其他各种重要的功能完全在内的运营状况安全可用。业务连续性是覆盖整个企业的技术以及操作方式的集合,其目的是保证企业信息流在任何时候,及任何需要的状况下都能保持业务连续运行。

  业务连续性管理(BCM)∶是一项综合管理流程,相比灾备涉及的企业领导层更高,BCM是企业为潜在的危机制订的一系列响应、业务和连续性恢复计划,其总体目标是为了提高企业的风险防范能力,以有效地响应非计划的业务破坏并降低不良影响。如通过BCM提升自然灾害、战争、国际贸易争端、非公平性竞争打压等等对企业经营的影响。

  (2)备份及相关知识备份∶

  数据或系统的备份,它是容灾的基础,是指为防止系统出现操作失误或故障导致的数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它存储介质的过程。根据中国灾备行业白皮书的汇总,备份分类有多种方式。

  A.按照备份时间频率分为∶定时备份、实时备份。

  定时备份∶是指有时间间隔的数据备份方式,比如一天一次,一周一次,或一个月一次,定时备份会出现数据丢失的情况。

  实时备份∶是指无时间间隔的数据备份方式,通过数据实时复制技术,保证主备两端的数据读写一致,确保数据的丢失量最少,甚至不丢失。

  持续数据保护(CDP),也称作持续备份,是一个在任何变化发生时,能准实时地备份企业数据。CDP技术是对传统数据备份技术的一次革命性的重大突破。传统的数据备份解决方案专注在对数据的周期性备份上,因此一直伴随有备份窗口、数据一致性以及对生产系统的影响等问题。

  B.按照备份数据量分为∶全量备份、增量备份、差量备份。

  全量备份∶用存储介质对整个数据及系统进行完全备份。这种备份方式的好处是很直观,容易被人理解,易恢复;缺点是在备份数据中有大量重复数据,由于需要备份的数据量相当大,因此备份所需时间较长。

  增量备份∶每次备份的数据只是相当于上一次备份后增加和修改后的数据。这种备份的优点很明显,重复数据少,即节省存储空间,又缩短了备份时间。

  差量备份∶是拷贝所有新产生或更新的数据,这些数据都是最近一次全量备份后产生或更新的。

  增量备份与差量备份的区别是,增量备份判断数据更新标准是依据上一次备份检查点,而差量备份一定是依据全量备份检查点。如没有全量备份,就没有差量备份。差量备份的主要目的是限制完全恢复时使用的介质数量。

  数据副本管理(Copy Data Management,CDM),是一种能节约存储资源、有效管理数据生命周期的技术方式,包括消除不必要的重复生产数据。由于传统备份软件和企业应用程序独立运行,经常会创建多个相同数据的副本,数据副本管理技术也因此得名。

  目前,行业比较常见的CDM产品,通常采用“首次全量+永久增量”的备份方式,在系统层、数据库层、系统层等进行数据快速采集,然后根据用户环境设置备份周期和规则,通过挂载恢复的方式,快速恢复用户的数据及业务。

  Image备份∶指映像级备份,Image备份可对整个文件卷进行数据块级别备份,备份传输的是数据块而不是文件。这种备份不仅做全备份时效率提高,而且在增量备份时会更快。它采用快照技术来创建一个近似于及时的数据映像,然后对快照数据映像进行备份,对应用的影响很小。适合文件个数在百万量级以上的大型文件系统,以及更多要求恢复整个文件卷的应用环境。

  另外,传统的备份非常强调两类技术重删和压缩。

  重删:即重复数据删除,是一种可自动搜索重复数据,将相同数据只保留唯一的一个副本,并使用指向单一副本的指针替换掉其他重复副本,已达到消除数据冗余,降低存储容量需求的技术。通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。重删技术涵盖源端去重和宿端去重,技术分类包括相同数据的检测技术、相似数据的检测与编码技术。

  压缩∶是指在不丢失信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率的一种技术,或者指按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间。压缩可以分为无损压缩和有损压缩。

  备份技术在不断进步,行业应该用发展的眼光去看待备份技术的进步,并非所有的备份技术都需要进行重删或压缩,例如CDP技术。

  C.按照备份对象分为∶块级备份、文件级备份、数据库备份。

  我们需要了解,什么叫做块级、文件级。首先看物理块与文件系统之间映射关系扇区->物理块->逻辑块->文件系统。

  块级是指以扇区为基础,一个或连续的扇区组成一个块,也称为物理块。它是在文件系统与块设备(如磁盘驱动器)之间。块级别访问是直接通过读写存储空间(磁盘、逻辑单元号Lun、文件集Volume)中的一个或者一段地址来存取数据。

  文件级是指文件系统,单个文件可能由一个或多个逻辑块组成,且逻辑块之间是不连续分布。逻辑块大于或等于物理块整数倍。文件级别访问是通过读写某个文件中的一段数据完成,如主机发出指令,需要存储设备将C盘下A文件的前128字节进行复制。

  块级备份∶以磁盘块为基本单位,将数据从源端复制到备端,即每次备份数据以一个扇区或多个连续扇区为单位来进行备份。

  文件级备份∶以文件为基本单位,将数据以文件的形式读出,通过文件系统接口调用备份到另一个介质上。

  两者比较,相比传统的文件级备份,块级备份效率高,备份时间短,且增量备份时,只备份修改过的物理块。而传统文件级备份,首先会查找每个文件逻辑块,其次物理块,由于逻辑块是分散在物理块上,而物理块也是分散在不同扇区上。需要一层一层往下查找,最后才完成整个文件复制。

  数据库备份∶围绕数据库对各种表、索引、视图、事务日志等进行定时或实时的备份,按照备份数据库的大小,数据库备份可以分为完全备份、事务日志备份、差异备份等类型。

  此外,根据备份时服务器是否停机又可分为冷备、热备、温备按照数据存储介质之间的距离又可以分为本地备份和异地备份,以及按照数据备份量大小及路径所划分的LAN(局域网)、LAN free 备份、Server Free 备份等等。

  (3)容灾及相关知识

  提到容灾,必然提到数据中心与容灾中心,以及两地三中心。其中两地三中心的两地是指同城和异地,三中心是指生产中心、同城容灾中心、异地容灾中心,结合起来就是两地三中心,一般是指同城双活、容灾和异地备份技术的结合。

  容灾∶是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如地震、停电、火灾、洪灾等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。

  容灾技术是系统的高可用性技术的一个组成部分,容灾系统更加强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能。容灾可分为本地容灾、异地容灾、云容灾。需要注意的是,集群等确保系统可用性的冗余方案,不等于容灾。在行业应用中,部分专业人士也容易混淆,导致集群系统出现故障时,发生大面积业务中断服务的情况,给组织带来经济和形象方面的损害。

  满足容灾的三个基本条件∶

  一是系统中的部件、数据都具有冗余性,当其中一个系统发生故障停止服务时,另一个系统能够继续提供服务

  二是两个系统之间要相隔一定距离,如50公里左右,可提高容灾系统的抗风险能力

  三是容灾系统在数据复制生命周期中,数据具备一致性、可用性和可恢复性。

  从其对系统的保护程度区分,容灾系统可分为数据级容灾、应用级容灾和业务级容灾。

  数据级容灾∶指通过建立异地容灾中心,做数据的远程备份,在灾难发生后要确保原有的数据不会丢失或者遭到破坏。数据级容灾在发生灾难时应用会中断,且业务恢复的时间比较长。但是相比其他容灾级别费用比较低,而且构建实施也相对简单。

  应用级容灾∶指在数据级容灾基础上,在异地容灾中心构建一套相同的应用系统,通过同步或异步复制技术进行数据的实时复制,保证关键应用在允许的时间范围内恢复运行,尽可能减少故障带来的损失,让用户基本感受不到故障的发生。应用级容灾是一个复杂的IT工程,不仅涉及到各类切换技术,还会涉及到人员的调配等,所以建设和运维成本相当高,通常只有银行、证券等关键机构因业务和监管要求,才会进行应用级容灾体系建设。

  业务级容灾∶指所有核心业务的容灾,除了IT网络设备齐全,还要求场地、电力等基础设施建设完善,是所有容灾等级中最高的。随着组织数字化转型和信息化的发展,多中心生产的多活模式正在成为行业趋势,如国有大型银行可在全国建设多个数据中心,每两个中心互备,实现业务级容灾。同时,为了避免过度建设数据造成资源浪费,增加数据中心的电力负担,对于中小银行等机构,资产规模在五千亿以下的没必要自建数据中心。

  高可用∶指通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性,是企业防止计算机系统因故障停机的最有效手段。

  在国内,基于高可用系统中的两台服务器的热备(或高可用)使用较多,因此双机热备常被人提起。双机热备按工作中的切换方式分为∶ 主备方式(Active-Standby方式)和双主方式(Active-Active方式)。

  容灾与双活区别∶双活是系统冗余的范畴,容灾则包括在建立灾备系统时,需要涉及到多种切换技术,如SAN或NAS技术、远程镜像技术、基于IP的SAN的互连技术、快照技术等。通常来讲,容灾的建设成本要比双活低,数据丢失风险要比双活低。

  图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。