五九盾
首页 / 新闻公告
业内
如何定义数据中心的可用性
2022-10-19 09:36:02
数据中心是一种安全的基础设施,可为 IT 设备提供稳定的电力和适当的环境运行条件。通常,数据中心运营将面临许多不利因素,因此有充分的理由确保 IT 设备的电力可用性。在这里讨论如何定义数据中心的“可用性”。
在数据中心的世界里,很多人经常把“可用性”和“可靠性”说成是同一个东西。此外,对某些人来说,“冗余”这个词似乎也意味着可用性。
可靠性不是可用性
可靠性是系统或组件在特定条件和特定时间内执行其所需功能的能力。组件可靠性是基于称为平均故障间隔时间 (MTBF) 的统计概率的预测,通常以小时表示(例如 100,000 小时)。组件、设备或子系统的 MTBF 通常由数据中心设施的制造商确定。
系统的可用性通常表示为时间的百分比。对于数据中心,它被称为“正常运行时间”,它由多个“9”来量化。应该注意的是,常见的 5 个 9,即 99.999%,是 Bell 最初设定的系统可用性参考标准。
然而,5 个 9 听起来令人印象深刻,但如果按照每年 8,760 小时计算,5 个 9 仍然意味着每年 5.3 分钟的停机时间。即使是 6 个 9,也相当于每年 32 秒的停机时间。在当今 24/7 的 IT 环境中,这对于组织来说显然是不可接受的,因为 IT 能力只能容忍少于 20 毫秒的中断。而且,这并不一定意味着一年中只有一次停电。这可能会面临每次只有几秒的多次停电,但一年的累计停电平均为32秒,显然这将面临灾难性的结果,但在数学上仍然是准确的,并且满足6个9的要求。

在可用性声明方面,重要领域具体来说,预测值和历史值。对于新建的数据中心或其规划设计,只能作为参考,这可能取决于其冗余设备的水平和容错控制系统的复杂程度。相比之下,可用性的历史数据仅代表过去的实际运营经验。然而,历史数据并不代表未来的表现。具有“N+1”冗余设计的数据中心设施可能会经历五年而没有任何中断,而具有“2N+1”冗余设计的数据中心可能会在其运行中断的第一年经历电力中断。
冗余是指部署额外的设备以在主电源或主设备不可用时通过故障或在维护期间提供所需的电源或冷却(定义为“N”)设备。然而,这个简单的陈述并不能确保负载可以无缝或即时地转移到辅助或附加设备。
举个简单的例子,在市电停电期间,备用发电机启动并能够为负载供电,通常持续 10 到 30 秒。显然,这对 IT 设备无济于事,需要有足够能量储备的 UPS 来提供不间断电源。对于冷却系统,可接受的时间因冷却系统的类型而异,低功率密度设备为 5 至 30 分钟,功率密度极高的 IT 设备为 15 分钟至 60 秒。
弹性冗余设备控制电力设备和冷却设备以支持 IT 负载。冗余设备本身并不排除瞬间或短暂的中断。人们结合使用容错设计和冗余设备(N+1、N+2 等)和关键电源路径(N、2N 等)在可接受的范围内提供电源和冷却(以及网络连接)服务时间框架,允许 IT 设备在不中断电源的情况下运行。
虽然拥有高度可靠的设备可以减少系统故障的机会,但它并不能确保更高的可用性。 “可用性”的真正基础是冗余设备、容错设计和电气源和冷却系统控制和转移时间的重要性。事实上,人们永远不应该依赖数据中心的可用性来预期设备的可靠性。
企业需要采取更全面的方法。 Green Grid 正在开发其数据中心可用性开放标准 (OSDA) 的第一个版本。虽然不打算与 Uptime Institute Tier 4 系统直接竞争,但 OSDA 概念适用于电力设备和冷却系统冗余级别的经典视图,但它还在整体方案中加入了多站点数据复制,以提高可用性逻辑应用,不仅仅是维持数据中心基础设施的现状。
OSDA 系统也更灵活,因为它允许不同级别的电源和冷却设备冗余,而不太灵活的框架确实认识到某些组织(或某些应用程序)可能需要更高的电气冗余,例如使用 2"N +1”冗余,其实只需要实现“N+1”冗余。一旦完全开发,OSDA 平台和工具集可用于评估多站点数据复制如何以 1-10 的规模提供相同或更高级别的应用程序可用性(这就是首先构建数据中心的原因),即使在使用冗余级别较低的数据中心基础设施时也是如此。
许多企业高管认为云计算是一种“完美”的解决方案,因为它将消除与数据中心和 IT 硬件相关的所有资本和运营成本以及人员成本。虽然一味地假定它始终可用,但实际上,云计算服务提供商的底层服务更加模糊或完全不透明。尽管如此,即使在今天,许多机构和商业组织还没有真正能够决定一种有意义的方式来评估云计算服务的可用性。
计算架构已经变得非常活跃并不断发展,很明显大多数组织已经放弃了构建或运营自己的数据中心设施。许多企业使用托管服务提供商的托管服务,他们可以使用基于冗余方法的传统数据中心基础设施方法对其进行评估。因此,托管数据中心和云计算的混合方法已成为许多组织当前最喜欢的策略。
许多人对“数据中心可用性”的长期行业标准(由 Uptime Institute 创始人 Ken Brill 创建的四层分类系统)持有不同意见。虽然它仍然是一个有价值的(和基本的)概念和指标,但它只评估数据中心设施基础设施的可用性,而不是 IT 硬件、软件和数据本身的可用性。在虚拟化和数据复制时代,其基于数据中心的“可用性评级”仅关注数据中心设施的电源和冷却基础设施的冗余级别,虽然这也很重要,但不应用于评估计算系统和存储 数据可用性的唯一因素。数据中心的可用性