企业数据中心经理们可向互联网巨头学习什么

    xiaoxiao2021-04-19  279

    在本系列文章中,我们将把关注重点聚焦于开源数据中心。从来自Facebook的开放计算项目(Open Compute Project)的数据中心每个物理层的创新,到由应用程序容器所推动的开发人员们处理IT基础架构方式的革命,开源正在改变数据中心的整个堆栈。今年三月,Data Center Knowledge网站的记者们瞄准了这其中的一些变化,以便帮助广大读者朋友们更好地了解开源数据中心的普及状况。

    本文是我们对Amir Michael访谈实录的第二部分,在过去十年中,他大部分时间致力于世界上最大的数据中心服务器的设计,首先是Google,然后是Facebook。他是开放计算项目(Open Compute Project)的创始人之一,该项目是由Facebook主导的开源硬件和数据中心设计社区。

    今天,Amir Michaell是Coolan公司的创始人兼首席执行官。Coolan公司是一家初创企业,该公司旨在帮助数据中心运营商们更明智的作出硬件采购的决定,并通过借助大数据分析,使他们的数据中心更高效和更有弹性。

    Data Center Knowledge:您开创Coolan公司时的最初的想法是怎样的呢?

    Amir Michael:在Facebook时,我的团队部署构建了大量的服务器,多达数十万台。当我们部署构建服务器时,我们将这些服务器安置在数据中心,然后又开始投入下一代服务器的设计工作,但却从没有真正回头来看看我们在设计过程中所做出的决定在实际操作中是怎样的。

    我们曾经决定采购高级的内存,并为此支付更多的成本,因为我们认为这一举措不会失败。我们还做了一些设计决策,我们认为这些决策会从成本权衡的角度使系统或多或少变得更为可靠,但事实上,我们从来没有在这些服务器的实际操作运行过程中真正测量过。

    我们总是围绕购买什么类型的组件或系统来做出决策,并尝试决定是否为企业类型的组件支付更多,或者我们可以采用一款消费类型的组件。新的技术,特别是进入数据中心领域的新技术,围绕着其可靠性方面并没有什么好信息。而我们彼时也并没有相应的跟踪记录。

    Coolant公司的联合创始人兼首席执行官,以及开放计算项目的联合创始人Amir Michael在拉斯维加斯举行的全球数据中心世界大会上发表演讲。

    当我在Facebook供职时,我开始反思回顾:“我们曾经做出的所有这些决策的运营成本到底是怎样的?”我们在这些方面其实并没有掌握太多的数据。我开始跟业界的同行们说,“我们来比较说明一下吧。您的服务器设计失败率较之我的服务器设计失败率是什么样的?而我们都没有掌握很多这方面的信息,因为这个行业的很多人都没有真正’实际测量’过。”

    而我们创建Coolan公司的最初的想法是想要打造一个平台,使人们可以很容易地关于他们的操作、关于故障率、关于组件的质量、关于他们正在产生的错误、关于他们的服务器所运行的环境等等数据进行共享,不仅包括设备的利用率,还包括它们周围的物理环境,并使其尽可能容易地做到这一点,人们可以拥有这些丰富的数据集,我们将为他们进行收集和分析。

    一旦您企业拥有了这一大的数据集,我们不仅能够测量贵公司的基础设施并进行基准测试判定,现在我们可以让他们与同行业进行比较。您企业基础设施的故障率较低,究其原因就在于:您企业组织的相关基础设施是在最佳温度环境下运行的,您的固件是最新的版本,其更加稳定。现在,我们有了这种类型的比较,我们在行业中添加了一个全新的透明层,使得企业客户可以根据实际数据,充分知情的做出相应的决策,而不是猜测什么组件适合他们。

    一旦您企业掌握了这些数据,您就会很快地了解哪些供应商是最适合您企业的,而哪些则不适合您企业,进而使得您企业在作出涉及大量的资金开支的部署决策时,能够更明智。

    这为整个行业增加了一个全新的透明度,而这恰恰是我在Facebook时非常想要的。我想知道我是应该选择X供应商还是Y供应商,当被问道关于供应商产品的质量时,我并没有太多的信息,您也就无法从我这里得到一个好的答案。他们会给您一些他们用来计算平均故障间隔时间的数学公式,但这些公式其实并没有真正体现出其与运行现场的关系。

    Data Center Knowledge:数据中心行业可靠性的概念通常是围绕硬件的,无论是电气和机械基础设施还是IT设备。而在网络规模化的世界中,更多的则是关注于软件程序的编写,使之能够承受硬件故障。那么,物理基础设施的冗余是否已过时了呢?

    Amir Michael:我的理论是,建立可靠性的数据中心最昂贵的方法是通过硬件。如果您企业要使用诸如冗余UPS、冗余电源、冗余风扇等等任何需要您添加额外物理组件的东西,那么,这都将会是一个非常昂贵的命题,实际上会在某种程度上降低了可靠性。

    RAID卡是一个很好的例子。您企业数据中心是否想要备份您的储存?您是否想要能够维持故障驱动器的运行呢?所以,这样的话您企业数据中心就需要添加一个新的组件。但是当新添加的该组件也发生故障失败了呢。RAID卡也经常会发生故障失败。这意味着什么呢?在某些情况下,您实际上降低了系统的可靠性,因为现在,如果您的RAID卡发生故障失败,您所失去的就不仅仅只是一个驱动器,而是失去所有的驱动器了。

    但与此同时,我也明白为什么人们会这样做。旧的应用程序的设计不具备横向扩展的设计部署。他们不是为了系统发生故障失效后继续维持运行而设计的,因此在企业客户中时常发生关键系统一旦发生故障,就会其失去了一个完整的应用程序的状况。

    解决方案并是不修改软件;而是修改后面的硬件,这是一条成本代价更昂贵的路线。今天,任何现代软件架构都会假设系统发生故障的情况。因为无论您想要构建的系统多么可靠,其都会不可避免的发生故障失败。您数据中心只能是尽可能的减少其发生的频率,但其肯定是会发生的。

    而且我也的确看到过一些故障失败发生的情况。即使是最可靠的系统也会发生故障失败。所以这就是我最初的理念需要更多的发挥作用的地方了。您数据中心如何建立更具弹性的软件,以便能够抵御系统故障?除此之外,您数据中心如何抵御机架级的故障?如何抵御整个设施所发生的故障失败,而不仅仅是传统的灾难恢复?

    一旦您数据中心实现了这一点,您就可以去掉很多的冗余了。使得您能够构建一款更经济,更高效的系统,而且这是通过软件的修改而实现的。这才是思考这一解决方案的正确的方式。

    Data Center Knowledge:在新闻报道中,超大规模数据中心运营商倾向于集中成为一个团体,这意味着他们是以某种特定的方式设计和运营他们的基础设施,而且这些运营商们在所有这些方面几乎是一样的。但事实并不是这样的,例如,Facebook的超大规模数据中心运营方法就与eBay有很大的不同,Facebook使用相对较低的功率密度设计,而eBay则是尽可能采用使得其密度达到最大化的方法。鉴于此,是否在所有超大规模运营商之间存在着一套共同的最佳实践方案呢?

    Amir Michael:对于超大规模的数据中心运营商们而言,有一套最佳实践方案是几乎每家超大规模的数据中心运营商都应该采用的,即:密封遏制(containment)、高效的电力资源分配、高效的电源供应。这些在超大规模数据中心操作运营空间都是广为人知的。

    还有很多的讨论是围绕着这样的密度才是最为恰当的。对于不同的大型基础设施运营商而言,他们的数据中心运营环境仍各有不同。某些企业还采用了主机托管,也许他们是出租了其整幢大楼,但他们同时也从其他运营商处租赁服务。而且还有的企业能够以非常低的成本建立数据中心。他们已经把他们的数据中心设施的成本降到最低了。

    这些不同的要求将导致他们需要构建不同的服务器。您数据中心有一个团队构建功率密度相当低的机架。然后可能您又走了另一个极端,即数据中心管理人员将机架设置为非常大的密度,并表示机架成本是相当昂贵的,数据中心也是昂贵的。故而让我们获得尽可能多的IT设备,并尽可能充分的利用这些设备吧。

    高密度也有其另一面。其会使得您企业数据中心受到一定的约束。当您构建一款非常密集的服务器时,将很多组件打包进去,那么当对其实施冷却时,就会成为一项挑战了。这就像通过一个非常薄的吸管吸空气一样。您要花很多精力去做这件事,而如果您的机架密度不那么致密,会更容易推动冷却空气的通过。

    这方面显然会有一些益处,其将取决于成本模型。您数据中心想要大量的密度,这样您可以将您的数据中心成本摊销到更多的机器上,但同时您企业所支付的冷却成本也将上升?或者您想要一款便宜的设施,这样使得您企业可以自行打造东西,坦白地说使得设计更容易,而机架密度不是那么致密,这样冷却也会更有效。或者您可以使用像1.5U,2U高的散热器,这是非常高效的,易于冷却,仅仅只需要很少的风扇功率。

    一些运营商,比如eBay,选择了采用高密度,这造成了很多挑战,我并不知道全面的情况,但是如果我把他们的数据中心和Facebook的成本模型进行比较,那种类型的密度对我们来说并不那么有吸引力,因为您需要为建造密集机架付出额外的开销。

    您数据中心的服务器有许多重要部分实际上是为您工作的,包括诸如:CPU、DRAM、存储。这就是您想要所有电力资源所去到的地方。您希望这些设备能够消耗您数据中心的90%的电力资源,因为那些设备实际上是为您的企业工作服务的。但是,如果您数据中心的构建过于密集,您将需要把大量的能量消耗转移到冷却系统。这样的话,就显然不是一款高效的系统了。

    关于作者

    本文作者Yevgeniy Sverdlik是旧金山的商业和技术记者。Data Center Knowledge网站的主编,其专栏文章主要覆盖全球数据中心行业。

    本文转自d1net(转载)


    最新回复(0)