2021年是碳中和元年,同年10月26日,国务院印发《2030年前碳达峰行动方案》,放眼全球,微软、AWS、Google等拥有大型数据中心的企业均表示在2030年实现碳中和。
与此同时,我国继“南水北调”“西电东送”“西气东输”等工程之后也发布了“东数西算”重要战略,在这个基础上,国内的像联想、阿里等不少拥有大规模数据中心的企业已经开始进行减排探索,根据公开报道,目前主要的手段是硬件改造,通过更先进的散热技术降低数据中心能耗,根据笔者调研,散热部分能耗占据总能耗的40%。
硬件减排的局限性
而类似的硬件改造也存在不少局限性。首先是时间问题,无论是阿里的浸没式液冷方案还是联想的水冷方案,都需要一个比较漫长的改造过程,并且类似的方案不少还在探索阶段,并没有大规模铺设,成本也较高。因为硬件设施的改造是一个系统工程,需要将服务器从暴露在空气中到浸没在液体里,服务器和数据中心的设计都要围绕冷却剂的工作特性做出相应的调整,运维体系也将随之改变。
其次是收益有限,因为电力消耗的大头主要是在服务器耗电上。以目前比较通用的大数据架构来看,无论服务器是否被闲置,为了保证整体集群的高可用,硬件资源长期被占用,即便闲置也无法停机。而硬件闲置就意味着能源的浪费。这一部分能耗远超50%。
资源闲置所占能耗超50%
资源调度一直是业界公认的难题,根据Gartner调研发现全球数据中心服务器CPU利用率只有6%~12%,可见资源浪费有多严重。
为了印证这一说法,我们找到了阿里公开的集群使用率数据,该数据包含4000+台机器的9天运行时数据,包括 4000台机器、9000个在线任务和 4000000 个离线任务的静态和运行时数据。整个集群的 CPU使用情况如以下热图所示。横轴代表 8 天的时间,纵轴代表了 4000台机器,图中每条水平的直线都代表这一台机器在这 8 天中每15分钟的平均资源利用率,其中颜色越红代表资源使用率越高。
通过上图我们可以发现,在7天实践中,服务器CPU有大量时间在蓝色和绿色之间,也就意味着多数时间CPU利用率是低于40%的,同时还发现CPU 利用率在时间维度和集群维度上能看到很强的周期性变化,每天早上 6 点左右集群 CPU 利用率到达了峰值(早上运行的有消耗大量资源的定时任务)。
这还是在技术较为先进的阿里集群中的数据,我们不难推测出在其他数据中心资源利用率低的情况将更为严重,放到全球的平均水平,Gartner全球数据中心服务器CPU利用率只有6%~12% 的调研结果是有相当高可信度的。
数仓领域资源闲置率更高
而数据中心由于大量服务器资源为在线应用工作,如果我们将目光聚焦到数据仓库领域,就不难发现除了大量复杂查询场景如银行跑批等,资源的闲置率将更高,周期性将更加明显。
数仓主要满足数据的存储和查询需求,而目前目前数仓领域大规模分布式存储广泛采用的是MPP架构,由于MPP架构的存储节点和计算节点的绑定特性,意味着集群中的节点既要承担存储任务,又要承担计算任务,所以即便没有查询计算任务,该节点也要被占用,这其实是十分可观的浪费,大幅降低集群利用率。
存算分离技术让问题迎刃而解
我们能否换个思路,在保持现有数据中心硬件不变的情况下通过提升利用率,也就是减少闲置来实现节能减排呢?
试想一下,如果存储和计算节点分离是什么情况。这就意味着,在保证了整体集群数据安全存储并且可用的状态下,如果没有查询任务,系统将大幅减少计算资源供给,出让计算节点给其他任务甚至是给其他租户。这有点类似于我们笔记本电脑的硬盘休眠功能,如果没有数据的写入和读取,机械硬盘会进入休眠状态,一方面减少了噪音,另一方面也降低了能耗,在笔记本电池容量保持不变的情况下,大幅增长续航时间。
在云端,存储计算分离的优势将更加明显。根据Gartner的研究,目前中国数据上云已经超过50%,并且以110%的增速快速发展。在云端使用存储计算分离技术除了降低能耗减少碳排放外,对于用户来说最直接的收益是成本的大幅降低。用户可以在查询需求较低的情况下减少计算节点,因为在云环境中的费用是根据节点使用时长计算的,回收限制计算节点意味着可以真正做到按需付费。
回到文章主题,站在云服务提供商的角度,采用存储计算分离,意味着不同类型用户波峰波谷的中和,在硬件计算资源不变的情况下可以服务更多用户。
目前,无论是通过降低散热能耗还是通过更先进的软件架构节能减排,我国数据中心还有非常大的优化空间。随着2021年国家一系列双碳政策的出台,我国正式开始像碳中和目标大步迈进,随着越来越多像存储计算分离技术的普及,我国实现碳中和指日可待。