2019年6月25日,由浪潮与OCP开放计算社区联合主办的首届OCPChina Day(开放计算中国日)在北京正式开启。本届 OCP China Day聚焦人工智能、边缘计算、OpenRack、OpenRMC、SONiC、OAM等前沿技术话题,来自Facebook、LinkedIn、Intel、微软、百度、腾讯、阿里、诺基亚、中国移动、浪潮等资深技术专家分享了最新技术进展。近千名工程师和数据中心从业者参加了此次大会。
OCP是全球大的开放硬件社区,2011年由Facebook发起成立,其宗旨是以开源开放的方式,重构当前的数据中心硬件,发展面向下一代数据中心的服务器、存储、网络、基础设施等创新硬件。目前,OCP核心会员超过200家。
5G时代,运营商将在靠近用户的网络边缘侧构建业务平台,将部分关键业务应用下沉到网络边缘,以减少网络传输和多级转发带来的带宽与延时损耗。OCP社区在电信项目组设立了OpenEdge技术小组,希望为边缘计算服务器等硬件设施开发一套公开标准。在本次OCP China Day上,来自Nokia、百度、中国移动研究院、浪潮的专家分享了边缘计算领域的最新探索与实践。
以下为大会演讲实录:
Tomi Mannikko, Nokia Hardwarearchitect:边缘服务器空间不大,需要紧凑、可扩展的功能,并且提供短期高温环境,诺基亚已将open edge机箱规范贡献给社区并获得OCPaccepted认证
Tomi Mannikko, Nokia Hardwarearchitect
Tomi Mannikko, NokiaHardware architect:我的名字叫Tomi,我来自诺基亚,我跟大家说一下关于开放边缘以及边缘服务器方面的解决方案。大家知道这是我们在边缘的解决方案,它已经成为我们对于OCP的社区所公开贡献出来的边缘解决方案。对于边缘服务器而言,它非常重要点就在于它可以在我们的边缘以及网络环境下进行部署。比如它可能和我们的最终用户非常接近,这样没有什么延迟,最终客户的体验能够得到保障。通常传统之下我们能看到它的大小以一种设备的方式进行提供,我们的环境通常并不是我们非常熟悉的数据中心的环境,也许空间并不大,所以我们需要它非常紧凑才可以。我们在这个场地中可以用AC或者BC交流直流,我们可以采取一期或三期的解决方案,以便使用各种电力供应系统。我们现在的电力电能的供应能力也是非常有限的,所以我们必须要让它可扩展,第一台仅仅从几个服务器开始,如果有需要的话我们可以把它扩展到整个机架甚至好几个机架,如果对你有需要和有意义的话。
对热环境而言,我们认为它的情况比一般的数据中心更残酷一些,它的温度有可能会升到45度以上,所以我们能够支持这些实验室来提供短期高温的环境,我们也可以有更多的容高温环境的措施。这就是我们在浪潮上面,它可以支持到目前为止24个核,对于CPU而言能够达到205瓦,它基本的解决方案能够得到最快的支持。
这个节点是半宽的,大小是215×427毫米,有6个内存条,我们可以支持两个额外的槽放NVME的内存条。管理方面通过Redfish和RPMI2.0,是在BMC的层面,BMC也是可以连通到RMC的单元,可以给机箱内所有节点提供网络连接。可以有5个EU的节点,也可以支持2U的节点。我们有2个2.5英寸的热插拔的SATA和NVME的存储盘,也有2个内部的M.2、2280或22110的设备。对于扩展层,都是OCP的夹层模块,它不是热插拔的,但是热插拔的功能未来可以加上。还有一个槽是全高半宽的卡,功率是75瓦。
2U的节点跟1U一样的主板,所以主要功能都差不多,但是2U的节点提供额外的存储选择,所以有2个2.5英寸的热插拔的驱动器槽,可以支持7毫米9.5毫米和15毫米的SATA和NVME的驱动盘。其他IO的扩展槽,因为高度更高了,2U的节点,我们也支持双宽的足够高足够长的PCIe卡槽,可以用于放各种加速器,比如GPU,你可以放GPU,也可以放FPGA或者是其他的加速器卡,标准外形的加速器卡都可以。CPU大的TDB是250瓦,大的支持300瓦。这些是我们开放边缘机箱的组成部分,我们把3U的机箱已经贡献给了OCP的社区,所以我们的设计可以供大家分享和使用,也可以进一步在此基础上进行开发。我们的设计文件也是有PCB的,还有背板参考设计也是分享公开的。
这里面有两个供电单元,比如负载分享,如果一个电源故障的话另外一个还可以使用。RMC的单元管理供电单元并且给节点提供网络连接,通过背板来提供。
这张片子是说我们支持存储的标准的外形,2.5英寸的SSD和其他的一些模块,我并没有列PCIe卡,但是标准的网卡或GPU卡也可以安装在这个里面。还有一些硬件更详细的信息,可能对刚才的信息有点重复,但是我会重点讲一些我刚才没提的东西。这是机箱一个块的图,有两个供电单元连接上,RMC单元连接到配电单元,背板是垂直的,也是连接到配电板,节点连到背板。灰色这个是两个板,也是我们给OCP社区做的贡献。冷却是嵌入到节点内部,所以没有风扇,冷却这块气流方向可以前到后、后到前进行配置,取决于你不同的解决方案,你的气流是可以反向配置。有了这个特征我们就可以进行一些具体的适应。关于机箱的管理控制也就是我们的RMC,它是在管理供电、读传感器的数据、电流电压,我们还可以监控电源的状态,通过RMC进行监控。还有RMC一个交换机提供一台以太网的连接,给BMC提供网络连接,所以非常便捷,可以把以太网连接到管理控制器上。配电也是通过背板进行。这是前端的一个视图,这个图显示有多少种机箱内部配置的形式,你可以是5个1U的,也可以3个1U加上1个2U,或者1个1U加上2个2U。这个支架是可以取下来的,所以如果你要放2U节点的话可以把两个1U之间的支架给拆掉。所有的布线和维护都是从前端,背后是没有接口的,管理起来就比较容易。
这是我们的RMC,刚才其实已经说过了,它主要管理供电单元,控制器是来自于AST2500系列,也是最常用的一个BMC的芯片,前板上面有一个USB的接口连接到控制接口,还有交换机提供连接性。我们的操作温度是零下5度到45度,我们支持短期的操作温度可以增加到零上55摄氏度。对于EMC法规我们也是完全遵从的,我们支持抗震,支持Zone4的地震容限。声学噪声的标准也制定出来了,我们完全遵从这个系统,这个对于很多电信客户来说非常重要。
最后总结一下我们对OCP的贡献。我们已经把开放的服务器机箱的技术规范和设计文件都贡献给了OCP,我们获得了OCP accepted认证,今年的时候已经贡献了,我们参与了电信开放边缘的子项目组。
最后我们欢迎所有的公司都参与这种开放边缘生态系统的开发,欢迎加入我们开放边缘项目社区的电话,诺基亚会参加下一次的OCP的地区峰会,在阿姆斯特丹,可以到我们的展台去参观。
百度系统架构师陈刚:5G到来之后,对于互联网的内容生态或者服务生态意味着什么?一是未来的流量,二是计算
百度系统架构师 陈刚
百度系统架构师陈刚:大家下午好,非常高兴有这个机会分享一下百度在AI边缘计算的实践和思考,我来自于百度系统部,整体来讲在百度公司负责5G和边缘计算相关的工作,我的内容主要是两方面,一方面是对于AI边缘计算,从百度来讲整体的认识,第二,在AI边缘计算上实践的活动。
首先看一下,从整体边缘计算来讲,尤其是5G到来之后,对于互联网的内容生态或者服务生态来讲意味着什么?我们从两个方面去思考这个问题,一方面是未来的流量,我们知道当下很多经营的方式,流量是很重要的工作对象,未来在5G时代意义边缘计算来了之后,以视频为主的媒体内容仍然是我们关心的主要工作对象,这一块包括清晰度上、流畅度上,这一块都有内容方面的升级。第二,计算,我们希望有一个无处不在的计算能力,能够赋能无处不在的智能场景,这一块在计算上的部署也是边缘计算上在下一代演进过程中带来的不同的地方。
接着是在这种流量和计算的工作对象上,我们可以看到,未来普通的互联网消费市场以及工业互联网消费市场,对这两部分带来什么样的需求,首先我们可以看普通互联网消费市场,首先来讲它会带来视频流量体验的升级,我们不管是现在的短视频还是直播类的业务,这一块带给我们的冲击,所存在的媒体还是视频,尤其是高清视频,第二是AI的普及化,包括我们用的智能终端,常用的用户终端,AI的能力成为了里面默认的能力,嵌入到系统里。另外是多模的交互,不仅有智能终端,还有另外的眼镜、手表这一块都是带来消费者互联网市场的变化。在这一块有两个趋势,第一,在计算上面,DEC三边的互动,第二个趋势,在多模交互的过程中,我们需要关注用户的最后一公里,用户接入的网络怎么样,在这一块也是关注边缘计算的质量,如何在好的质量下提供边缘计算的服务。
第二部分,工业互联网,那么这种工业互联网需要有在线的需求,原来的基础设施的构建,基于共享开放的平台承载这个需求,还有未来物理世界如何跟数字化的世界互动,在这一块,我们看到在边缘计算的整个布局上需要有一些中间件的平台作为一个技术中台赋能,它不仅需要网络的扁平化也需要计算的扁平化。
这张图在一定程度上回顾了一下边缘计算的发展,在上面的时间轴来讲,可以看到,边缘计算有几个发展的阶段,从最早CDN的发展到,到ETSI的立项。从这张图来讲,背后驱动这些,尤其是绿色到红色部分的阶段,背后有两个比较关键的技术驱动这些技术的演变,包括5G的发展,有NFV,有SDN,有了这两个最基础的技术之后,你可以看到,我们原来在物理的机房里放的一些物理的设备和软硬结合的设备它就能够解耦,能够在软件和硬件上构成一定的灵活度,这样的灵活度,也就是说在现在边缘计算上提供给我们充足的机房资源,让我们部署算力,部署网络,所以在整个边缘计算环境的运行过程中,NFV是必须的基础推动我们整个网络往前发展。
在百度对AI的积累是全栈式的,从底层的框架式再到平台能力,再到部件组件,它的全栈式的布局,更适合把边缘计算场景化的需求和智能化的能力做结合,有了这样能力的结合,就能为未来整体的服务,既能够达到边缘计算对于网络性能的提升,也能够体现到场景化,给你提供一个很丰富的智能化的服务。
说到计算上的模型,我们可以看到,从终端到边缘到Cloud,他有不同算力的部署,这个不同算力的部署也可以适合不同的功能,在百度内部,不管是硬件芯片的设计,还有AI软硬结合推理的加速上也有很多探索的工作。
对于网络模型,我们可以憧憬一下,未来尤其是5G上来之后,这种大带宽可以给我们提供一个很丰富的想像空间,原来是一大片区域覆盖,我们可以在区域里切成一个一个小网格,这个代表场景不同和对应的网络能力不同以及算力不同,在不同的网格里有很丰富的应用切合你实际的步伐。
在这种计算和网络模型下,内部通过软件栈的设计,可以实际的满足上层应用对底层资源调度的方式,我们这个项目叫Over the edge,也很快开源,希望这个开源生态面向AI应用的需求上能够做到灵活调度终端边缘以及中心云,这样三边的资源,为上层的业务很好的性能做出一些实际的加速工作。
其实我们在基于边缘计算应用来讲,也有一些基于百度内部的生态有一些探索,V2X是可以看到实际需求,并且可以实际感受到边缘计算以及AI智能的方面,在这一块,包括我们在实际的场地上面,以及在未来的商业模式拓展上也做了很多工作,包括怎么搭建一个智能的公路,以及在这个智能公路上有一个智能的汽车,如何在上面借助边缘计算实际的做一些自动驾驶的功能,包括高精地图的计算等。
还有未来丰富的媒体我们把8K超高清的媒体做到实时播放,对视频媒体做到AI的计算、分析、加速,对社交视频和直播视频做到很好的启示。
针对手机端的优化,原来有很重的逻辑,包括渲染可以放在边缘上实现,在一部分程度上降低了终端的功耗,同时模型库可以做到扩展性很强,把复杂的功能放在里面,这样对于边缘计算来讲,当成终端能力的延伸,通过这样的延伸可以给你带来很丰富的能力。
我分享的内容基本就这么多,主要是内部的思考和边缘计算上实践的过程。
中国移动研究院电信云交付技术中心主任唐华斌:从中国移动的角度,我们对边缘服务器的总体看法主要来自于三方面:业务需求、机房条件和本身的可维护性
中国移动研究院电信云交付技术中心主任唐华斌
中国移动研究院电信云交付技术中心主任唐华斌:大家好,非常高兴来参加今天的OCP CHINA DAY,今天在这个会场演讲的除了OCP的社区和供应商,剩下的都是我们称之为HyperSkill的客户,中国移动是除了几个大的互联网公司以外,国内服务器采购数量大的公司之一。就在咱们开这个会议的同时,在上海这个时候中国移动正在开另外一个关于中国移动5G策略的发布会,这个策略称为5G+。其中有一项重要的内容就是5G+AICDE,也就是推动5G与人工智能、物联网、云计算、大数据、边缘计算紧密融合发展。
边缘计算在需要低时延大带宽的垂直行业的应用中可以帮助5G更好的落地,是中国移动5G时代重要的发展战略。刚才陈刚介绍了现在很多公司都在各个垂直行业开展一些边缘计算的新业务的探索,比如智慧城市、生活娱乐、车联网、工业互联网或一些园区等等,这些业务可能会有大带宽的需求或者低时延的需求或者两者皆有。如果我们把这些业务按照它在网络当中的部署位置做一下区分的话,从接入到汇聚到核心再到我们的省内的骨干到省级的骨干,大家可以看到时间的延迟是在不断增加的。虽然对于大带宽业务和低时延业务稍微有些差距,但是总的趋势是不变的,也就是说即使你愿意给运营商支付大量的带宽,如果你的业务需要有20毫秒甚至10毫秒低时延的话,那么你就必须部署在我们所说的边缘计算节点。在非边缘计算节点这种集中化的部署是没办法保证你业务的体验的,也就是说从运营商的视角来看,边缘计算的节点可以部署在我们从省内骨干的末点甚至到用户现场的各个位置,它大概对应的位置是城域核心对应地市,汇聚对应县乡一级,取决于基站的分布和用户的分布。
在中国的大市场上,边缘计算的数量级大概是什么样呢?地市有700多处,县乡有超过6000处,当然接入点是百万量级的。对运营商来说,很大好处是要去建5G的网络或者之前4G的网络,我在这些位置本来就有我的电信机房,而且大家都知道通信行业现在在做网络本身的转型、云化的工作,对中国移动来说,我可以充分的将我接入核心网的云化和我边缘计算的基础设施实现一个共享,使用我们共同的边缘的数据中心或者服务器。这是运营商在边缘计算产业链中的一个重要优势,因为边缘计算的节点数量非常大,部署也非常分散,对于任何一个在上层做平台或做应用的公司来说,他很难完全重构一个边缘计算的节点,所以他可能或多或少的要跟基础运营商合作使用我们的机房和网络,这也是为什么说我们希望在边缘计算的场景下推动比如我们的数据中心基础设施和边缘服务器形成一些统一的标准,这其实是有一定现实的基础的。
我们边缘的数据中心和核心的数据中心还是有比较大的区别,比如它的空间、它的环境,一个很不幸的现实是现有的通用服务器没办法在我的边缘机房里直接使用,比如大家看到画圈的这个地方,它的尺寸是远远大于我们的电信机柜的深度的。我们曾经也想过部署我们的服务器的时候到底应该改机房还是改服务器呢,如果从总体的TCU的占比来说,改机房可能是一个很自然的想法,因为整个数据中心的成本相对服务器来说还是比较小的,有很多服务运营商就是这么做的。但后来又算了另外一笔账,机房的改造量是不断增加的,数量越多我的成本会越来越高,而我服务器恰恰相反,虽然我在初期的定制研发需要比较大的成本,但是随着我的数量越大成本越低。如果大家能够形成一些面向产业链的标准的统一的服务器方案的话,把这个量做上去我们的成本就能降低下来,还有一个更重要的原因是边缘计算现在处于一个探索期,我们现在很难知道我们应该在哪些位置、多大规模进行机房的改造,所以这对于我们来说改造服务器的灵活性和成本是更优的一个选择。
基于以上的现实,我们就能大致梳理出从中国移动的角度我们对边缘服务器的总体看法。它主要来自于三方面:业务需求、机房条件和本身的可维护性。比如我们要适配我们做网络或边缘的不同业务的需求,我们希望这个服务器有一定的空间来扩展我们不同的组件,比如网卡、硬盘或GPU、FPGA这种加速,同时边缘的机房采用600毫米的机柜的深度,功率密度相对比较低,环境比较恶劣,省级县乡一级的本地运维水平比较低,我们需要比较好的远程的可维护性。
在这种情况下,我们就可以得到大致需求的轮廓,比如它的深度在400毫米以内,推荐采用2U机架式,因为它的空间能够提供更好的可扩展性,可以支持双路或者单路,如果双路的话我们希望能支持Balance IO的设计,采用风扇支持后置热插拔,统一的管理接口等等。我们在前期的沟通中也有一些供应商提供了一些高密度模块化的设计,我们也做过一些分析,我们觉得首先这个密度对我们来说并不是目前太关注的问题,主要因为模块化之后每个节点的可扩展性不能满足我们的要求。我们觉得可能在未来边缘计算的大规模部署的时候,如果当我们确定了一个比较具体的场景,可能会有一种模块化的交付方式,使得我们能够非常快速的大批量的跟我们的软件一起来交付,但是目前在考虑这一个模块化到底是3U还是5U还是10U的时候,我们觉得可能为时过早,而且这种比较复杂的模块化设计可能会带来更高的成本。
最后,简单回顾一下我们中国移动对边缘计算边缘服务器推进的过程。我们在2017年-2018年就开始考虑这个事情,2018年我们通过明确需求调研产业链,初步明确了我们大概的技术方案,2019年我们结合边缘计算的业务场景开展试点,我们希望在明年的时候能推进边缘服务器的规模应用来支撑5G和边缘计算的发展。在这个过程中,我们也希望跟产业链一起构建将来能满足多样性的业务需求、开放标准的边缘服务器设计方案,共同促进未来边缘计算的发展。
谢谢大家。
浪潮服务器产品部副总经理陈彦灵:标准的边缘计算服务器应该有几个特征:标准化、可扩展性、高环境适应性、便捷智能的运维管理、低能耗
浪潮服务器产品部副总经理陈彦灵
浪潮服务器产品部副总经理陈彦灵:大家下午好,我是来自浪潮的陈彦灵,我主要在浪潮负责产品规划,今天我们几位专家探讨的都是边缘服务器,讲到边缘服务器的话题大家讲的东西都非常类似。
首先,我们先看一下,随着5G和物联网的高速发展,我们发现整个智能计算对网络的需求越来越大,包括大带宽、低延迟、大连接。
数字化网络化智能化,这都是未来典型的应用具备的要素。我们举个例子,到了2020年,一辆自动驾驶的汽车,每天运行数据量达到40个Tb,在车里有上百个传感器,其中每个摄象头每秒种产生20M到40M的数据量,像一个激光雷达基本上可以产生10M到700M的数据。
如果我们把这些数据都上传到云端处理,它占用的整个数据量非常大,大概需要10个Tb,每秒需要10t的传输流量,这么大的传输流量对网络考验非常大。
为了解决这个问题,大家一直在提倡把我们计算从云端下放到终端一侧,通过终端一侧靠近设备,这样可以加速计算,我们的计算结果上传到后端,大大减少了后端的传输带宽和延迟问题。
大家可以看到,在智慧计算的时代下,核心到云到终端,我们加了一个IaaS层,这个Iaas层在解决本地化大的计算量,低延迟的问题。
举个例子,在边缘计算发展的过程中,最先应用的是大量边缘计算的设备。在我们的终端以及基站到核心网之间增加了一层是边缘计算层,这个边缘计算层会根据实际业务诉求部署在不同的位置,整体解决的是当我们有一个应用或者有一个请求发过去的时候,根据我们事先设置的判断,判断这个应用要在本地处理还是在后端处理。当我发现这个应用需要本地化的计算,包括低延迟的属性时会做本地处理,处理完成之后再将结果传到后端。还有另外一个,我们这个MEC是对外提供服务的,这时候所有用户的数据只用传输到MEC端,直接给用户提供服务,这样大大节省了往后端传输带宽的损耗。
下面看一个浪潮实际的例子,在边缘计算出来之前,浪潮做了一个在国内服务器领域第一个智能工厂,我们有600个FID,30套智能设备、2000个传感器,这些传感器以及控制单元,它的背后是边缘计算在做大量的计算处理,通过边缘计算的处理可以实现低延迟高吞吐。
人与设备,设备与设备,设备与订单之间的信息交互,通过传感器跟边缘计算进行互联,进行实时计算满足我们快速定制化订单的交付,总体来讲通过一套完整的从监控到计算,整个交付速度可以提升5-7天,整个生产效率提升30%以上,从一个计算平台构建出来一个浪潮工业云平台,实现多个数据互联共享,大大提升整个的协同作战能力。
下面看一下CDN,讲到CDN要讲到点播或者直播,随着5G的出现以及高清视频的出现,进一步加强了流媒体的增长,未来移动视频每年45%的提升,到2030年,未来视频总体流量占移动数据流量的73%以上。以前是1080P,未来是4K8K,对画面的流畅度和清晰度的追求也是用户的需求。在大容量高清晰视频需求的背景下,唯一的解决方案是需要把CDN下移,以前CDN在区县级,未来下放到楼宇或者小区,这样才能解决大视频低延迟高清晰的传输问题。
通过前面三个典型的案例可以看到,针对边缘计算有一个共同的特点,计算形态的多样化以及环境的复杂性。在工厂,我们需要把机器从舒适的25度的机房里移到生产车间,在整个CDN,需要把以前机房里的机器移到楼宇里,整体环境比较复杂。
计算的多样性以及环境复杂性,这是边缘计算比较典型的两个特征。在这个里面可以归三类,业务需求、环境需求和运维管理。
l 业务需求,比如计算性能,IO吞吐量和异构加速,这里有视频语音图像等其他识别的工作。
l 另外是环境适应性,刚才唐总也讲到,在边缘的机房里只有600L的柜子,通用服务器不能放进去,空间狭小稳定性和耐腐蚀都是通用服务器不能达到的。
l 另外是运维管理,我们跟客户交流的时候如果作为一个边缘服务器,可能部署在很远的山顶或者没有人值守的机房,在这个环境里,机器一旦出现问题,我们怎么快速的运维,或者让系统恢复到工作状态,这是非常重要的,这个跟我们通用服务器也是差异比较大的一块基于这些特点。
对于标准的边缘计算服务器应该有几个特征,标准化、可扩展性,它需要构建不同的计算能力,满足不同应用场景对计算力的需求,还有高的环境适应性,它的温度需要达到40度以上或者50度以上,运维的便捷性,管理智能性,以及低能耗,这是我们看到的边缘服务器最基本的特征。
对于通用服务器来讲,经过几十年的经营,目前具备了非常完整的生态,对于边缘计算,由于刚刚兴起,这两年刚刚被大家所关注,它的生态亟待完善。OCP推出了OpenEdge也是提供了很好的保障,2019年发布了OpenEdge规范,有服务器和和两个很好的节点满足诉求。浪潮在边缘计算做了很多工作,在OCP里面贡献了很多产品和技术,对于OpenEdge也会积极参与,丰富OpenEdge的生态。
浪潮除了做OpenEdge标准化的服务器,我们内部也做了很多自己的标准的机架式服务器,目前机架式的服务器也具备标准化,它有标准化的上架管理,标准化IO扩展能力,有很好的环境适应性和运维的便捷性。对于边缘计算,大家可以看到未来市场非常大,未来部署量几十万上百万,对于这个产业非常大,对于这个生态非常脆弱,所以对边缘计算,为了让这个产业持续高速的发展,这一块需要我们所有在座的参与到里面,一起贡献我们自己的想法,让整个生态变的足够完善,这也是我们能够为边缘计算未来的健康发展做的。