2019年6月25日,由浪潮与OCP开放计算社区联合主办的首届OCPChina Day(开放计算中国日)在北京正式开启。本届 OCP China Day聚焦人工智能、边缘计算、OpenRack、OpenRMC、SONiC、OAM等前沿技术话题,来自Facebook、LinkedIn、Intel、微软、百度、腾讯、阿里、诺基亚、中国移动、浪潮等资深技术专家分享了最新技术进展。近千名工程师和数据中心从业者参加了此次大会。
OCP是全球大的开放硬件社区,2011年由Facebook发起成立,其宗旨是以开源开放的方式,重构当前的数据中心硬件,发展面向下一代数据中心的服务器、存储、网络、基础设施等创新硬件。目前,OCP核心会员超过200家。
2018年2月,腾讯正式加入OCP开放计算项目,致力于加强与社区成员在数据中心、网络、服务器等方面的技术交流和联动,推动基础设施的跨企业开发以及软硬件前沿技术的普及。在本次OCPChina Day上,腾讯专家工程师蔡克文以《Open Togather TencentContribution Updates》为题进行了分享。
腾讯专家工程师 蔡克文
以下为大会演讲实录:
蔡克文:很荣幸在今天参加第三次OCP的会议,每次参加OCP的会议,个人都觉得非常有趣,能够在OCP的会场一次性见到这么多生态合作伙伴进行技术的沟通和交流,这是非常有益的一件事,也代表了开放的意义。从2017年开始腾讯在云这块有一个很大的战略转变,从公司的口号来看,第一是扎根消费的互联网,这是to C的。 在to B这块我们的目标是拥抱产业互联网,拥抱这个词代表了一个姿态,以开放的形式拥抱产业拥抱行业,对我们技术人员来看很关键,要拥抱开源,这也是内部在推动的一件事情,这也是我们积极参与OCP这样一个全球性开源组织的原动力。
有一些对于腾讯云的基础能力设施的定性定量的数据,我不做过多的解读,更重要的一件事情是通过我们在OCP参与的贡献、项目,包括待会线下你们跟我们专家工程师就各个项目的沟通,了解这些数字背后的腾讯的技术架构、技术方向。
今年1月份腾讯和OCP联合主办了中国区第一个meetup,腾讯的VP宣布了我们会有6个计划,我会跟大家更新一下这些项目的贡献。今天到场的小伙伴特别多,1月份有500个,这次有1千个以上,希望增量的小伙伴了解腾讯OCP项目的背景,也想大家了解项目的状态,希望分享OCP项目贡献的流程和我们的经验体验。
OCP的项目贡献,在你完成入会之后每个白金会员都会有自己的义务做项目的建设,如何来做呢?我这边做一个小小的概括,有6个小步骤,取决于项目的类型,你是硬件还是软件。第一步,一定是跟OCP签署一个文件,第二会做workgroup的review,第三通过OCP的门户网站把自己项目的类型、技术文档上传。第四步,成立一个孵化技术委员会,我们会在那边进行技术的陈述。第五步,这个孵化技术委员会会做对应的审核来决定你能不能进入第六步的,这是大概的过程。我们工程师通过创新的设计,把传统电信机房需要的拨分付用、可配置的光交换的整机柜的设计浓缩成2台2U或1台2U就能完成的目标,可以达到降本增效的作用。今天现场有两个机柜,在场有两位专家工程师),如果大家想对腾讯的DCI的趋势发展,下一步2.0会做什么感兴趣,我鼓励大家跟他们做现场的沟通交流。
第二个走得非常快的项目是我们的TMDC。如果有在国内从事数据中心项目的一定会对腾讯的TMDC非常了解,TMDC是腾讯推动了很久的数据中心的项目,它是以12个机架18个机架作为小颗粒度,作为一个allin one的解决方案,自含了市电直供、高压直流作为备用,完成非常高能效的POU的达成目标。整个基于TMDC的国内生态系统非常健全,成本、交付、供应链都非常完备。上次会议除了谈到TMDC,还衍生了我们做下一步数据中心的规划,这些都是会在OCP的未来会展开的技术研讨和项目。
我们一定会谈服务器,T-Flex是腾讯自研的,也是规划的下一代存储服务器,它的主要目标是通过模块化的形式实现核心数据中心计算存储的供配,在整个设计理念中我们把它分成ABC三个区,这样可以灵活支撑2路、1路和一些存储的模块进行组合和交付,目前这个项目我们准备在2019年Q3完成,同时也完成和Workgroup的第一次交流,我花了大量的时间做edge这块。
这个项目是我们的自研交换机,大家如果有时间可以在茶歇的时候去参观,我们把自研的交换机拿到了现场。它有两个尺寸规格,一个是1U一个是4U,我们预计在2019年年底Q4的时候完成,意味着我们会在腾讯内部的网络进行大规模的部署。
这个项目的名称是Rhea,两台系统各有代号,我鼓励大家待会到腾讯的展台联系工程师,一定要问一下他这几个项目名称的代码背后有什么故事,他一定会告诉你些非常有趣的事。一定要问他腾讯DCN的网络架构下一步会怎么样,硬件设计会怎么走。
有了TMDC这样一个硬件的数据中心的基础架构,我们的数据中心团队做了另外一件事,把所有基于硬件的数据中心管理的接口都标准化抽象化,我们也会预计在今年年底的Q4把这部分标准化的API的规范文档,贡献到OCP的社区。以TMDC作为最小颗粒度的单元,依托于标准协议完成对V模块内部所有暖通、配电一系列设备的监管控,把所有我们能见到的基于数据中心的设备都分门别类,把相对应设备的数据结构都做了完全的标准化,给每个设备都设计了一个非常有力的Global ID,非常利于将来线性的做基于数据中心这些设备的扩展和管理。
这个项目比较特殊,它叫DCOS,它不是一个操作系统,它是我们用于数据中心内部裸金属设备的管理,比如网络设备、服务器的硬件资源,负责整个运营。年初的时候这个项目是我们跟OCP等项目组沟通花的时间最多的,它跟前面的项目有一个很大的区别,它是一个软件项目。年初的时候我们为了推进整个项目,我们曾经设想通过二进制的安装包的形式发放给社区先行进行体验,但经过一轮又一轮跟软件项目组沟通,发现这并不符合开源Opensoure的标准,我们重新梳理了整个软件模块贡献的时间。对于一个运营系统很关键的一个模块是CNDV,它是一个数据库,但是对所有运营的设备、运营的策略、运营的资源都做了一个标准化的定义,我们会在2019年Q3把这部分代码通过gatehub的方式开源出来,完全符合OCP的诉求。软件代码的开源只要有标准化的Opensourelicense,它走的途径会有一点不一样,第二个模块是BME,它会用于服务器的管理和部署,同时也会对服务器做一些的管理,这部分代码的完全开源会到明年年底Q4的时候。
最后一个模块是基于运营产生的很多告警和后续的处理策略,都会通过这样一个模块实现开源,它会在2020年Q3实现。整个这套系统能够支持5万台服务器的运营规模,非常适合私有云的管理。整体代码开放时间会在2020年Q4。
聊完了腾讯OCP项目的状态,我们下面会做哪些事情?今天很多topic中Edge是一个非常热的点,腾讯也是一样,对于腾讯云而言,我们在做很多Edge的研究,在Edge side我们正在开发一个平台TSEC,作为未来边缘侧智能接入的一个开放平台,它会完成几件事情。第一完成跟运营商就开放接口和能力平台的对接,第二我们在构建自己的MEC。第三打通跟内部基于AI平台和基于物联网平台各个业务平台的通道。这是从腾讯的业务框架平台的角度看,我们在想Edge对于腾讯的基础设施有什么影响,核心机房有模块化的系统,可以支撑90公分的深度,但是在Edge我们该怎么办,它的部署场景有可能是电信运营商的,也有可能是某个企业的私有环境,也有可能是在户外的某一个更加恶劣的环境。我们怎么灵活支撑未来Edge多种多样企业非常不明朗的业务场景呢,这是我们要去思考的。
基于不同的场景我们完成算例,完成内容,完成这样一个组合,它也代表了Edge server和传统server三个基本属性,三个C(connectibity、computation、content),5G来了有一个非常明显的特成是计算与内容的下沉,什么样的内容什么样的计算会下沉,这取决于场景,这也引发了我们很多的思考,5G会从今年开始密集部署,我想了一下我们做服务器的设计通常会需要一年的时间半年的时间,如果我们开始做的话这已经是一年半之后的事情了,再加上前期还有些规划,我相信Edge Server的落地可以到2021年了。OCP有很多非常优秀的project,这些项目结合腾讯后期会参与,我相信未来腾讯和OCP一起在Edge这块还会有很多有趣的项目展开进行合作。我们非常乐于通过OCP的平台给大家呈现腾讯在Edge这块的整体规划,后续我们会把我们在Edge这边的设计细节通过各个group跟大家做开诚布公的探讨,看我们怎么推进Edge整个硬件生态的发展。
我今天讲的主要内容就到这里,上次会有500人,这次会有1000人,下一次OCP中国有多少人参与呢?我个人非常期待,谢谢大家。