大家好,今天我想给大家再分享一下迈络思最近的一些进展。包括端到端的智能网卡、交换机和高速线缆。我先花点时间讲一下25G,无论公司内部或者和用户交流的时候,仍然想为什么要25G,网上有一些文章在论述,讲得比较细,我刚好借此机会总结一下,另外有一些定量的东西分享给各位。这张PPT中的“1234”很清楚的展示了原因,有两个匹配的问题,第一个是MAC和PHY的匹配,第二个是总线匹配,首先是两个匹配的问题,这是技术因素,还有第三个成本问题,再一个就是其实各个厂商也好、用户也好比较看好25G的未来,大家都愿意投入生态系统的建设。还有另外技术上的变化,会促生25G甚至更高的网络:这就是NVMe的快速发展,整个的基础架构都会因为NVMe的快速发展而有比较大的架构升级,或者对网络提出更高的需求。今天是网络专场,就不讲NVMe了,但NVMe是实实在在的技术驱动。
刚才讲了定性,还有定量的东西,就是10G和25G的比较。大家觉得就提升了2.5倍,只是端口速度有2.5倍的提升。有些用户已经在部署,但成本只有1倍多点,这样来看占了很大的优势。另外你用了25G以后就意味着交换机的端口和服务器的端口都在减少,就意味这成本降低。同样的传输量的情况下,成本很大的降低,达到50%。还有另外的100G与40G比会发现,密度有很大的提升。
回到Mellanox的产品,我们前段时间发布了200G、400G的以太网交换机。从卡、交换机到线缆,我们所有的芯片都是自研的,才能保证比较领先的地位。我记得刚才有嘉宾也提到了开放网络,我们从做以太网开始就一直秉承着开放。看一下Spectrum-2,现在是25G起步,支持40G 50G 100G、200G 400G。所以题目提到了未来的技术,可以支撑你现有的,对于这种互联网公司超前的需求我们也支持,我们就怕没想法,我们一直在找我们更多的应用场景。扩展性有10倍的提升。还有一点特殊的,可编程能力,在spectrum-2交换机里做了优化,同时总的应用成本会很大的降低。对系统延迟来讲还是超低的状态,比友商低30%。
具体产品型号上大家看到有四款3系列的,了解我们知道上一代是2系列的,到这一代大家发现全部是3系列的,这一代就是200G、400G,用的芯片就是spectrum-2。这两个产品在空间是有时间标准级,存储环境里必须要高带宽,对空间比较在意的话,底下这两款交换机就特别实用。这是具扩展性的200G、400G的开放以太网。
刚才提到交换机,再说一下智能网卡。很多人了解我们是通过卡先了解的,大家觉得我们公司的卡很有特色:网卡的速率很高、性能很好、功能很多。另外很多功能以前以为只是在概念上有,后来发现Mellanox能实现,跑出来效果还很不错。从10G一直到现在的200G,后面数字显示了不同的年代,数字越高,它的速率越高,同时它的功能也会越多,效率也会更高,这是整体的一个思路,性能越来越高,延迟越来越低,功能越来越丰富。
卡本身功能太多了,时间有限,我只说几个比较关注的点。一个是DPDK,6月28号在上海参加了DPDK大会,在现场有好几个用户帮我们背书,直接说了怎么用的我们的网卡,DPDK多好。今天有机会跟大家做一个分享,我们的DPDK大概是什么样的状态。DPDK本身不科普了,我们的安全性、高效、灵活。第一是对安全性,我们做的是硬件识别的保护,可以基于硬件的保护实现进程间隔,是标准的DPDK做不到的。更安全,另外有我们的硬件卸载,性能更高。灵活性也提到了,可以让你的DPDK和非DPDK同时在上面运行,包括我的管理和故障排查,同是一系列的工具、一系列的经验都可以让你的使用上效率更高的同时,保证你的灵活性和应用性,这是DPDK上的一些进展。
看一下效果,这是用的ConnectX-5 EX以太网的的端口,64字节达到了业内高137Mpps,而128字节以上达到线性速率,会发现我们达到了线速性,其实很多友商或者是业内的同仁会讲性能如何好,但真做的线速的只有Mellanox。
提到了DPDK,再说另外一个东西RDMA,我相信有人在研究,有少部分的用户在做一些尝试性的测试环境。应用广的是微软,国内这两年的势头已经起来了,很多家都在用,因为保密协议的关系没法说名字,但是大家能想到的比较top的公司都在用。为什么用RDMA?大家都知道CPU越来越强了,但是过于依赖某一个东西很有可能就会受制于它。比如说把所有的东西放在一个篮子里会有问题,CPU越来越多,重内核会消耗CPU,整体的协议堆栈会大量的消耗CPU,让延迟很难控制。RDMA就直接绕过CPU,让我的内核和用户直接和网络硬件通讯,这样效率一定好,原理上至少绕过了CPU,CPU利用率降低了。还有应用程序的卸载让你的效率更高。RDMA实际上在InfiniBand上,还有以太网上的的RoCE。这里面是两个,一个是使用RoCE,一种是不用的,从三个层面可以看到延迟、吞吐、CPU利用率。吞吐率来讲会有6倍以上的提升,这是比较保守的,我们实测更会高,但是我们会取一个相对比较平均的结果。延迟来讲,基本上保证是1微妙以内。CPU利用率就特别明显的,测到的是2%,实际上在微软的云上,给的结果是零点几,在柱状图上完全看不到了。这是RoCE在整个基础架构里面需要快速的网络的问题,这是一个问题,但是你会发现除了硬件本身是高性能,同时还需要高效率的协议,就是RoCE/RDMA,这是一个结果,跟大家分享的。
后面还有SR-IOV的QoS,这也是进展,我们会对每个VF做线速。以VF为单位的情况下做到质量管理,在更广泛的产品里面保证硬件,让你的可控灵活,包括对CPU的消耗更小。
我们独创的ASAP2。本意是说加速我的包和交换的处理,这是我们的技术,这里面有几种方式,你通过卸载,让运行加速,我们整个的思路是说让传输速度更高、效率更高,ASAP2就是用eSwitch这个角色做了很多工作。也在国内的一些比较靠谱的公司里做测试,包括通信领域。未来有成果的话,或者有能公布的会公布。
刚才提了交换机ASAP2,200G、400G,提了卡,做了分享。最后讲一下线缆,这张图可以看出来,我们从DAC到AOC,包括从单模到多模,都有丰富的产品线。包括100G和25G的,所有现有的服务器厂商都在使用,可能区域不同使用上不太一样,比如说DAC为例北美多一些,大家能猜到的那几家都在内。国内的AOC更多一些,布线的成本和维护会更多,大家会根据自己的业务会有侧重点。这是从线缆方面。同时单模既有自己的成品模块,同时也有芯片,所以无论国内外,在单模这块,我们的合作伙伴基于我们的芯片在做模块,未来我相信我们自己和用我们芯片做的产品会越来越多,生态系统也会越来越发达,未来的产品比较乐观,也会比较清晰。200G的DAC和AOC会在今年下半年发布,明年400G也会发布,大家可以关注这些细节。这是线缆和收发器。
这页大家太熟了,就是SFD-DD和QSFP-DD,我们在这些标准都是重度的参与者和支持者,不细讲了。这是50G的500米的PAM4,这是实际的展示。再看一下表现,从NRZ到DR4,这是基于56G波特率的,也有NRZ的,这块同时展示了接收端和发送端的眼图。时间原因,我就分享到这儿。
最后,这是我们的平台,有的用户比较低调,不太愿意露面,这只是一部分。同时做个小广告。我们在主展台的右边,有国内的专家和国外的专家,如果大家有交流的话可以过去。感谢主持人,感谢各位