张辉：智能开放网络让未来的数据中心就绪_IDC国内资讯

大家好，今天我想给大家再分享一下迈络思最近的一些进展。包括端到端的智能网卡、交换机和高速线缆。我先花点时间讲一下25G，无论公司内部或者和用户交流的时候，仍然想为什么要25G，网上有一些文章在论述，讲得比较细，我刚好借此机会总结一下，另外有一些定量的东西分享给各位。这张PPT中的“1234”很清楚的展示了原因，有两个匹配的问题，第一个是MAC和PHY的匹配，第二个是总线匹配，首先是两个匹配的问题，这是技术因素，还有第三个成本问题，再一个就是其实各个厂商也好、用户也好比较看好25G的未来，大家都愿意投入生态系统的建设。还有另外技术上的变化，会促生25G甚至更高的网络：这就是NVMe的快速发展，整个的基础架构都会因为NVMe的快速发展而有比较大的架构升级，或者对网络提出更高的需求。今天是网络专场，就不讲NVMe了，但NVMe是实实在在的技术驱动。

刚才讲了定性，还有定量的东西，就是10G和25G的比较。大家觉得就提升了2.5倍，只是端口速度有2.5倍的提升。有些用户已经在部署，但成本只有1倍多点，这样来看占了很大的优势。另外你用了25G以后就意味着交换机的端口和服务器的端口都在减少，就意味这成本降低。同样的传输量的情况下，成本很大的降低，达到50%。还有另外的100G与40G比会发现，密度有很大的提升。

回到Mellanox的产品，我们前段时间发布了200G、400G的以太网交换机。从卡、交换机到线缆，我们所有的芯片都是自研的，才能保证比较领先的地位。我记得刚才有嘉宾也提到了开放网络，我们从做以太网开始就一直秉承着开放。看一下Spectrum-2，现在是25G起步，支持40G 50G 100G、200G 400G。所以题目提到了未来的技术，可以支撑你现有的，对于这种互联网公司超前的需求我们也支持，我们就怕没想法，我们一直在找我们更多的应用场景。扩展性有10倍的提升。还有一点特殊的，可编程能力，在spectrum-2交换机里做了优化，同时总的应用成本会很大的降低。对系统延迟来讲还是超低的状态，比友商低30%。

具体产品型号上大家看到有四款3系列的，了解我们知道上一代是2系列的，到这一代大家发现全部是3系列的，这一代就是200G、400G，用的芯片就是spectrum-2。这两个产品在空间是有时间标准级，存储环境里必须要高带宽，对空间比较在意的话，底下这两款交换机就特别实用。这是具扩展性的200G、400G的开放以太网。

刚才提到交换机，再说一下智能网卡。很多人了解我们是通过卡先了解的，大家觉得我们公司的卡很有特色：网卡的速率很高、性能很好、功能很多。另外很多功能以前以为只是在概念上有，后来发现Mellanox能实现，跑出来效果还很不错。从10G一直到现在的200G，后面数字显示了不同的年代，数字越高，它的速率越高，同时它的功能也会越多，效率也会更高，这是整体的一个思路，性能越来越高，延迟越来越低，功能越来越丰富。

卡本身功能太多了，时间有限，我只说几个比较关注的点。一个是DPDK，6月28号在上海参加了DPDK大会，在现场有好几个用户帮我们背书，直接说了怎么用的我们的网卡，DPDK多好。今天有机会跟大家做一个分享，我们的DPDK大概是什么样的状态。DPDK本身不科普了，我们的安全性、高效、灵活。第一是对安全性，我们做的是硬件识别的保护，可以基于硬件的保护实现进程间隔，是标准的DPDK做不到的。更安全，另外有我们的硬件卸载，性能更高。灵活性也提到了，可以让你的DPDK和非DPDK同时在上面运行，包括我的管理和故障排查，同是一系列的工具、一系列的经验都可以让你的使用上效率更高的同时，保证你的灵活性和应用性，这是DPDK上的一些进展。

看一下效果，这是用的ConnectX-5 EX以太网的的端口，64字节达到了业内高137Mpps，而128字节以上达到线性速率，会发现我们达到了线速性，其实很多友商或者是业内的同仁会讲性能如何好，但真做的线速的只有Mellanox。

提到了DPDK，再说另外一个东西RDMA，我相信有人在研究，有少部分的用户在做一些尝试性的测试环境。应用广的是微软，国内这两年的势头已经起来了，很多家都在用，因为保密协议的关系没法说名字，但是大家能想到的比较top的公司都在用。为什么用RDMA？大家都知道CPU越来越强了，但是过于依赖某一个东西很有可能就会受制于它。比如说把所有的东西放在一个篮子里会有问题，CPU越来越多，重内核会消耗CPU，整体的协议堆栈会大量的消耗CPU，让延迟很难控制。RDMA就直接绕过CPU，让我的内核和用户直接和网络硬件通讯，这样效率一定好，原理上至少绕过了CPU，CPU利用率降低了。还有应用程序的卸载让你的效率更高。RDMA实际上在InfiniBand上，还有以太网上的的RoCE。这里面是两个，一个是使用RoCE，一种是不用的，从三个层面可以看到延迟、吞吐、CPU利用率。吞吐率来讲会有6倍以上的提升，这是比较保守的，我们实测更会高，但是我们会取一个相对比较平均的结果。延迟来讲，基本上保证是1微妙以内。CPU利用率就特别明显的，测到的是2%，实际上在微软的云上，给的结果是零点几，在柱状图上完全看不到了。这是RoCE在整个基础架构里面需要快速的网络的问题，这是一个问题，但是你会发现除了硬件本身是高性能，同时还需要高效率的协议，就是RoCE／RDMA，这是一个结果，跟大家分享的。

后面还有SR-IOV的QoS，这也是进展，我们会对每个VF做线速。以VF为单位的情况下做到质量管理，在更广泛的产品里面保证硬件，让你的可控灵活，包括对CPU的消耗更小。

我们独创的ASAP2。本意是说加速我的包和交换的处理，这是我们的技术，这里面有几种方式，你通过卸载，让运行加速，我们整个的思路是说让传输速度更高、效率更高，ASAP2就是用eSwitch这个角色做了很多工作。也在国内的一些比较靠谱的公司里做测试，包括通信领域。未来有成果的话，或者有能公布的会公布。

刚才提了交换机ASAP2，200G、400G，提了卡，做了分享。最后讲一下线缆，这张图可以看出来，我们从DAC到AOC，包括从单模到多模，都有丰富的产品线。包括100G和25G的，所有现有的服务器厂商都在使用，可能区域不同使用上不太一样，比如说DAC为例北美多一些，大家能猜到的那几家都在内。国内的AOC更多一些，布线的成本和维护会更多，大家会根据自己的业务会有侧重点。这是从线缆方面。同时单模既有自己的成品模块，同时也有芯片，所以无论国内外，在单模这块，我们的合作伙伴基于我们的芯片在做模块，未来我相信我们自己和用我们芯片做的产品会越来越多，生态系统也会越来越发达，未来的产品比较乐观，也会比较清晰。200G的DAC和AOC会在今年下半年发布，明年400G也会发布，大家可以关注这些细节。这是线缆和收发器。

这页大家太熟了，就是SFD-DD和QSFP-DD，我们在这些标准都是重度的参与者和支持者，不细讲了。这是50G的500米的PAM4，这是实际的展示。再看一下表现，从NRZ到DR4，这是基于56G波特率的，也有NRZ的，这块同时展示了接收端和发送端的眼图。时间原因，我就分享到这儿。

最后，这是我们的平台，有的用户比较低调，不太愿意露面，这只是一部分。同时做个小广告。我们在主展台的右边，有国内的专家和国外的专家，如果大家有交流的话可以过去。感谢主持人，感谢各位