《專家觀察 | 張輝:“智能網(wǎng)絡(luò)構(gòu)建高效云計算平臺”》要點:
本文介紹了專家觀察 | 張輝:“智能網(wǎng)絡(luò)構(gòu)建高效云計算平臺”,希望對您有用。如果有疑問,可以聯(lián)系我們。
由工業(yè)和信息化部指導(dǎo),中國信息通信研究院主辦,業(yè)界知名組織云計算開源產(chǎn)業(yè)聯(lián)盟(OSCAR)承辦的2017全球云計算開源大會于4月19日-20日在北京國家會議中心順利召開.本文為本屆大會嘉賓分享的大會演講速記內(nèi)容,敬請瀏覽.
嘉賓介紹:張輝
公司職務(wù):Mellanox公司亞太區(qū)解決方案營銷總監(jiān)
大會演講速記
非常感謝在座各位和主持人,今天的演講題目是智能網(wǎng)絡(luò)高效構(gòu)建云平臺.
我們邁絡(luò)思是做網(wǎng)絡(luò)的,我們起家是做高性能計算的InfiniBand高速網(wǎng)絡(luò),之后我們以太網(wǎng)也做到了端到端,目前大家在數(shù)據(jù)中心用的比較多的還是萬兆居多.
我們現(xiàn)在做25G及以上的網(wǎng)絡(luò)是我們絕對領(lǐng)先的技術(shù),在早期40G網(wǎng)絡(luò),90%以上40G網(wǎng)絡(luò)都是我們網(wǎng)絡(luò),新的25G、100G也占據(jù)了市場的絕大部分份額,甚至下半年我們會出200G以太網(wǎng),目前可以說在網(wǎng)絡(luò)方面沒有人能超過我們.
其實說到云計算,相信大家都是專家,從最開始做虛擬機一直到現(xiàn)在落地,包括今天這么大會議來講,相信對廣大用戶也好,企業(yè)也好,都是可接受的,并且在實施中.那么邁絡(luò)思一個做網(wǎng)絡(luò)的供應(yīng)商,我們怎么打造一個高效云平臺,這就是我今天要講的東西.
大家知道做云無論哪個階段,第一步是做虛擬化,相信大家都體驗到虛擬化好處了,但是所有東西都是雙刃劍,虛擬化的問題是會帶來其他的一些問題,比如性能會不可靠.虛擬化做云技術(shù)的時候我們總結(jié)了幾個問題.
第一是低效的網(wǎng)絡(luò)協(xié)議,比如TCP/IP是比較成熟的協(xié)議,起源于廣域網(wǎng),TCP/IP是內(nèi)核態(tài)的協(xié)議,對其所有處理要經(jīng)過CPU做處理,它會有協(xié)議轉(zhuǎn)換的消耗,但是在當時那個年代網(wǎng)絡(luò)速度沒有那么快,TCP/IP協(xié)議延遲.
如果大家熟悉的話,差不多是在220—250微妙延遲,微妙級延遲對于我們早幾年的時候沒有感覺,但是在研究或者從今天開始,SSD的普及,高速網(wǎng)絡(luò)的普及,包括延遲的普及,大概我們會發(fā)現(xiàn)慢慢的200多微妙延遲會影響整體效能,為什么?
大家知道現(xiàn)在SSD延遲也在微妙級別了,網(wǎng)絡(luò)延遲一般也是在微妙,我們的網(wǎng)絡(luò)是納秒級別,如果大家發(fā)現(xiàn)網(wǎng)絡(luò)卡在幾十微妙的時候,TCP/IP協(xié)議在200微妙以上,這時候大家發(fā)現(xiàn)真正影響性能的瓶頸就在協(xié)議本身,所以TTP協(xié)議未來會在高性能環(huán)境里面,TCP/IP會變成瓶頸,所以就需要RDMA跑在你的以太網(wǎng)上提高效率.
大家知道在做虛擬化以后,有一個問題是通訊怎么辦.從開始從零到一,用虛擬交換機解決從零到一,讓它工作了,但是效率怎么樣?
你真正部署以后,虛擬交換機會變成你的瓶頸,它的性能沒有那么高,會變成瓶頸.SR-IOV就把計算虛擬化和我們網(wǎng)絡(luò)做了很好的結(jié)合,上層虛擬機直接和底層網(wǎng)卡做映射,這樣不經(jīng)過虛擬機和內(nèi)核,效率相當于訪問了我的設(shè)備,虛擬化懲罰不到了.
另外大家都知道DPDK是很流行的開發(fā)語言包,DPDK初衷也是類似的東西,因為TCP/IP也是制約了系統(tǒng)的性能,我們通過PMD可以更直接,更方便訪問我們設(shè)備,我們會讓上層DPDK訪問的時候讓效率更高效,這樣同樣達到裸機的效果.
我們通過DPDK+PMD的結(jié)合,可以讓效率進一步提升.大家可以看到在40G網(wǎng)絡(luò)里,我們的鏈路可以到35.7GB,在云環(huán)境里,用了VXLAN卸載以后加上各種技術(shù),到了37.5,同時不需要額外的CPU資源.
這時候大家會想到一個問題,我們一直講云計算,最重要的就是計算,在沒有采用這個技術(shù)之前,大家會發(fā)現(xiàn)你在封裝、解封裝甚至協(xié)議處理的時候,會消耗你相當大的CPU,我們有一個分享的數(shù)據(jù).
我記得去年的時候,有一個廠商提到在萬兆環(huán)境下,用來做包處理的時候,會消耗CPU30%—40%,在這種情況下,能夠用來做計算的就非常有限了.所以用了VXLAN之后,會CPU釋放出來,不需要CPU,可以將35%的CPU釋放出來,如果沒有用VXLAN做的話,CPU會消耗35%,用了VXLAN以后,CPU不再消耗,這也是我們主要的貢獻.
還有一個叫ASAP2,ASAP大家比較熟,是盡可能快,我們ASAP2從字面來看我們是可以快到極致,這是我們自己開發(fā)新的技術(shù),所謂加速交換包處理.在這個里面我們有幾種方式,時間原因我只介紹幾個,第一個是ASAP2卸載,我們把上層虛擬機和底層硬件做溝通,所有包處理,所有協(xié)議處理,都是通過網(wǎng)卡硬件本身直接做工作,這樣效率得到提升.當然還有可以部分來做,比如有控制部分,還是做傳統(tǒng)通過內(nèi)核來控制,真正大量消耗CPU,這些我們都可以進行解決.
另外是DPDK加速的OVS,在我們認為的世界里,相當快的速度了,和ASAP2比,哪個孰高孰低?大家看到在第一個場景是1流,沒有用XVLAN,幾乎不消耗CPU,還有一種情況是2000流,用VXLAN可以到25MPPS,大家可以看到這兩個差距很大,同時CPU消耗沒有,但是在DPDK里還是要消耗CPU的,只比之前好一些,但是還是需要四個核.所以我們真正在云計算世界里,讓計算做CPU該做的事.
下面看一下怎么加速我們的網(wǎng)絡(luò),因為剛才宋老師也提到存儲,現(xiàn)在存儲是不可避免的話題.所謂的網(wǎng)絡(luò)三大件,網(wǎng)絡(luò)本身我們做得很好,同時把CPU也能夠釋放CPU資源,我們再看存儲有什么變化.我們做交換機實際上是這個領(lǐng)域比較成熟,有人說是紅海,我覺得不是紅海,整個新的架構(gòu)和新的技術(shù)、應(yīng)用出現(xiàn),會對網(wǎng)絡(luò)提出新的要求,這也是一個新的變化.
我們的交換機是從芯片和交換機本身都是我們自己的,和市面上看到絕大多數(shù)的交換機,第一個是高帶寬到極致,100G,低延遲在200納秒,還有包括在丟包問題.
我相信大家回去看一下,你們交換機做的時候都有丟包問題,但是我能告訴大家,我們交換機是不丟包的,在存儲里面或者在云計算里面是能夠提到效率很大的保障.大家知道丟包不是說不能接受,而是說會使你發(fā)了包要重新發(fā),意味著對方接收的時候需要重新排列了組合,效率會降低,所以不丟包是最樸素的要求.
剛才提到存儲,我們看一下OpenStack存儲的加速,還是數(shù)據(jù)說話,可以看到TCP/IP網(wǎng)絡(luò)和RDMA加速以后性能有什么變化.
我們可以看到同樣網(wǎng)絡(luò)下,性能會有6倍提升,其實6倍不止.為什么?如果你的PCI足夠高的話,比如PCI3x16、32性能會進一步提升.另外在Ceph,大家看到用RDMA的時候性能也有三倍的提升.
另外在EC里,它會消耗CPU,我們會把消耗CPU做運算的放在網(wǎng)卡里做,同時在分布式架構(gòu)里讓你的性能得到提升,成本降低的同時保證安全性.
前面講了對網(wǎng)絡(luò)的加速,對存儲的加速,對CPU釋放,再講一下落地的東西,我相信所有的東西,落地一定要有易用性或者開放性.
我們網(wǎng)絡(luò)數(shù)據(jù)中心是開放網(wǎng)絡(luò),大家可以看到我們提供的文件,也可以在上面跑不同的操作系統(tǒng),利用我們高性能,低帶寬網(wǎng)絡(luò)運行在這個環(huán)境里.
這里面有幾個抓圖,這是我們的界面,因為我們和OpenStack結(jié)合已經(jīng)很成熟了,所以我也不講太多了.
最后有幾個案例,大家知道微軟從2012的時候就開始支持我們的RoCE了,利用RoCE在同樣的硬件情況下,性能和帶寬有兩倍提升.
還有在騰訊,我相信關(guān)注云的應(yīng)該在春節(jié)前,騰訊發(fā)布了新聞,在整個云計算排序里面,騰訊拿了第一名,第一個是比去年成績提高了5.8倍,單節(jié)點性能提高33倍,在騰訊云里面有騰訊領(lǐng)頭的,也有我們和IBM幫助騰訊的,這里面用的就是我們100G的網(wǎng)絡(luò).
文章來自微信公眾號:云計算開源產(chǎn)業(yè)聯(lián)盟
轉(zhuǎn)載請注明本頁網(wǎng)址:
http://www.snjht.com/jiaocheng/4122.html