以Chat GPT為代表的聊天機器人所表現出來的理解和推理能力讓人驚嘆,也讓視頻腳本、文案、翻譯、代碼,論文、郵件撰寫等需要人類創意的工作變得簡單。Chat GPT的背后是算力、算法和數據的支撐,按照國內云計算專業人士公認的一個說法:1萬枚NVIDIA A100芯片是做好AI大模型的算力門檻,而A100的價格不菲。
根據研發ChatGPT的OpenAI公司的訓練集群模型作為參考,1746億參數的GPT-3模型,大約需要375~625臺8卡DGX A100服務器(對應訓練時間10天左右),訓練一次的成本,需要花費460萬~500萬美元。這不是一般企業可以承受之重。
“別人笑我太瘋癲,我笑他人看不穿;不見五陵豪杰墓,無花無酒鋤作田!
你看到的是結果和市場的潛力,我看到的是其背后巨大的花費和支出。如果說算力是Chat GPT等AI大語言模型必須付出的代價,那么,好鋼就需要用在刀刃上,人盡其才、物盡其用,任何的效率低下和損失,所帶來的損失將是倍增的效果。
壓榨算力的關鍵并不在于CPU、GPU,其關鍵在于DPU和網絡基礎設施,試想一下,因為網絡帶寬和傳輸效率的問題,寶貴的CPU、GPU資源一旦出現等待,“沒有聲音,再好的戲也出不來”,在高性能計算領域,這樣的情況就經常發生,考慮到規模,這樣的局面不應該在AI大模型的應用中重演。

所謂專業的人做專業的事情,引入DPU與高性能的以太網網絡平臺和InfiniBand網絡網絡平臺將是提高網絡傳輸效率的關鍵,其中,高性能網絡好理解,主要解決傳輸帶寬的問題,因此關鍵在于DPU的使用。
通過集成ARM、ASIC和RISC-V處理器,NVIDIA BlueField-3 DPU可以對包括SDN軟件定義網絡、NGFW新一代防火墻、數據存儲加速,DOCAFLOW 庫、通信通道(Communication Channel)庫、正則表達式(RegEx)庫、App Shield SDK以及OVN IPsec 加密完全卸載等功能進行單獨處理和加速,對遙測(Telemetry)、基于主機的網絡(Host Based Networking)以及流量檢測器(Flow Inspector)等功能服務進行了加強。如此一來,在降低CPU、GPU消耗的同時,大大提升網絡處理和傳輸的效率。其中的原理也很簡單,一來CPU、GPU不擅長處理這些事情,二來讓CPU、GPU處理也消耗帶寬的資源,增加等待的時間。
除此之外,DPU也被用于加速云計算,支持云托管更多虛擬實例;被用于多租戶云的安全隔離,將業務應用域和基礎設施域進行隔離,提供零信任安全的部署的平臺;可以對Redis事務處理等進行加速,通過IPsec功能卸載,提升效率的同時,降低數據中心的能耗。
如果說,DPU的引入是關鍵,那么,DOCA 就將為DPU注入靈魂,這是一個面向DPU開發者的軟件開發平臺,如今,DOCA迎來了新的2.0 版本。
據了解,以后的BlueField 系列DPU都是運行在DOCA軟件架構之上,它實現了底層硬件從驅動、庫到相關的加速,很多功能都可以被卸載到DOCA,它向上提供編程接口,方便開發者利用DOCA進行編程。目前DOCA向下兼容以前的版本,比如最新發布的DOCA 2.0,也能運行在上一代BlueField-2 DPU上,差別在于有些功能沒有辦法完全實現。
DOCA環境非常體系化,分為SDK、RUNTIME運行時兩部分,其中,SDK主要是驅動庫、開發工具包括X86筆記本電腦上去模擬DPU構建的ARM開發環境,讓你在筆記本電腦上也可以做DOCA的開發。而RUNTIME運行時提供了基本的DOCA服務,以及一些組件和一些已經寫好的參考程序,用于幫助IT管理員和運維人員簡化部署。
DOCA服務包括遙測等簡單的功能,可以通過NGC可以簡化部署,不用敲那么多命令行,幾乎一鍵式就部署在服務器、甚至數據中心。通過虛擬化、遷移手段可以對不同硬件,比如x86進行遷移。
通過引入了DPA計算子系統(基于RISC-V),BlueField-3 DPU可以對設備仿真、IO密集型應用、高插入率、網絡流處理和客戶協議、集合和DMA操作進行了優化。
新的BlueField-3 DPU中改進了Regex 硬件引擎,增加了多項硬件增強的功能,如雙向搜索,可以更快的找到自己需要的匹配相關內容的包;與此同時,在網絡安全、應用軟件/主機安全和應用協議識別和數據庫加速等,新的功能非常有助于預防高并發的DDos攻擊,實現高性能的惡意軟件檢測,有助于提升大語言模型AI訓練的效率。
BlueField-3 DPU新增加了用于提升存儲特性的SNAP v4,直接從DPU將相關數據交給GPU做訓練,不用再經過CPU調度。未來,SNAP v4會被NVIDIA放在NGC,即可一鍵部署。
工欲善其事必先利其器,AI大模型也好,高性能計算也好,正在逐步演變為DPU之爭,效率將會成功關鍵要素,需要引起足夠的關注。