近日,聯(lián)想研究院智能計(jì)算基礎(chǔ)設(shè)施實(shí)驗(yàn)室(ICI Lab)與聯(lián)想中國(guó)基礎(chǔ)設(shè)施業(yè)務(wù)群緊密協(xié)作,成功推出了一系列聯(lián)想問天DeepSeek推理一體機(jī),實(shí)現(xiàn)了單機(jī)部署DeepSeek 671B滿血版大模型極限吞吐8268詞元/秒(token/s),千億參數(shù)大模型本地部署顯存需求低于1TB。
這一成果刷新了業(yè)界單臺(tái)服務(wù)器運(yùn)行大模型性能的紀(jì)錄,為AI服務(wù)器大模型推理性能指標(biāo)樹立了新的標(biāo)桿,充分彰顯了聯(lián)想在AI智算基礎(chǔ)設(shè)施領(lǐng)域的深厚技術(shù)底蘊(yùn)與領(lǐng)先實(shí)力。

此次突破性進(jìn)展由聯(lián)想研究院智能計(jì)算基礎(chǔ)設(shè)施實(shí)驗(yàn)室(ICI Lab)異構(gòu)計(jì)算團(tuán)隊(duì)攜手聯(lián)想中國(guó)基礎(chǔ)設(shè)施業(yè)務(wù)群,并聯(lián)合AMD共同設(shè)計(jì)實(shí)現(xiàn)。依托在智算基礎(chǔ)設(shè)施關(guān)鍵技術(shù)領(lǐng)域的持續(xù)積累,ICI Lab異構(gòu)團(tuán)隊(duì)針對(duì)DeepSeek大模型推理進(jìn)行了全方位的技術(shù)創(chuàng)新與優(yōu)化,涵蓋了高層編譯優(yōu)化、集合通信優(yōu)化以及分布式推理引擎優(yōu)化等多個(gè)關(guān)鍵領(lǐng)域,極大提升了大模型的推理效率和性能。
高層編譯優(yōu)化:深入分析負(fù)載特征和硬件架構(gòu),對(duì)MLA 和 GEMM kernel 算子性能進(jìn)行了全面優(yōu)化,顯著提高運(yùn)算速度,從而加快模型的推理過(guò)程。同時(shí),通過(guò)自適應(yīng)混合精度量化在不同計(jì)算精度之間靈活切換,在保證模型精度的同時(shí),節(jié)省了大量的算力和顯存資源,使得模型能夠在有限的硬件資源下高效運(yùn)行,充分釋放硬件算力潛能。
集合通信優(yōu)化: 自主研發(fā)的LCCL集合通信庫(kù)通過(guò)優(yōu)化通信算法和數(shù)據(jù)傳輸策略,特別是針對(duì)分布式推理中的ALLReduce和ALLtoALL等關(guān)鍵操作進(jìn)行了深度優(yōu)化,有效減少了通信延遲和帶寬占用,提高了分布式推理的效率。
分布式推理引擎優(yōu)化:單次生成多Token并行輸出,突破傳統(tǒng)序列解碼顯示,大幅提升了解碼階段的并行化水平。利用GPU/CPU協(xié)同推理機(jī)制通過(guò)動(dòng)態(tài)調(diào)度算力負(fù)載,將GPU存算負(fù)載卸載至CPU,充分發(fā)揮異構(gòu)算力效率。采用PD分離式推理架構(gòu)將預(yù)填充與解碼階段分離,并分別適配不同硬件進(jìn)行優(yōu)化,滿足高并發(fā)大規(guī)模業(yè)務(wù)場(chǎng)景需求。
