AMD AI 生態(tài)伙伴模優(yōu)優(yōu)科技:全尺寸Qwen3-235B模型在mini PC上的高效部署
供稿 / 2025-06-10 09:422274自最新的通義千問大模型Qwen3發(fā)布以來,憑借其優(yōu)秀的模型表現(xiàn),備受關(guān)注。在當(dāng)前AI大模型快速發(fā)展的時(shí)代,AMD AI生態(tài)伙伴模優(yōu)優(yōu)科技繼成功實(shí)現(xiàn)DeepSeek V3大模型的AI PC優(yōu)化部署后,第一時(shí)間成功將全尺寸Qwen3-235B模型優(yōu)化,部署到基于AMD銳龍 AI Max+ 395處理器的mini PC上,推理速度達(dá)到14tokens/s。
AMD 銳龍 AI Max+ 395:為大模型量身打造的終端算力
AMD 銳龍 AI Max+ 395處理器擁有16核32線程、最高加速時(shí)鐘頻率5.1GHz,集成了基于RDNA 3.5架構(gòu)的40個(gè)計(jì)算單元的Radeon 8060S GPU,以及高達(dá)50+ TOPS 的"XDNA 2"架構(gòu) NPU。
模優(yōu)優(yōu)科技的技術(shù)團(tuán)隊(duì)充分利用了AMD銳龍AI Max+ 395的獨(dú)特架構(gòu)特性,特別是其統(tǒng)一內(nèi)存設(shè)計(jì)和高達(dá)96GB的可分配顯存,通過定制化的內(nèi)存調(diào)度策略和深度量化優(yōu)化,成功克服了大模型在端側(cè)部署的內(nèi)存和計(jì)算瓶頸,使全尺寸Qwen3-253B模型能夠在AI PC上流暢運(yùn)行。
Qwen3全尺寸模型端側(cè)高效部署
模優(yōu)優(yōu)科技憑借自身深厚的技術(shù)積累,將這一全尺寸模型成功優(yōu)化并部署到采用AMD銳龍 AI Max+ 395處理器的惠普和華碩筆記本電腦,以及極摩客的mini PC上。而在極摩客的 EVO-X2 mini PC上,推理速度達(dá)到14tokens/s,實(shí)現(xiàn)了端側(cè)設(shè)備上大模型高效部署的創(chuàng)新。
值得一提的是,模優(yōu)優(yōu)科技基于創(chuàng)新的混合量化技術(shù)和策略,在保證推理速度的同時(shí),也能保證Qwen3-235B在mini PC端側(cè)部署的推理精度,相較于傳統(tǒng)常見的端側(cè)Q4量化32B,70B模型提升明顯,以及對(duì)比同尺寸的Q8量化Qwen3模型,精度接近。
(該測(cè)試數(shù)據(jù)來源于模優(yōu)優(yōu)技術(shù)團(tuán)隊(duì))
"我們的異構(gòu)加速方案徹底改變了大模型部署的成本結(jié)構(gòu)與性能邊界,使企業(yè)和個(gè)人用戶都能在本地設(shè)備上體驗(yàn)全尺寸Qwen3-253B帶來的強(qiáng)大AI能力。"模優(yōu)優(yōu)科技創(chuàng)始人兼CEO王言治博士表示,"14tokens/s的推理速度意味著用戶可以獲得流暢的對(duì)話體驗(yàn),而無需依賴云端資源。"
模優(yōu)優(yōu)異構(gòu)加速方案的技術(shù)亮點(diǎn)
模優(yōu)優(yōu)科技基于對(duì)AMD平臺(tái)的深度優(yōu)化,為Qwen3-253B模型部署提供了全面的異構(gòu)加速解決方案:
· 精細(xì)量化與內(nèi)存優(yōu)化:針對(duì)Qwen3模型的混合專家架構(gòu)特性,模優(yōu)優(yōu)團(tuán)隊(duì)采用了差異化量化策略,對(duì)關(guān)鍵層和路由專家進(jìn)行精細(xì)量化處理,在保持模型精度的前提下,顯著降低了內(nèi)存需求。
· 多硬件協(xié)同加速:方案充分整合了GPU和CPU資源,實(shí)現(xiàn)了硬件資源的高效利用,推理速度達(dá)到14tokens/s,為用戶提供媲美云端的對(duì)話體驗(yàn)。
· 動(dòng)態(tài)計(jì)算調(diào)度:針對(duì)Qwen3模型支持思考模式和非思考模式切換的特性,模優(yōu)優(yōu)技術(shù)團(tuán)隊(duì)開發(fā)了自適應(yīng)計(jì)算調(diào)度系統(tǒng),根據(jù)任務(wù)復(fù)雜度動(dòng)態(tài)分配計(jì)算資源,實(shí)現(xiàn)性能與體驗(yàn)的最優(yōu)平衡。
對(duì)企業(yè)和個(gè)人用戶的價(jià)值
1. 隱私安全保障:大模型完全在本地運(yùn)行,敏感數(shù)據(jù)無需上傳云端,從根本上解決數(shù)據(jù)安全問題。
2. 成本顯著降低:相比云端API調(diào)用,本地部署可大幅降低長期使用成本,尤其適合高頻率使用場(chǎng)景。
3. 離線使用能力:無需依賴網(wǎng)絡(luò)連接,即可隨時(shí)隨地獲得強(qiáng)大的AI助手支持。
4. 解決方案可擴(kuò)展:模優(yōu)優(yōu)的異構(gòu)加速技術(shù)可應(yīng)用于更廣泛的硬件平臺(tái),為不同行業(yè)場(chǎng)景提供定制化解決方案。
未來展望
隨著Qwen3系列模型的發(fā)布和端側(cè)部署能力的突破,模優(yōu)優(yōu)科技與AMD將持續(xù)合作,推動(dòng)AI解決方案在更多端側(cè)場(chǎng)景化應(yīng)用落地,進(jìn)一步釋放大模型在終端的應(yīng)用潛力。
AMD AI 生態(tài)伙伴模優(yōu)優(yōu)科技:全尺寸Qwen3-235B模型在mini PC上的高效部署














滬公網(wǎng)安備 31010702005758號(hào)
發(fā)表評(píng)論注冊(cè)|登錄