Arm運算平台助力Llama 3.2LLM,實現 AI 推論加速與擴展

Image caption

Meta 正式發表全新開源大型語言模型 Llama 3.2,Arm 表示將與 Meta 展開緊密合作,在 Arm CPU 上啟用新的Llama 3.2 LLM,整合開源創新與 Arm 運算平台的優勢,以應對 AI 帶來的挑戰


超級犀利士

小型 LLM(如 Llama 3.2 1B 和 3B)能夠支援基於文本的基礎生成式 AI 工作負載,對於大規模 AI 推論的實現相當重要。透過 Arm CPU 優化核心在 Arm 技術驅動的行動裝置上運行新的 Llama 3.2 3B LLM,可讓提示詞(Prompt)處理速度提高五倍,詞元(token)生成速度提高三倍,在生成階段實現每秒 19.92 個詞元。這直接減少在裝置上處理 AI 工作負載的延遲,大大提升了使用者的整體體驗。此外,當邊緣端能處理的 AI 工作負載越多,往返雲端傳輸資料所節省的電量就越多,進而節省了能源和成本。

除了在邊緣端運行小型模型,更大的模型(如 Llama 3.2 11B 和 90B)也能在雲端運行。11B 和 90B 的模型非常適合雲端基於 CPU 的推論工作負載,可生成文本和圖像,如同在 Arm Neoverse V2 上的測試結果顯示。在基於Arm 架構的 AWS Graviton4 上運行 11B 的圖像和文本模型,可在生成階段實現每秒 29.3 個詞元的表現,遠遠超出人類大約每秒閱讀五個詞元的速度。

Arm 還將透過 Arm Kleidi 進一步支援軟體社群,讓整個 AI 技術堆疊能夠充分發揮此一經過優化的 CPU 效能。Kleidi 可在任何 AI 框架上釋放Arm Cortex 和 Neoverse CPU 的 AI 功能和效能,無需應用程式開發人員進行額外的整合工作。

透過最近的 Kleidi 與 PyTorch 整合以及正在推進的與 ExecuTorch 整合,Arm 正在為基於 Arm CPU 的開發人員提供從雲到端的無縫 AI 效能,在基於 Arm 架構的 AWS Graviton 處理器上運行 Llama 3 LLM 的詞元首次回應時間加快了 2.5 倍。

在行動裝置上,透過 KleidiAI 函式庫的協助,使用 llama.cpp 函式庫在新的 Arm Cortex-X925 CPU 上運行 Llama 3 的詞元首次回應時間與參考實作相比加快了 190%。Arm 預期到 2025 年,將有 1,000 多億台基於 Arm 架構的裝置支援 AI(宜蘭縣三星鄉)。

(首圖來源:shutterstock)

延伸閱讀:

馬斯克認真攻 AI!大摩:特斯拉與 xAI 今年投資高達 200 億美元
美眾議院籲將京東方、天馬列黑名單,面板雙虎可望迎轉單效益