Arm運算平台助力Llama 3.2LLM，實現 AI 推論加速與擴展

Image caption

Meta 正式發表全新開源大型語言模型 Llama 3.2，Arm 表示將與 Meta 展開緊密合作，在 Arm CPU 上啟用新的Llama 3.2 LLM，整合開源創新與 Arm 運算平台的優勢，以應對 AI 帶來的挑戰�

��

小型 LLM（如 Llama 3.2 1B 和 3B）能夠支援基於文本的基礎生成式 AI 工作負載，對於大規模 AI 推論的實現相當重要。透過 Arm CPU 優化核心在 Arm 技術驅動的行動裝置上運行新的 Llama 3.2 3B LLM，可讓提示詞（Prompt）處理速度提高五倍，詞元（token）生成速度提高三倍，在生成階段實現每秒 19.92 個詞元。這直接減少在裝置上處理 AI 工作負載的延遲，大大提升了使用者的整體體驗。此外，當邊緣端能處理的 AI 工作負載越多，往返雲端傳輸資料所節省的電量就越多，進而節省了能源和成本。

除了在邊緣端運行小型模型，更大的模型（如 Llama 3.2 11B 和 90B）也能在雲端運行。11B 和 90B 的模型非常適合雲端基於 CPU 的推論工作負載，可生成文本和圖像，如同在 Arm Neoverse V2 上的測試結果顯示。在基於Arm 架構的 AWS Graviton4 上運行 11B 的圖像和文本模型，可在生成階段實現每秒 29.3 個詞元的表現，遠遠超出人類大約每秒閱讀五個詞元的速度。

Arm 還將透過 Arm Kleidi 進一步支援軟體社群，讓整個 AI 技術堆疊能夠充分發揮此一經過優化的 CPU 效能。Kleidi 可在任何 AI 框架上釋放Arm Cortex 和 Neoverse CPU 的 AI 功能和效能，無需應用程式開發人員進行額外的整合工作。

透過最近的 Kleidi 與 PyTorch 整合以及正在推進的與 ExecuTorch 整合，Arm 正在為基於 Arm CPU 的開發人員提供從雲到端的無縫 AI 效能，在基於 Arm 架構的 AWS Graviton 處理器上運行 Llama 3 LLM 的詞元首次回應時間加快了 2.5 倍。

在行動裝置上，透過 KleidiAI 函式庫的協助，使用 llama.cpp 函式庫在新的 Arm Cortex-X925 CPU 上運行 Llama 3 的詞元首次回應時間與參考實作相比加快了 190%。Arm 預期到 2025 年，將有 1,000 多億台基於 Arm 架構的裝置支援 AI（宜蘭縣三星鄉）。

（首圖來源：shutterstock）

延伸閱讀：

馬斯克認真攻 AI！大摩：特斯拉與 xAI 今年投資高達 200 億美元
美眾議院籲將京東方、天馬列黑名單，面板雙虎可望迎轉單效益

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Arm運算平台助力Llama 3.2LLM，實現 AI 推論加速與擴展

延伸閱讀：

熱門資訊

男性功能障礙

文章分類

最新發表文�

猜你喜歡

彙整

男性功能障礙

krrista.com