SGLang 在 NVIDIA Spark GB10 的智能體應用

SGLang 在 NVIDIA Spark GB10 的智能體應用

Table Of Contents
ASUS ASCENT GX10
vLLM 是 NVIDIA 預裝的 LLM 推理框架。由於 vLLM 對 CUDA、編譯器、系統庫要求嚴格,一般會安裝在 NVIDIA 容器中運行。它可以通過極底層與 CUDA 對話,直接利用 GPU 進行並行處理,充分利用 SM 核心以獲得更高效率。

SGLang 在 NVIDIA Spark GB10 的智能體應用

Spark GB10 在香港市場的現況

據報導,PGX Spark 在本港銷情不俗,聯想、戴爾、HP 都有推出不同版本。華碩率先推出現貨 Ascent GX10 AI Workstation,坊間售價約港幣三萬元以下。代理商借出 Ascent GX10 供技術測試,讓我們可以率先評估 Spark GB10 Grace Blackwell 平台的安裝和性能表現。

2026:Agent 應用元年

2026 年被視為 Agent 之年。如果想利用 Spark GB10 Grace Blackwell 作為運行 Agent 平台,就必須掌握最佳實踐,並選擇適合的 LLM 和推理框架。

NVIDIA Spark GB10 技術規格

自從 NVIDIA 推出 PGX Spark,創辦人黃仁勳親自將新款 AI 超級電腦 DGX Spark 交付給 [埃隆·馬斯克] (Ticker: MSFT, Exchange: NASDAQ)。這部基於 NVIDIA GB10 Grace Blackwell 架構的系統,整合了 GPU、CPU、CUDA 等 NVIDIA AI 技術,運行基於 Ubuntu 的 PGX OS,具備 128 GB 的 LPDDR5x 統一系統記憶體。

如果需要更多算力,可以利用機背的 ConnectX-7 網絡接口,通過 NVIDIA 的 Mellanox 技術,使用 NCCL 接口合併兩部電腦的 GPU,實現分佈式運算。

ASUS ASCENT GX10
NVIDIA DGX Spark 在香港市場的應用: ASUS ASCENT GX10 結構跟NVIDIA GB10 Grace Blackwell 架構的系統一樣, 採用 DGX Spark ARM 架構的 CPU,在本港銷情也不俗

推理框架的選擇:vLLM vs SGLang

推理框架方面,PGX Spark 可支援 Ollama,但 Ollama 不適合生產級環境,也不能支援多 Agent 和極長的上下文窗口。它的優勢在於可以安裝多個大模型進行測試。如果利用 PGX Spark 進行推理工作,主要選擇是 vLLM 或 SGLang

vLLM 的特點

vLLM 是 NVIDIA 預裝的 LLM 推理框架。由於 vLLM 對 CUDA、編譯器、系統庫要求嚴格,一般會安裝在 NVIDIA 容器中運行。它可以通過極底層與 CUDA 對話,直接利用 GPU 進行並行處理,充分利用 SM 核心以獲得更高效率。vLLM 針對 NEON 指令集、GPU 進行了優化。

SGLang 的技術創新

SGLang 是由 加州大學柏克萊分校上海交通大學德州農工大學 多名研究人員於 2024 年 6 月提出的新 LLM 服務架構(論文連結:https://arxiv.org/pdf/2312.07104)。

vLLM 的 PagedAttention 採用分頁管理單一請求的 KV Cache,但沒有跨請求的前綴共享。相比之下,SGLang 提出的 RadixAttention 可以管理 KV Cache 並實現跨請求共享前綴,命中率更高,緩存命中率提升 3-5 倍。SGLang 分離了 prefill 和 decode 後端,支援約束解碼和思維鏈,執行效率更高。

為什麼 Agent 應用需要 SGLang?

近代 LLM 能力大幅提升,可以處理更廣泛的一般任務。例如採用 MoE 架構 的 LLM(包括 DeepSeek 等),可以利用 autonomous agents(自主智能體)建立不同應用,讓 LLM 進行多輪規劃、推理與外部環境互動,通過使用工具、多種輸入模式以及提示技術實現全自動化的工作流程。這標誌著人類與 LLM 互動發生了巨大轉變,從簡單的聊天轉向更複雜的程式化應用,意味著以程式來調度和控制大型語言模型的生成過程。

不少 LLM 支援思維鏈(Chain of Thought),但有時會影響工具調用。LLM 有時側重思維,導致無法輸出正確的 JSON 結構,因而無法執行或呼喚工具。例如 gpt-oss-120b 輸出的 JSON 格式經常出錯,無法被程式精準解析和執行。

推理框架是工具調用的決策大腦,確保模型能合理判斷:是否使用工具、使用哪個工具、如何使用工具。這些因素直接決定了工具調用的可用性、準確性和擴展性,尤其在生產級 AI 應用(如 RAG、智能助手、自動化工作流)中,都需要調用大量工具。因此,未來使用 LLM 必須優先考慮調用工具的效果。

SGLang 在約束解碼和工具調用的優勢

SGLang 在約束解碼(Constrained Decoding)和思維鏈(Chain of Thought, CoT)方面的改進,使其能夠實現可靠的工具調用(Function Call)。例如執行 Claude Code 和 OpenAI Code 時涉及大量工具調用和編碼,vLLM 的表現會出現問題。由於 vLLM 的設計針對密集推理(類似 Llama),面對結構化任務(如 Function Call、執行約束或從內容抽取 JSON)時,可能因為大量推理而無法正確執行工具。

類似 OpenClaw 的應用就大量利用 SGLang 的 RadixAttention 實現更高的緩存命中率,更重要的是在工具調用方面表現更好。約束解碼是工具調用的前提:有了約束解碼,可以強制 LLM 輸出指定的 JSON 格式,利用工具提取目標資訊。

多 GPU 並行處理性能比較

**SGLang 亦支援多 GPU 並行的 tensor parallelism,表現比 vLLM 更佳。**在 Mixtral-8x7B 模型上使用 tensor parallelism(張量並行處理)的測試中,SGLang 的標準化吞吐量明顯優於 vLLM。數值越高越好,這意味著如果使用多於一部的 Ascent GX10 AI Workstation,用戶應該考慮安裝 SGLang。

vLLM vs SGLang:如何選擇?

vLLM 的優勢在於高吞吐量、大量批次處理,以及需要最大穩定性和即時支援新模型的情境。在多用戶、高並發的情況下,vLLM 仍是首選

SGLang 在速度上通常比 vLLM 快 10-20%(在某些特定基準測試中甚至高達 2-5 倍),這得益於其 RadixAttention 技術,能有效地在多個請求之間緩存鍵值(KV)狀態。

SGLang 在互動性強、聊天密集或「代理式」應用中表現出色,尤其是在需要隨時間累積上下文的場景。在產生結構化 JSON 輸出方面也更快,特別適合支援混合模式的 Linear Attention 和 prefix sharing,在這些情境下 KV Cache 的命中率極高。

SGLang 特別適合部署 Agent 的原因

Agent 的 system prompt 通常較長,而且 function call 重複性高,多輸對話的歷史也會重複,這對於推理的 prefix sharing 非常有利,可以大幅提升輸出 Token 的速度,尤其是在部署多 Agent 工作時。

簡單來說,如果你的 Agent 使用同一個 LLM 工作,所有 Agent 共享 LLM 的權重(因此不影響記憶體耗用)。例如 70B 模型佔用 35GB,但每個 Agent 都有自己的 KV Cache。假設上下文為 256K,每個 Agent 佔用 2.5 GB(FP8 精度),10 個 Agent 就是 25GB。獨立的 Agent KV Cache 可能佔用大部分記憶體

因此,如果 Spark GB10 Grace Blackwell 需要進行多 Agent 大量批次處理,SGLang 是更好的選擇。在多 Agent 調用時,使用新一代的 Qwen 3.5 可以獲得很好的效果,大大減少記憶體佔用。在 Claude Code 和 Qwen Code 的多輪工具調用和 function call 場景中,SGLang 的優勢更加明顯。如果使用 OpenClaw 的多 Agent 架構,KV Cache 命中率會更高。

在 Spark GB10 上安裝 SGLang

在 Spark GB10 上安裝 SGLang 相當簡單。首先確保系統已安裝 CUDA 12.1 或以上版本,然後通過以下命令完成基本安裝:

pip install "sglang[all]"

AMD鎖定電競遊戲市場推出兩項新活動

AMD鎖定電競遊戲市場推出兩項新活動

AMD 推出全新Raise the Game遊戲禮遇,讓Radeon玩家入手今年最受期待的遊戲大作 新科技速遞 AMD早於去年中推出運用RDNA遊戲架構的Radeon RX5500系列顯示卡 …

了解更多
數碼藝術隨NFT起飛   沉浸式藝術作品成焦點

數碼藝術隨NFT起飛 沉浸式藝術作品成焦點

Refik Anadol 沉浸式藝術空間作品《機器幻覺 - 太空:元宇宙》以 1832.5萬港元(約235萬美元)成交 新科技速遞 本港中環舉行首屆Digital Art Fair Asia,展出了 …

了解更多
香港工業新星與創新領袖出爐 工總頒獎典禮圓滿落幕

香港工業新星與創新領袖出爐 工總頒獎典禮圓滿落幕

近年香港工業界正經歷一場持續的轉型過程,從傳統製造業邁向高科技與創新驅動的新工業化時代。這一轉型體現在技術和創新能力的提升,以及對高增值製造業的重視。在這股潮流中,香港工業總會於2025年11月13日 …

了解更多