
商湯開源模型SenseNova-SI實現空間智能突破
Table Of Contents
全球人工智能領域近日迎來一項重要進展:商湯科技正式推出開源模型SenseNova-SI系列。該模型在空間智能領域的表現不僅明顯優於同量級開源模型,更超越了包括GPT-5和Gemini-3-Pro在內的國際頂尖閉源模型。這項技術突破被視為自動駕駛和機械人技術發展的重要里程碑,為未來人工智慧在現實世界中的應用奠定了堅實基礎。
空間智能:AI邁向現實世界的關鍵能力
近年來大規模語言模型在知識掌握、寫作和推理等方面取得了卓越表現,但其在空間認知方面的短板始終未能解決。這一問題對需要在現實世界執行任務的具身智能體(如機械人)而言,成為了一個核心挑戰。針對這一痛點,商湯科技進行了深入研究,提出了一套系統性的訓練方法,開發出SenseNova-SI系列模型,涵蓋2B(約20億參數)和8B(約80億參數)兩個版本。
根據多個國際權威基準測試結果顯示,SenseNova-SI-1.1-8B模型在空間理解與推理能力測試中平均得分達到60.0分,優於Qwen3-VL-8B(41.3分)、BAGEL-7B(35.1分)等開源模型,同時也超過了GPT-5(52.1分)和Gemini-3-Pro(56.2分)等閉源模型。這些測試由美國紐約大學和史丹福大學聯合建立的Visual Spatial Intelligence (VSI),以及上海人工智能實驗室與香港中文大學共建的Multimodal Spatial Intelligence (MMSI)等知名機構開發,涵蓋MindCube、ViewSpatial和SITE等多個評測平台。
測試亮點:具體案例展示優勢
SenseNova-SI的優勢不僅體現在數據上,還在實際應用場景中得到了驗證。例如,在一道關於視角轉換的題目中,要求判斷枱燈相對於觀察者的位置:
- 題目:你正站在骰子圖案前觀察它。枱燈相對於你的位置在哪裡?
- GPT-5答案:B(順時針90度)
- SenseNova-SI答案:C(逆時針135度)
- 正確答案:C

此外,在預測車輛移動狀態的題目中,SenseNova-SI準確判斷黃色車輛將進行右轉,而GPT-5則誤判為靜止。這些案例充分展示了SenseNova-SI在空間推理方面的精確性與可靠性。

高質量數據驅動技術提升
SenseNova-SI的性能提升得益於商湯科技提出的「空間能力分類體系」和系統化的數據訓練方法。團隊首次在空間智能領域驗證了「規模效應」,即通過高質量、大規模的數據訓練,可顯著提升模型的空間認知能力。這一方法適用於不同架構的基模型,使其在空間測量、空間重構、視角轉換等六大核心維度上均取得顯著進步。

商湯科技還同步開源了空間智能測評平台EASI與「英雄榜」,旨在推動空間智能技術評估標準的統一,並為學術界和工業界提供權威的評估基準。相關資源已上傳至GitHub,測試結果具有可重複性。
推動AI融入現實世界
SenseNova-SI的推出,標誌著人工智慧在現實世界感知能力上的重要一步。該模型與商湯此前發佈的「悟能」具身智能平台相輔相成,共同解決多模態模型從數碼空間走向物理世界所面臨的基礎挑戰。未來,這一技術有望進一步推動自動駕駛、機械人等領域的應用落地。
作為一家以「堅持原創,推動AI技術發展」為核心理念的公司,商湯科技(Ticker: 0020.HK, Exchange: 香港交易所)持續投入於前沿技術研究,致力於打造更廣泛應用的人工智能軟件平台,讓更多產業界與學術機構受益於其技術成果。目前,商湯已在生成式AI、視覺AI等多個領域處於領先地位,並在全球範圍內積極拓展業務範圍。
感興趣的讀者可下載高解析度示範圖片及影片,了解更多技術細節:Google Drive連結。


