
明略科技Mano模型推動GUI智能操作發展
Table Of Contents
據行業報告顯示,未來五年,智能代理市場規模預計突破千億美元。近年來,隨著生成式AI技術的快速發展,如何讓AI像人類般操作手機與電腦,已成為全球研究焦點。

近日中國企業級大模型的重要代表——明略科技(股票代碼:未上市)推出了其全新專有大模型「Mano」,並在Mind2Web和OSWorld兩大國際基準測試中取得了SOTA(State-of-the-Art)成績,標誌著GUI智能操作技術的進一步提升。
GUI智能操作的技術挑戰
當前AI領域中,能夠像人類一樣精確操作圖形用戶界面(GUI)的智能代理仍然屈指可數。這需要精準識別屏幕元素,同時處理多步驟的複雜任務。例如,業界標準測試平台Mind2Web涵蓋了137個網站及超過2,350個真實任務,要求智能體在動態變化的DOM結構(DOM)中準確找到目標元素並完成操作鏈。而在更困難的桌面端測試OSWorld-Verified中,則包含了369個跨應用任務,覆蓋瀏覽器、辦公軟件等多種場景,每項操作都需要無縫融入真實桌面環境。
官方技術報告顯示,在OSWorld-Verified評測中,Mano的成功率達到41.6±0.7%,超越包括Qwen、GUI-Owl及OpenCUA在內的其他頂尖模型。此外,其在Mind2Web中的元素精度(Ele.Acc)和步驟成功率(Step SR)指標也更加優秀,展現出「看得準、做得成」的核心能力。在這樣的背景下,明略科技的Mano模型表現尤為突出。
技術創新:在線強化學習與數據自動採集
Mano的優異表現依賴於兩大核心技術創新。首先是首次提出的「在線強化學習」訓練模式。與傳統的離線強化學習不同,這種方法讓模型可以在真實交互環境中持續學習最新的數據,從而增強其適應性和靈活性。
明略科技為此搭建了一個模擬環境池,涵蓋瀏覽器(BUA)和桌面(CUA)環境,這些環境用於收集多元化的交互數據。團隊還採用了「在線採樣 + 離線過濾」的方式,有效避免因失敗軌跡導致的學習效率低下問題。
第二項核心技術是智能探索與自動化數據採集。過去,構建高質量交互軌跡數據往往需要大量人工標注,成本高昂且耗時冗長。針對這一痛點,明略科技設計了一套自動化解決方案,利用大模型生成語意標記與功能說明,並通過深度優先搜索(DFS)策略截取帶註釋的交互數據。
消融實驗表明,這些技術改進使模型在OSWorld-Verified數據集上的平均分數提升了7.9,達到41.6。
應用前景:加速企業智能化轉型
作為明略科技旗下DeepMiner智能體的自動化執行引擎,Mano的問世標誌著AI在複雜軟件與瀏覽器環境下的操作能力邁上了新台階。展望未來,公司計劃進一步優化Mano在端側部署的能力,助力企業實現更高水平的智能化轉型。例如,通過整合非常見模態數據(如腦電圖(EEG)和眼動追蹤(ET))的處理技術,Mano有望在醫療、教育等領域發揮更大作用。
對於關注AI技術發展的讀者而言,這是值得期待的一大進步。欲了解更多詳情,可訪問官方技術報告或查看OSWorld排行榜。
(本文部分資料來源於明略科技公開信息及相關技術文獻。)