自主科技|   理大研究大模型訓練    無限融合引領AI突破

自主科技| 理大研究大模型訓練 無限融合引領AI突破

Table Of Contents

香港理工大學楊紅霞教授 香港理工大學楊紅霞教授解釋,InfiFusion長遠意義,在於全球知識領域盈千上萬,散佈不同專家手上,目前AI訓練少數人操縱,許多人無從參與,長遠窒礙通用AI出現。

[自主科技]

中國AI晶片進口受限,科學家另闢蹊徑,DeepSeek大幅減少AI算力要求後,本港學者亦開拓研究,讓更多人參與AI。

上星期,DeepSeek再在arxiv發表論文,提出注意力機制NSA,減少超長文本訓練和推論資源算力,引起關注。另一群AI學者在arxiv則提出嶄新大模型融合策略InfiFusion,大幅減少算力需求,文章第一通訊作者為香港理工大學楊紅霞教授。

楊紅霞是少數具大模型訓練實戰經驗專家,從美國回流,預見AI模面臨轉捩點,研發新一代模型訓練,推動Model over models(MoM)範式帶動AI升級。

InfiFusion融合數個不同模型專長,集合變成稱為「Pivot Model」大模型,合併不同模型結構詞彙,保留各自能力,增強跨模型的推理能力,真正是強強聯手,同時大幅減少整體算力的要求。小模型訓練成本相對低,讓不同領域專家參與,各自訓練小模型,通過InfiFusion融合成更強大模型。

從論文的數據,InfiFusion節省的成本驚人,性能卻比相同大小模型更好。InfiFusion提出兩種融合策略;Pairwise Fusion(成對融合)和Unified Fusion(統一融合),前者是主模型與來源模型分別配對,逐對找到最佳權重,以優化模型特殊性能。統一融合則是所有模型同時訓練主模型,目標是找到全域最佳權重,整個模型性能臻至最佳。

以成對融合訓練出的InfiFusion & TA,140億參數規模模型為例,InfiFusion & TA利用450小時GPU訓練,各種能力平均得分79.96分。透過統一融合,訓練相同規模的模型InfiFusion u僅160小時,竟獲79.92分,性價比極高。市場上相同大模型,以qwen2.5-14b-instruct為例,140億參數平均獲75.65分,卻需180萬小時訓練。從訓練結果,可見融合訓練之後,模型能力並沒損失,整體能力還提高了。

統一融合的InfiFusion u適合一般用途,成對融合適合特定任務模型組合。

論文通過較小模型,證明InfiFusion較傳統蒸餾(Distillation)融合的方法,成本大幅降低,更重要是可無限融合,過程不流失模型能力,打破了規模局限。蒸餾是從較大教師模型,轉移知識到較小學生模型,融合多個模型較難,InfiFusion卻是無限融合。

InfiFusion低成本高效益,亦可取代以微調(Finetuning)和RAG(Retrieval Augmented Generation)等為模型加入專有知識技術的技巧。

InfiFusion通過更高效融合,保留模型專業知識和能力,可細緻調整和優化,以應對不同任務。楊紅霞相信,模型訓練趨向以「模型為中心」(Model centric),以解決更多專門領域難題,可擴展至新知識領域,不只限於服務一般領域。

論文證明InfiFusion融合,模型保留各自優勢。例如一個模型擅於推理,另一個具醫學知識,兩者互補併發不同優勢,最終在更多場景表現更好。

據楊紅霞解釋,InfiFusion長遠意義,在於全球知識領域盈千上萬,散佈不同專家手上,目前AI訓練少數人操縱,許多人無從參與,長遠窒礙通用AI出現。

「專業知識分拆變成小模型後,再在模型層面上融合,獲得基礎大模型能力,減少了訓練成本,更多人貢獻知識,模型能力不遜直接訓練。」

楊紅霞解釋,建立基礎模型過程,包括了預訓練(Pretraining)和對齊(Alignment)兩階段,預訓練消耗大量數據和算力,通過scaling law壓縮大量知識,學習數據模式、特徵和知識,掌握語言結構和語義資訊。

楊紅霞說,網上知識即將耗盡,預訓練無以為繼。一年前,美國AI科學家Ilya Sutskever洞悉預訓練時代結束;結果DeepSeek改在對齊階段發力,以微調(Fine-tuning)和強化學習(Reinforcement Learning)推進模型能力,透過調整模型行為,實現加深理解「有限數據」,改進推理和決策。

小題:後天教導成就大器

楊紅霞說,DeepSeek在對齊階段,提高實際應用性能和推理決策,原理有如教導孩子成長。「以教小孩為比喻,預訓練好比孩子天生智商和知識量,對齊是後天教導,所以同樣智商小孩,不同教導方式下,才能有不同發揮。」DeepSeek從教導入手,增強模型推理能力。

即使模型推理能力增強,始終只是學習網上原始數據,離不開以「數據為中心」(Data Centric),只能原地踏步,一味比拼數學和編程等,展示網上掌握技能,卻缺乏專業解難能力。

InfiFusion讓模型能力泛化至尖端領域,性能上大幅超越微調和RAG,具靈活性和泛化能力,有助發展科學研究、新材料發現和醫學診斷。楊紅霞說,InfiFusion作為一種新範式具深厚潛力,吸引行業專家參與AI,集思廣益,海納百川建立通用型的AI,不再只靠堆算力,涉及億計美元成本,大部分人卻摒諸門外。

她指,本港醫學知識非常豐富,她指可讓本港研究人員投入大模型訓練,匯聚醫學知識,憑香港多年累積知識,通過AI造福更多病人。

藍色能源再現突破   港研水管納米發電

藍色能源再現突破 港研水管納米發電

裝有34個WT-TENG單元的盒子,放到海面上收集海浪能量,獲得TENG裝置現有記錄中最高的輸出值。 新科技速遞 歷史上人類以水力發電,往往利用水從高至低的動能,海洋佔據地球面積約七成,海浪有巨大能 …

了解更多
免牌照頻譜成本優勢   Terragraph助普及無線傳輸

免牌照頻譜成本優勢 Terragraph助普及無線傳輸

新科技速遞 Facebook旗下的Facebook Connectivity設計Terragraph,為新一代的高速無線通訊技術,設備小巧,易於部署,能在難以敷設光纖的地區,提供接往核心網的回 …

了解更多
擴建傳感器實驗室   重點支援醫療傳感

擴建傳感器實驗室 重點支援醫療傳感

**科技園Sensor Lab 2.0增國際級技術夥伴** 香港科技園電子、資訊及通訊科技群組高級總監楊天寵工程師 (左)、電子技術群組副總監馮家敏博士(中)、Arrow亞太工程方案中心總監陳旭昇( …

了解更多