香港理大生成式AI技術取得重大突破

香港理大生成式AI技術取得重大突破

Table Of Contents
文章相關圖片
趙汝恒教授指,理大新成立的PAAI致力加速人工智能技術在各個重點領域的深度融合,冀鞏固理大在相關領域的領先地位,並助力推動香港成為全球生成式人工智能發展的樞紐。

香港理工大學(理大)研究團隊在生成式人工智能(Gen AI)領域取得多項技術突破,大幅降低訓練成本,訓練模式也從集中走向分散,透過協作式生成人工智能(Co-Generative AI)。

理大人工智能高等研究院(PAAI)執行院長楊紅霞教授領導的團隊,研究項目分別獲得研究資助局「2025/26年度主題研究計劃」、香港特別行政區政府創新科技署「產學研1+計劃」及數碼港「人工智能資助計劃」資助,團隊也是本港少數在大模型訓練有第一手經驗,現時非常引人注目。

團隊的項目針對了生成式AI訓練的兩大風口,首先是低比特FP8的訓練,其次就是模型融合。現時尖端模型訓練只由少數壟斷,例如Google、Meta、OpenAI、Anthropic、阿里和DeepSeek,主要是成本過高,團隊的方向是透過開放低成本的訓練,讓更多團隊能利用高質數數據訓練出較小規模的模型,然後再融合成基礎模型。

大模型基本原理,就是把文字、圖像等資訊,全部用數字表示,預測哪些數字相關性更高。這些數字就是的參數,參數自然是範圍越大、越精確越好。想要範圍和精度兩者兼得,就需要用更多的二進位字元來記錄。因此,過去很多大模型會使用FP16、FP32等格式,意味著更大存儲量和算力消耗。DeepSeek模型之所以能降低算力成本,就是因為使用了FP8,但有時要犧牲精度換取速度。目前,能掌握FP8低比特訓練的只有OpenAI和DeepSeek。模型訓練成本愈來愈高,時間太長,全球所有模型訓練傾向以FP8訓練而又不降低精度。所以上述研究是全球最關切,亦是最難解決的AI課題。

###數據質量好相等於「小而美」

理大團隊以FP8訓練的模型,已經應用於醫療大模型和學術論文助手,由於數據質量更好,多模態推理上有特別出色的表現,理大研究顯示出只要數據質數較佳,較小模型完全有可能超越尖端大模型。此外,團隊亦在數學上實證了大模型的能力,可透過模型融合提高,亦即融合的參數愈多,能力愈強,符合模型訓練的「縮放定律(Scaling Law)」。

融合模型的訓練成本,較每次重新訓練低數千倍,所以在訓練尖端大模型上,融合會有很大優勢。較早前由OpenAI前首席技術官創立的Thinking Machines Lab,亦是構建「協作型通用智能」的模型融合技術,已獲得超過二十億美元注資,初創階段估值已達一百二十億美元, 卻只有二十多人。

Thinking Machines Lab 受到業界關注,仍處於規劃階段,楊紅霞教授團隊亦有成員來自該實驗室,但楊紅霞教授的理大初創infix-ai 卻已經利用模型融合推出了開源模型,顯示香港在尖端模型訓練,已經與美國團隊看齊。事實上,美國AI研究實驗室之中,超過一半是華人研究員,香港吸引部分回流,已經足以挑戰美國的實驗室,不過美國市場對AI初創估值極高,吸引人才和業務擴展佔優,同樣技術港美估值差異極大之下,形成了不利條件。

以傳統的模型訓練,例如(OpenAIAnthropic)每次訓練的成本愈來愈高,近期Scaling Law在超大模型,性能增強的邊際效應愈來愈低,提高並不顯著,成本卻達天文數字。如果模型融合可以遵循Scaling Law,成本又低得多,模型融合的投資回報,就會高得多,此消彼長,融合可能反成主流。

目前已知全球基礎模型,均以BF16訓練為主流,新世代FP8低比特訓練有效減低五成計算及儲存訓練成本。理大也是目前全球少數掌握FP8技術的團隊。理大方案與英偉達(NVIDIA)主流BF18相比,理大方案能顯存能節省24.2%,訓練性能上相比英偉達Coat框架,吞吐量可提升48.1%。簡而言之,耗時可降低近五成,訓練速度亦有大幅度提升。

現時不少模型要經「量化」,降低對於硬件需求,才能在個人電腦或記憶體較少的機器上推理,其中一種量化正是FP8,因此著名平台如ollama平不少模型才可在較低階機器上運行,理大FP8技術涵蓋預訓練及後訓練的全流程,對於推理階段亦有優點,就是如果模型訓練時精度已是 FP8,就可以更快地部署至推理,不需再要額外PTQ量化,而且推理速度也更高。

###端到端 FP8 訓練技術整合

此項端到端 FP8 訓練技術整合了持續預訓練(CPT)及監督式微調(SFT),大大降低資源消耗,也保障訓練穩定性和性能,楊紅霞教授指,效果可媲美 BF16,但訓練時間更短。團隊正積極探索更低成本的 FP4 技術。此項研究成果已發表在 arXiv,並且完全開源,預計將有助大幅降低模型的訓練成本。

團隊證實,利用 FP8 訓練基礎模型,性能上與 OpenAIDeepSeek 不相伯仲。透過強化學習提升推理準確度與穩定性後,團隊發表了端到端 FP8 訓練套件:是全球首款開源而包括 CPT(持續預訓練)到 SFT(監督微調)和 RL(強化學習)的完整管道,提供端到端的 FP8 訓練範式。

InfiR2 的 FP8 量化實現

InfiR2 在運算密集型運算子上實現了細粒度 FP8 量化技術,包括Linear/GEMM:權重的區塊量化與激活的 token 量化,平衡精度與速度,充分發揮 Tensor Core 效能在主權重/優化器狀態/梯度累積,所以保持高精度之餘又實現穩定優化,訓練期間充當「安全帶」角色。透過 Qwen2.5 模型(CPT + SFT)的 FP8 管道,團隊開發出 InfiR2-1.5B-FP8 和 InfiR2-7B-FP8 等模型,表現出卓越效能,完整訓練程式碼已向社群開源。

理大表示,上述 FP8 端到端訓練與廣泛採用的 BF16 精度相比,可提高訓練速度高達 22%,減少峰值 GPU 記憶體使用量 14%,提升端到端吞吐量 19%。這表明,在相同 GPU 預算下,與 BF16 精確訓練相比,使用 InfiR2 的全端 FP8 方案可處理更多Token、運行更多訓練迭代並利用更長上下文。 以同等時間、資源和成本,也提供更有效訓練,同時保持效能奇偶校驗,進一步降低硬體成本並加速實驗迭代週期。換言之,全球更多團隊可以用全端 FP8 自行訓練模型。

楊紅霞教授指,業界仍缺乏成熟 FP8 開源框架,理大正好填補了空缺。她說,Co-GenAI可實現了完整 FP8 訓練流程,其中包括端到端的量化感知訓練 pipeline,支持分布式訓練的 FP8 梯度累積,以及自動化量化超參數搜索,並且與 PyTorch、TensorFlow 等訓練工具可無縫集成,只要數據高質量,專家模型表現可以極佳。

理論突破:模型融合的數學定律

過去,合併多個模型的性能全憑直覺,結果難以預測,成功與否,很大程度上取決於經驗與反覆試驗。理大團隊亦首次提出「模型融合縮放定律」並以實證驗證,並提出了數學上的驗證,進一步確認Scaling Law亦可用於大參數模型的融合。今次理大發表分布式 AI 研究,成果是開發了模型融合技術「InfiFusion」,僅需數百 GPU 小時,即融合出原本需耗費一百萬至二百萬 GPU 小時才完成訓練的大模型。香港受到地緣政府影響缺乏算力,而融合模型可以生產出本身的尖端模型,團隊研究首次通過系統性組合專家模型,實現了可預測、可控的性能躍升,驗證了適用於Scaling Law。

楊紅霞教授指:「以超低資源實現基礎模型訓練,加高效模型融合,將有助於全球學術人員投入 Gen AI 研究,匯聚更多創新力量。」她進一步說明,理大融合模型 InfiFusion 僅需 160 個 GPU 小時,就可完成四個尖端模型的融合。相比之下,單一尖端模型的訓練需達百萬級 GPU 小時。效果上,融合後模型在多個基準測試中,表現亦顯著優於原始模型。

換言之,理大團隊重塑了Scaling Law,透過分布式 AI 發展出下一代 Gen AI,藉融合吸納各個模型的長處,以極低訓練成本提升模型性能,透過持續整合多樣數據,不斷增強強模型性能和知識。這種協作式 Gen AI ,解決了大模型所面臨硬件瓶頸,低階硬件有效參與訓練,透過進一步融合達成高階性能。

她指,從計算機歷史,可以運算往往從集中走向分散,以往是從主機走向分散式運算,AI亦復如此,而模型融合(Model Fusion)有如「吸星大法」,可選擇性萃取知識:從多個大模型中提取各自最優秀能力;亦可作參數空間對齊,不同架構模型映射至統一的參數空間;並且根據目標任務動態調整模型貢獻權重;而衝突消解機制則處理不同模型知識間的矛盾與冗餘,正是集中走向分散的範式轉移。

實際應用:醫療 AI

理大團隊在醫療領域訓練出尖端醫療基礎大模型,以證實了利用高質量數據,所謂Domain specific data訓練的優點,而且可執行最高端任務,並且更好的多模態性能,故此針對癌症開發出基礎模型「Cancer Gen AI」,以相同規模模型比較,性能亦表現最佳。模型在多模態推理的性能卓越,又快速積累高質醫療數據,故此可以與醫療設備及硬件對接,直接用於臨床應用,例如癌症的放射治療規劃。

醫療基礎大模型屬於專業領域模型,現正與:復旦大學中山大學山東腫瘤醫院香港伊利沙伯醫院合作,進行臨床推廣與落實應用。

協作式生成式AI框架採用分布式多模態推理架構可為每種數據模態設計專門編碼器,提取各領域深層特徵,加上跨模態注意力機制可以建立不同模態間的語義關聯,例如將影像特徵與分子標記物關聯;協同推理框架:多個領域小模型協同工作,處理各自擅長模態,最後融合作出決策;臨床知識圖譜:整合醫學領域知識,指導多模態數據關聯分析。

由於尖端模型在多模態推理的性能不高,所以在醫療模型上無法與協作生成式AI框架的訓練競爭,例如在癌症的靶區勾畫中應用多模態推理,理大在放療靶區勾畫應用中,透過多模態推理,系統能更準確地模擬資深醫生判斷,勾畫時間從 30-50 分鐘縮短至 10-20 分鐘,同時保持甚至提升準確度。理大亦在代理式人工智能(Agentic AI)取得重大進展,可作為研究生的學術助手,幫助撰寫與審閱論文;亦可作為多模態專利檢索引擎,協助創新研發。

開源戰略與生態建設

Co-GenAI 開源項目旨在成為這些領域的參考實現,為研究者提供入手點。楊紅霞教授指出,兩年前不少人曾相信類似 Perplexity 會取代傳統檢索技術。然而兩年下來,Google 仍佔據 95% 市場份額,證明大模型的真正應用場景在產業領域,而非在類似搜索引擎的消費市場。

因此,理大將專注於醫療與能源等產業應用,Co-GenAI 的設計哲學聚焦領域深度而非廣度:在特定領域,例如癌症放療,追求超越通用大模型的表現。不少應用因私隱問題無法直接調用雲端模型,最典型的例子如 AI 眼鏡必須在缺乏網絡連接的地區採用 Edge-Cloud 協同架構,此時領域小模型可處理 80-90% 的專業問題,唯有在需要廣泛知識時才會調用雲端模型,加上持續學習機制,能不斷從臨床實踐中積累領域知識,深化專業能力,最終形成「專家驗證閉環」:所有輸出皆經過醫生審核,形成品質保證體系。Co-GenAI 可在垂直行業訓練出更多具質素模型,超越市場上通用模型專業服務,又保持部署成本可控。

理大高級副校長(研究及創新)趙汝恒教授指:「理大有較多應用科目,包括工程、新材料、能源、醫療和建築,都可讓AI更多落地機會,現時AI研究院亦與國內多家理大研究院合作,集結大灣區科研力量,包括位於惠州大亞灣的研究院,推動有關能源方面的應用。理大亦鼓勵大學通過創業形式,研究可更快落地及推向市場。」

楊紅霞教授項目先後獲香港特區政府創新科技署「產學研1+」計劃及全球人工智能晶片龍頭 NVIDIA 資助。理大團隊的突破性進展,標誌香港在全球人工智能技術創新領域邁出堅實一步,為推動 AI 發展與實際應用落地注入新動力。

政府助企業轉型 遙距營商再出發

政府助企業轉型 遙距營商再出發

香港生產力促進局將網站佈置成《中小企資援組:資助基金推廣全面觀2020》的虛擬演講廳及展館。 **企業轉型** 踏入8月底,疫情依然影響傳統展覽會的舉辦。因此,香港生產力促進局第二次將資助基金推廣 …

了解更多
自主科技|  本地科企物聯網除濕技術          防青馬大橋主纜索生鏽

自主科技| 本地科企物聯網除濕技術        防青馬大橋主纜索生鏽

(左起) 恒澤節能有限公司總監董少樂博士工程師及交通基建管理合約有限公司董事及總經理張富枝攜手以智能除濕技術,防青馬大橋主纜索生鏽。 [自主科技] 香港標誌性的基建的代表作之一青馬大橋,直接通往香港 …

了解更多
世紀互聯採購路由平台

世紀互聯採購路由平台

世紀互聯是中國最大運營商中立互聯網數據中心營運商,與Microsoft有重要合作關係 **數碼轉型** 中國互聯網數據中心營運商商世紀互聯(NASDAQ:VNET)宣佈採用了Juniper分段路由流 …

了解更多