阿里巴巴開源Wan2.2-S2V技術革新數碼創作

阿里巴巴開源Wan2.2-S2V技術革新數碼創作

Table Of Contents

隨著人工智能技術的快速發展,數碼人生成技術已成為全球創意產業的重要焦點。根據市場研究數據顯示,2024年全球數碼內容市場規模已突破5,000億美元,其中由人工智慧生成的內容佔比持續攀升。在此背景下,阿里巴巴近日宣布開源其最新研發的語音驅動視頻生成模型 Wan2.2-S2V(Speech-to-Video),引發業界高度關注。

Wan2.2-S2V模型生成範例,展示高品質視覺效果
Wan2.2-S2V生成的影片示範截圖

這款名為Wan2.2-S2V的模型,能夠透過單張人像圖片與一段音頻輸入,生成具備電影級品質(高解析度且流暢自然)的動態視頻。這種技術不僅適用於如自然對話與音樂演奏等常見場景,還能實現多角色互動的逼真表現,為社交媒體短視頻、廣告製作及影視後期領域帶來更多創作機會。

技術亮點:高效處理與低算力需求

Wan2.2-S2V的核心創新在於其高效的幀處理技術。該模型可將任意長度的歷史幀壓縮成單一緊湊的隱層特徵,從而大幅降低計算資源消耗,並穩定生成長視頻內容。同時,模型結合了文本引導的全局運動控制與音頻驅動的精準局部動作控制,使角色動作更加自然流暢。

研究團隊針對影視製作需求,構建了大規模的音視頻數據集,並通過混合並行訓練(即同時使用多種訓練方法),讓模型靈活支持多種視頻格式,包括豎屏短視頻和傳統橫屏作品。無論是半身肖像還是全身動態,Wan2.2-S2V都能達到專業與創意兼備的標準。

開源生態系統助力技術普及

作為阿里巴巴開源生態系統中的重要組成部分,Wan2.2-S2V現已上線多個知名開源平台,包括 Hugging FaceGitHub 和阿里雲開源社區 ModelScope,供全球開發者免費下載與使用。自2025年初Wan系列模型開源以來,累計下載量已突破690萬次,深受業界歡迎。

阿里巴巴旗下 阿里雲(股票代碼:09988.HK,交易所:香港聯交所)表示,未來將持續投入資源推進AI技術的創新與應用,幫助企業與個人實現數碼化轉型。此外, 香港科技園公司(HKSTP)已協助本地開發者部署Wan2.2-S2V技術。

創作者的福音:應用場景廣泛

除了專業影視製作外,Wan2.2-S2V還適用於教育、娛樂及廣告等多個領域。例如,學校可以利用此技術生成虛擬講師進行線上教學;品牌則能快速製作吸引眼球的宣傳影片。在快速發展的AI驅動內容創作行業中,Wan2.2-S2V的推出進一步激化了市場競爭。主要競爭對手如Google旗下的DeepMind(母公司:GOOGL,交易所:NASDAQ)和Meta(母公司:META,交易所:NASDAQ)也在這一領域加大投資。多家初創公司如D-ID(D-ID)和Synthesia(Synthesia)則聚焦於特定細分市場。

隨著技術的不斷迭代與應用工場景的拓展,Wan2.2-S2V有望成為未來數碼創意產業的基石之一,持續為各類用戶提供便捷且高品質的解決方案。

環保紡織材料獲注資   取代合成纖維減碳排

環保紡織材料獲注資 取代合成纖維減碳排

AeoniQ則是由藻類、細菌和回收纖維紡一同織成的纖維素(Cellulose)紗線,由於原料以植物為基礎,在生長過程可回收大氣中的碳 新科技速遞 製衣業可能是最不環保的行業之一,除了利用化學物料,加 …

了解更多
香港交易所應用RPA   精簡人力密集工序

香港交易所應用RPA 精簡人力密集工序

Blue Prism亞太區總經理Mike Cawsey:香港交易所RPA簡化和加快執行各種營運工作,務求工作團隊精簡靈活 企業轉型 近年軟件機械人大行其道,尤以金融業採用率更高,加上疫症又導致不少機 …

了解更多
數碼轉型|  中大初創推遺囑編寫平台   區塊鏈IPFS技術助安全永續保存

數碼轉型| 中大初創推遺囑編寫平台 區塊鏈IPFS技術助安全永續保存

翡翠未來聯合創辦人岑棓琛指疫情令遺囑見證丶開設內地公司等手續無法進行,故推出網上遺囑編寫服務。 [眾創時代] 不少新冠肺炎均被隔離,重症者甚至要入院,部分患者萌生立遺囑意願卻因正在隔離而無法進行。本 …

了解更多