
阿里巴巴開源Wan2.2-S2V技術革新數碼創作
Table Of Contents
隨著人工智能技術的快速發展,數碼人生成技術已成為全球創意產業的重要焦點。根據市場研究數據顯示,2024年全球數碼內容市場規模已突破5,000億美元,其中由人工智慧生成的內容佔比持續攀升。在此背景下,阿里巴巴近日宣布開源其最新研發的語音驅動視頻生成模型 Wan2.2-S2V(Speech-to-Video),引發業界高度關注。

這款名為Wan2.2-S2V的模型,能夠透過單張人像圖片與一段音頻輸入,生成具備電影級品質(高解析度且流暢自然)的動態視頻。這種技術不僅適用於如自然對話與音樂演奏等常見場景,還能實現多角色互動的逼真表現,為社交媒體短視頻、廣告製作及影視後期領域帶來更多創作機會。
技術亮點:高效處理與低算力需求
Wan2.2-S2V的核心創新在於其高效的幀處理技術。該模型可將任意長度的歷史幀壓縮成單一緊湊的隱層特徵,從而大幅降低計算資源消耗,並穩定生成長視頻內容。同時,模型結合了文本引導的全局運動控制與音頻驅動的精準局部動作控制,使角色動作更加自然流暢。
研究團隊針對影視製作需求,構建了大規模的音視頻數據集,並通過混合並行訓練(即同時使用多種訓練方法),讓模型靈活支持多種視頻格式,包括豎屏短視頻和傳統橫屏作品。無論是半身肖像還是全身動態,Wan2.2-S2V都能達到專業與創意兼備的標準。
開源生態系統助力技術普及
作為阿里巴巴開源生態系統中的重要組成部分,Wan2.2-S2V現已上線多個知名開源平台,包括 Hugging Face、GitHub 和阿里雲開源社區 ModelScope,供全球開發者免費下載與使用。自2025年初Wan系列模型開源以來,累計下載量已突破690萬次,深受業界歡迎。
阿里巴巴旗下 阿里雲(股票代碼:09988.HK,交易所:香港聯交所)表示,未來將持續投入資源推進AI技術的創新與應用,幫助企業與個人實現數碼化轉型。此外, 香港科技園公司(HKSTP)已協助本地開發者部署Wan2.2-S2V技術。
創作者的福音:應用場景廣泛
除了專業影視製作外,Wan2.2-S2V還適用於教育、娛樂及廣告等多個領域。例如,學校可以利用此技術生成虛擬講師進行線上教學;品牌則能快速製作吸引眼球的宣傳影片。在快速發展的AI驅動內容創作行業中,Wan2.2-S2V的推出進一步激化了市場競爭。主要競爭對手如Google旗下的DeepMind(母公司:GOOGL,交易所:NASDAQ)和Meta(母公司:META,交易所:NASDAQ)也在這一領域加大投資。多家初創公司如D-ID(D-ID)和Synthesia(Synthesia)則聚焦於特定細分市場。
隨著技術的不斷迭代與應用工場景的拓展,Wan2.2-S2V有望成為未來數碼創意產業的基石之一,持續為各類用戶提供便捷且高品質的解決方案。