阿里巴巴視頻模型更新統一接口支援局部修改

Alibaba
2025年5月15日

Table Of Contents

Wan2.1-VACE可替換視頻中的指定人物或物體。

[Alibaba]

二月底，阿里巴巴開源了四款萬相2.1系列模型，上個月開源支持首尾幀視頻生成的模型。截至目前，上述模型在開源社區Hugging Face和ModelScope下載量超過330萬次。

其中萬相2.1（Wan2.1）T2V版本模型，專門用於文本到視頻生成，開源僅6天登上模型熱榜、是近期全球最受歡迎大模型。

阿里巴巴在 Wan2.1-T2V基礎進行擴充，再開源視頻生成與編輯模型 Wan2.1-VACE（Video All-in-one Creation and Editing），整合多項視頻處理功能於單一模型中，簡化視頻創作流程。

同一模型已可同時支援文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時長延展等全系列基礎生成和編輯。Wan2.1-VACE也是首個提供視頻生成與編輯統一解決方案的開源模型，支持基於文本、圖像和視頻的多模態輸入進行視頻生成，提供全面的視頻編輯功能，包括參考圖像或參考幀視頻生成、視頻轉繪、視頻局部編輯、畫面和時長延展等。

用戶可根據圖像樣本生成包含特定主體視頻，為靜態圖像添加自然運動效果使圖像「活起來」，還可使用姿態遷移、運動控制、深度控制和著色等高級視頻重繪。不過Wan2.1-VACE模型還支持在視頻局部區域添加、修改或刪除內容，不影響區域外的內容，擴展視頻邊界，智能填充內容以加強視覺體驗。

阿里巴巴發佈開源視頻編輯全功能模型Wan2.1-VACE。

Wan2.1-VACE讓用戶同時結合多種功能，通過統一接口「視頻條件單元」（Video Condition Unit, VCU），支持對文本、圖像、視頻和蒙版（Mask）等多模態輸入進行統一處理。模型「上下文適配」（Context Adapter）結構，透過使用時空維度的形式化表徵來注入各種任務概念，處理各類視頻合成任務。Mask是用於指定圖像或視頻中特定區域工具，通常用0/1二值信號表示，套用在指定要編輯的局部區域，例如對視頻中替換、刪除或修改某個物體，通過Mask精准框選物體區域，模型會僅對Mask選定的區域進行處理，其他區域保持不變。

用戶可將靜態圖像轉為視頻，通過規定運動軌跡控制物體移動，也可替換指定人物或物體；為角色添加動畫效果和控制姿勢；豎向圖像橫向擴展為橫版視頻，同時添加新元素。

VCU 輸入的幀序列，分為可變幀序列（需要根據提示重新生成的內容）和不變幀序列（需要原封不動保留RGB 圖元），分別進行編碼處理，生成視頻更靈活，更細緻地控制視頻中哪些部分不變，哪部分重新生成，確保視頻效果合符要求。Wan2.1-VACE可廣泛應用於社交媒體短視頻製作、廣告內容創作、影視後期處理，生成教育培訓視頻等。

Wan2.1-VACE有助快速創建符合需求的高質量片段和動畫，阿里巴巴Wan2.1-VACE模型提供140億參數和13億參數兩個版本，已在Hugging Face、GitHub以及阿里雲開源社區ModelScope上發佈，可免費下載和使用。