阿里巴巴視頻模型更新   統一接口支援局部修改

阿里巴巴視頻模型更新 統一接口支援局部修改

Table Of Contents

wan2.1-vace Wan2.1-VACE可替換視頻中的指定人物或物體。

[Alibaba]

二月底,阿里巴巴開源了四款萬相2.1系列模型,上個月開源支持首尾幀視頻生成的模型。截至目前,上述模型在開源社區Hugging Face和ModelScope下載量超過330萬次。

其中萬相2.1(Wan2.1)T2V版本模型,專門用於文本到視頻生成,開源僅6天登上模型熱榜、是近期全球最受歡迎大模型。

阿里巴巴在 Wan2.1-T2V基礎進行擴充,再開源視頻生成與編輯模型 Wan2.1-VACE(Video All-in-one Creation and Editing),整合多項視頻處理功能於單一模型中,簡化視頻創作流程。

同一模型已可同時支援文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時長延展等全系列基礎生成和編輯。Wan2.1-VACE也是首個提供視頻生成與編輯統一解決方案的開源模型,支持基於文本、圖像和視頻的多模態輸入進行視頻生成,提供全面的視頻編輯功能,包括參考圖像或參考幀視頻生成、視頻轉繪、視頻局部編輯、畫面和時長延展等。

用戶可根據圖像樣本生成包含特定主體視頻,為靜態圖像添加自然運動效果使圖像「活起來」,還可使用姿態遷移、運動控制、深度控制和著色等高級視頻重繪。不過Wan2.1-VACE模型還支持在視頻局部區域添加、修改或刪除內容,不影響區域外的內容,擴展視頻邊界,智能填充內容以加強視覺體驗。

阿里巴巴發佈開源視頻編輯全功能模型Wan2.1-VACE。

Wan2.1-VACE讓用戶同時結合多種功能,通過統一接口「視頻條件單元」(Video Condition Unit, VCU),支持對文本、圖像、視頻和蒙版(Mask)等多模態輸入進行統一處理。模型「上下文適配」(Context Adapter)結構,透過使用時空維度的形式化表徵來注入各種任務概念,處理各類視頻合成任務。Mask是用於指定圖像或視頻中特定區域工具,通常用0/1二值信號表示,套用在指定要編輯的局部區域,例如對視頻中替換、刪除或修改某個物體,通過Mask精准框選物體區域,模型會僅對Mask選定的區域進行處理,其他區域保持不變。

用戶可將靜態圖像轉為視頻,通過規定運動軌跡控制物體移動,也可替換指定人物或物體;為角色添加動畫效果和控制姿勢;豎向圖像橫向擴展為橫版視頻,同時添加新元素。

VCU 輸入的幀序列,分為可變幀序列(需要根據提示重新生成的內容)和不變幀序列(需要原封不動保留RGB 圖元),分別進行編碼處理,生成視頻更靈活,更細緻地控制視頻中哪些部分不變,哪部分重新生成,確保視頻效果合符要求。Wan2.1-VACE可廣泛應用於社交媒體短視頻製作、廣告內容創作、影視後期處理,生成教育培訓視頻等。

Wan2.1-VACE有助快速創建符合需求的高質量片段和動畫,阿里巴巴Wan2.1-VACE模型提供140億參數和13億參數兩個版本,已在Hugging Face、GitHub以及阿里雲開源社區ModelScope上發佈,可免費下載和使用。

DPU|   晶片設計落戶香港   微電子業振興在望

DPU| 晶片設計落戶香港 微電子業振興在望

雲豹智能創始人兼行政總裁蕭啟陽博士曾為RMI開發中國市場,熟悉國內的公有雲和IT基礎設備廠商。 [眾創時代] 香港曾經有過設計晶片工業,隨著工業北移,香港缺乏微電子工業配套,不少晶片設計北移,現時大 …

了解更多
建造業辦創新大賽 吸引創科研發應用

建造業辦創新大賽 吸引創科研發應用

SciTech Challenge 2020比賽,以「建造業傳感科技」為主題,向建造業推介創新方案 眾創時代 本港建造業一直成本高企、加上人手短缺問題,導致超支等問題。建造業議會在九龍灣成立「建造業 …

了解更多
生成式AI風險受關注   AI安全模型應運而生

生成式AI風險受關注 AI安全模型應運而生

羅兵咸永道香港網絡安全及私隱服務合夥人顏國定說,企業擁有自己的LLM大模型,應該為期不遠,必須及早考慮保安。 [新科技速遞] 生成式AI勢不可擋,OpenAI剛舉辦了首屆DevDay,公佈了GPT- …

了解更多