阿里巴巴視頻模型更新   統一接口支援局部修改

阿里巴巴視頻模型更新 統一接口支援局部修改

Table Of Contents

wan2.1-vace Wan2.1-VACE可替換視頻中的指定人物或物體。

[Alibaba]

二月底,阿里巴巴開源了四款萬相2.1系列模型,上個月開源支持首尾幀視頻生成的模型。截至目前,上述模型在開源社區Hugging Face和ModelScope下載量超過330萬次。

其中萬相2.1(Wan2.1)T2V版本模型,專門用於文本到視頻生成,開源僅6天登上模型熱榜、是近期全球最受歡迎大模型。

阿里巴巴在 Wan2.1-T2V基礎進行擴充,再開源視頻生成與編輯模型 Wan2.1-VACE(Video All-in-one Creation and Editing),整合多項視頻處理功能於單一模型中,簡化視頻創作流程。

同一模型已可同時支援文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時長延展等全系列基礎生成和編輯。Wan2.1-VACE也是首個提供視頻生成與編輯統一解決方案的開源模型,支持基於文本、圖像和視頻的多模態輸入進行視頻生成,提供全面的視頻編輯功能,包括參考圖像或參考幀視頻生成、視頻轉繪、視頻局部編輯、畫面和時長延展等。

用戶可根據圖像樣本生成包含特定主體視頻,為靜態圖像添加自然運動效果使圖像「活起來」,還可使用姿態遷移、運動控制、深度控制和著色等高級視頻重繪。不過Wan2.1-VACE模型還支持在視頻局部區域添加、修改或刪除內容,不影響區域外的內容,擴展視頻邊界,智能填充內容以加強視覺體驗。

阿里巴巴發佈開源視頻編輯全功能模型Wan2.1-VACE。

Wan2.1-VACE讓用戶同時結合多種功能,通過統一接口「視頻條件單元」(Video Condition Unit, VCU),支持對文本、圖像、視頻和蒙版(Mask)等多模態輸入進行統一處理。模型「上下文適配」(Context Adapter)結構,透過使用時空維度的形式化表徵來注入各種任務概念,處理各類視頻合成任務。Mask是用於指定圖像或視頻中特定區域工具,通常用0/1二值信號表示,套用在指定要編輯的局部區域,例如對視頻中替換、刪除或修改某個物體,通過Mask精准框選物體區域,模型會僅對Mask選定的區域進行處理,其他區域保持不變。

用戶可將靜態圖像轉為視頻,通過規定運動軌跡控制物體移動,也可替換指定人物或物體;為角色添加動畫效果和控制姿勢;豎向圖像橫向擴展為橫版視頻,同時添加新元素。

VCU 輸入的幀序列,分為可變幀序列(需要根據提示重新生成的內容)和不變幀序列(需要原封不動保留RGB 圖元),分別進行編碼處理,生成視頻更靈活,更細緻地控制視頻中哪些部分不變,哪部分重新生成,確保視頻效果合符要求。Wan2.1-VACE可廣泛應用於社交媒體短視頻製作、廣告內容創作、影視後期處理,生成教育培訓視頻等。

Wan2.1-VACE有助快速創建符合需求的高質量片段和動畫,阿里巴巴Wan2.1-VACE模型提供140億參數和13億參數兩個版本,已在Hugging Face、GitHub以及阿里雲開源社區ModelScope上發佈,可免費下載和使用。

口罩的學問

口罩的學問

較早前以採訪疫症聞名嘅Laurie Garrett,原本就讀加大栢克萊分校細菌及免疫學博士,史丹福大學任職研究,後來去當記者 電腦****J手記 全城鬧「口罩荒」之際,有專家不同意見,專家話無口罩唔 …

了解更多
與子同裳

與子同裳

《刺針》(The Lancet)期刊上的新冠病毒COVID-19的共享區域,匯集全球的研究成果,部分論文並已具中文翻譯 電腦J****手記 新冠狀病毒後,各地送贈中國物資,日本送來的醫療保護衣包裝 …

了解更多
新科技速遞|   統一儲存打破孤島   混合雲加快AI應用

新科技速遞| 統一儲存打破孤島 混合雲加快AI應用

Hitachi Virtual Storage Platform One (VSP One) 的核心是一個統一的數據生態系統,該系統實現了區塊存儲和檔案存儲的無縫整合,消除了數據孤島和碎片化現象。 …

了解更多