给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了

声明：本文来自于微信公众号量子位 | 公众号 QbitAI，作者：衡宇，授权站长之家转载发布。

让AI视频中任意主体保持一致!就在刚刚，人人都可轻松做到了。

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放-第1张-资讯-土特城网

而且只需一张图片，就能实现。

——上面的每一个马斯克视频，都来自同一张照片。

想玩的话，只需要用上清华系AI视频玩家生数科技旗下Vidu的最新功能，主体参照（Subject Consistency）。

该功能能够实现对任意主体的一致性生成，让视频生成更加稳定，也更加可控。

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放-第2张-资讯-土特城网

“现在生成AI视频内容，想要做到‘言出法随’其实还很难，不确定性让视频内容对运镜、光效等的精细控制还是得不断抽卡。”生数科技CEO唐家渝表示，“角色一致性只能让人脸保持一致，而主体参照让主体整体造型都能保持一致，给了更大的创作空间。”

这是继今年7月，生数Vidu面向全球用户上线文生视频与图生视频能力（单视频最长生成8s）后的再次更新。

这次功能上新依然非常友好:

面向用户免费开放，注册即可体验。

仅需一张图片实现主体可控

先来看看Vidu是怎么定义这个新功能的。

主体参照:允许用户上传任意主体的一张图片，然后由Vidu够锁定该主体形象，通过描述词任意切换场景，输出主体一致的视频。

划重点:任意主体。

也就是说，无论是人还是动物，无论是真人还是动漫形象or虚构主体，无论是家具还是商品，都能通过这个功能在视频生成中实现一致性和可控性。

目前，所有的视频大模型中，仅有Vidu率先支持这种玩法。

不必光说不练，我们来看看真实效果。

人物主体

首先来看看以人物为主体。

上传一张87版《红楼梦》林妹妹的定妆照:

以画面中林妹妹为主体，利用主体参照功能，生成两条视频。

突然，林妹妹上台演讲了:

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放-第3张-资讯-土特城网

又一眨眼，妹妹已经坐在星爸爸喝咖啡了:

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放-第4张-资讯-土特城网

当然啦，真人可以作为生成视频的主体参照，虚拟角色/动漫人物同样可以。

比如输入一张漫画女孩:

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放-第5张-资讯-土特城网

生成视频效果是酱紫的:

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放-第6张-资讯-土特城网

这里附上一些官方给的小tips:

如需重点保持主体面容一致，需仅截取单一主体的清晰面容图
如需重点保持主体半身一致（面容+上半身服饰），仅需截取单一主体的清晰半身图
如需重点保持主体全身一致（全身特征），仅需截取单一主体的清晰全身图

动物主体

谁能不爱可爱狗狗!

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放-第7张-资讯-土特城网

把这张照片丢给Vidu，就能实现狗狗走草地上，一步一步靠近你。

镜头后拉和主体运动幅度表现都还不错。

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放-第8张-资讯-土特城网

商品主体

当把商品作为需要参照的主体时，在生成的视频中，商品外观和细节能在不同于图片的场景中保持一致。

就像下面这样:

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放-第9张-资讯-土特城网

沙发所在的场景，说变就变。

上面还能睡一个盖了毯子的小女孩，遮挡住沙发原有部分。

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放-第10张-资讯-土特城网

需要注意的是，当前版本仅支持单一主体的可控。

如果上传的图片有多个人物/物体，需要框选出单一主体进行生成。

Be Like:

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放-第11张-资讯-土特城网

不再“两步走”了

无论是制作短视频、动画作品还是广告片，“主体一致、场景一致、风格一致”都是共同的追求。

因此，AI视频生成内容想要有叙事效果，就需要不断往三个一致方面尽力靠拢。

尤其是就现实情况而言，实际的视频创作，内容往往围绕特定的对象展开——这往往也是视频生成内容最容易变形、崩坏的一点，尤其在涉及复杂动作和交互的情况下。

挠头，脑阔痛。

业界首先想到的办法是先AI生图、再图生视频。

说人话，就是用Midjourney、SD什么的，生成分镜镜头画面，让每张图里的主体保持一致，然后再进行图生视频，最后把每个视频片段拼接剪辑。

但一听就发现了，这样搞，无论是保持AI画图的一致性，还是后期拼拼剪剪，工作量都很大。

生数Vidu“主体参照”跟这个思路的不一样之处，就是不再两步走了。

而是通过“上传主体图+输入场景描述词”的方式，直接生成视频素材。

最后，我们来厘清以及区分三个概念:

图生视频（Image to Video）
角色一致性（Character to Video）
主体参照（Subject Consistency）

图生视频基本是现在AI视频生成的基操了。

它把输入的图片作为视频首帧，然后基于首帧画面的连续生成。

Bug是无法直接输出目标场景，限制了视频内容的多样性和场景的自由度。

角色一致性，主要集中在人物形象上起效果。

它能保证人物面部特征在动态视频中保持一致，但一般来说“一致性”只顾脸，不顾整体形象。

主体参照，面向任意主体。

同时在面向人物主体时，既可选择保持面部一致，也可选择保持人物整体形象的高度一致。

最后附上生数科技视频试玩链接，感兴趣的朋友可趁排队人不多，赶紧冲一波!

毕竟，免费的就是香，对吧（doge）。

体验直通车:

www.vidu.studio

免责声明：本文章由会员“极目新闻”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放

仅需一张图片实现主体可控

人物主体

动物主体

商品主体

不再“两步走”了

相关推荐