真·拿嘴做视频!Meta“AI导演”一句话搞定视频素材,网友:我已跟不上AI发展速度

探索 2025-07-06 05:34:48 4746

首先,AI导演根据输入文本生成图像嵌入。真拿嘴

然后,视频视频素材速度解码器Dt生成16帧64×64的句话RGB图像。

插值网络↑F会对初步结果进行插值,搞定以达到理想帧率。网友

接着,已跟第一重超分网络会将画面的不上分辨率提高到256×256。第二重超分网络则继续优化,发展将画质进一步提升至768×768。AI导演

基于这样的真拿嘴原理,Make-A-Video不仅能根据文字生成视频,视频视频素材速度还具备了以下几种能力。句话

将静态图像转成视频:

根据前后两张图片生成一段视频:

根据原视频生成新视频:

刷新文本视频生成模型SOTA

其实,搞定Meta的网友Make-A-Video并不是文本生成视频(T2V)的首次尝试。

比如,清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI:CogVideo,而且这是目前唯一一个开源的T2V模型。

更早之前,GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。

不过这一次,Make-A-Video在生成质量上有明显的提升。

在MSR-VTT数据集上的实验结果显示,在FID(13.17)和CLIPSIM(0.3049)两项指标上,Make-A-Video都大幅刷新了SOTA。

此外,Meta AI的团队还使用了Imagen的DrawBench,进行人为主观评估。

他们邀请测试者亲身体验Make-A-Video,主观评估视频与文本之间的逻辑对应关系。

结果显示,Make-A-Video在质量和忠实度上都优于其他两种方法。

One More Thing

有意思的是,Meta发布新AI的同时,似乎也拉开了T2V模型竞速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住了,创始人兼CEO Emad放话道:

我们将发布一个比Make-A-Video更好的模型,大家都能用的那种!

而就在前几天,ICLR网站上也出现了一篇相关论文Phenaki。

生成效果是这样的:

对了,虽然Make-A-Video尚未公开,但Meta AI官方也表示,准备推出一个Demo让大家可以实际上手体验,感兴趣的小伙伴可以蹲一波了~

本文地址:http://bbs.globalonesalon.com/html/094f7499831.html
版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

全站热门

72秒充电80%!混合超级电容电池有望应用于城市EV 取代锂电

上海今年拟供应保障性租赁住房6万套(间)

旭辉永升服务获非执行董事林峰等控股股东合共增持50万股

“九安大帝”怎么了?中报净利预增超274倍,二季度却环比下滑逾九成

戴利称美联储政策具有滞后性 市场紧缩程度已相当于加息至6%左右

上半年社会消费品零售总额210432亿元 同比下降0.7%

快讯:港股恒指低开1.1%阿里大跌5.7% 比亚迪暴涨4.6%

菲律宾央行行长:不排除8月再次加息

友情链接