发布日期:2024-09-25 13:52 点击次数:57
谷歌一动手探花 眼睛妹,又把 AI 视频生成卷上了新高度。一句话生成视频,当前在名为 Lumiere 的 AI 操刀下,可以是酱婶的:
▲ “阳光明媚,风帆在湖中飘扬”如斯一致性和质地,再次焚烧了网友们对 AI 视频生成的暖和:谷歌加入战局,又有好戏可看了。
蛇蝎尤物不啻是文生视频,Lumiere 把 Pika 的“一键换装”也复现了出来。
左谷歌右 pika,雷同是选中区域一句话完成视频剪辑,你 pick 哪一边?
让图片中静止的火焰跃动起来,也雷同一选就能完成:
还有图片转视频:
视频作风化:
总之即是主打一个质地又高又万能。
更多细节,咱们论文扒起~
用于视频生成的时空扩散模子Lumiere 旨在责罚以往视频生成中存在的几个要害问题:
确凿性
万般化
绽开的连贯性探花 眼睛妹
在此前的时势中,常见的作念法是,扩散模子先生成一些疏淡的要害帧,此后通过一系列时辰超诀别率(TSR)模子来填补要害帧之间的空缺,接着再用空间超诀别率模子赢得高清视频截止。
可以思见,在全局连贯性上,这么的作念法存在先天的弱点。
Lumiere 的改进点在于,建议了时空 U-Net(STU-Net)架构:将视频在空间和时辰两个维度同期进行下采样和上采样,在汇注的中间层得到视频的压缩时空示意。
具体来说,基于这一架构,模子轻率一次性生成视频中的通盘帧 —— 这也就提高了生成视频的连贯性。
同期,因为大部分绸缪发生在压缩后的示意上,STU-Net 能有用减少绸缪量,镌汰对绸缪和内存的需求。
另外,为了提高视频的诀别率,筹划东谈主员使用多重扩散(MultiDiffusion)工夫,通过线性加权空间超诀别率汇注来处理疏导时辰窗口带来的范畴伪影等问题,从而能将生成画面和会为一个合座,得到连贯、高清的视频恶果。
时长和诀别率方面,Lumiere 能输出 1024×1024、16fps 下长 5 秒的视频。
筹划东谈主员提到:
5 秒如故跨越了大无数视频作品中的平均镜头长度。
值得一提的是,获利于时空 U-Net 架构端到端全帧率视频生成的才略和高效绸缪,Lumiere 生动可彭胀,可以应付利用到卑劣任务中,包括文生视频、图生视频、视频作风化、视频剪辑斥地等等。
▲ 视频斥地施行截止筹划东谈主员将 Lumiere 与其他文本-视频生成模子进行了施行对比。
率先来看东谈主类用户的判断。
施行联想是这么的:志愿者会同期看到一双视频,一个来自 Lumiere,另一个来自其他基线模子。志愿者被条款从中选出视觉质地、动态恶果更好,更合乎文本教唆的视频。
筹划东谈主员网罗了大要 400 份反映,截止长远,在视频质地、文本匹配度方面,Lumiere 高出了 Pika、Gen2、Imagen Video、SVD 等一众顶级视频生成模子。
同期,在 UCF101 数据集(算作识别数据集)上,与 MagicVideo、Make-A-Video、SVD 等模子比拟,Lumiere 取得了具有竞争力的 FVD 和 IS 目标。
网友:谷歌,模子呢?恶果很惊艳,网友很欢乐,但桥豆麻袋……
此次,谷歌依然只放出了论文,莫得试玩,更莫得开源。
这种似曾剖判的操作,把东谈主快整麻了:
视频很可以,可是谷歌,你又不策画发布任何代码、权重,也不提供 API 了,对吗?
还有东谈主思起了 Gemini 发布时阿谁作秀的小蓝鸭视频……
那么,这波你还会看好谷歌吗?
论文地址:
https://arxiv.org/abs/2401.12945
神志地址:
https://lumiere-video.github.io/#section_video_stylization
本文来自微信公众号:量子位 (ID:QbitAI),作家:鱼羊
告白声明:文内含有的对外跳转承接(包括不限于超承接、二维码、口令等模样)探花 眼睛妹,用于传递更多信息,从简甄选时辰,截止仅供参考,IT之家通盘著述均包含本声明。