关闭广告

边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA

新智元2025-10-18 12:00:0137人阅读


新智元报道

编辑:LRST

【新智元导读】AI拍长视频不再是难事!LongLive通过实时交互生成流畅画面,解决了传统方法的卡顿、不连贯等痛点,让普通人都能轻松拍大片。无论是15秒短片还是240秒长片,画面连贯、节奏流畅,让创作变得像打字一样简单。

你还在为拍视频头疼吗?

想象一下你正在写一个故事,主角从城市街头一路打到未来太空,剧情越来越精彩,突然你灵光一闪——

「如果他这时候变身成反派,故事会不会更炸?」

以前,你得重新写剧本、找素材、剪辑、渲染……

现在,你只需要打一句话,AI实时生成新剧情,而且画面连贯、节奏流畅,边想边出片,像电影一样!

近日,NVIDIA联合MIT等机构重磅推出LongLive,把交互式视频生成性能干到SOTA,最长实现4分钟,可以实时交互式长视频生成。


项目地址:https://nvlabs.github.io/LongLive/

论文链接:https://arxiv.org/abs/2509.22622

项目主页:https://nvlabs.github.io/LongLive/

视频1:交互式视频生成结果展示

LongLive的惊艳不止于实时交互,别家模型「跑长跑就掉鞋」,我们把终点线直接拉到4分钟——240秒一镜到底,人物不崩、剧情不跳、镜头不晃。

视频2:和其他模型在长视频生成上的视觉对比。LongLive生成速度快的同时,还保持了视觉一致性和语义上的连贯

对比Sora2,由于Sora2每次只能生成10秒视频,Sora2借助GPT-5对输入进行了优化,尽可能地增加背景和上下文信息,来提示Sora2生成的连贯性。

视频3:Sora2与LongLive在长视频生成上的对比。Sora2在视频质感、运镜以及物理规律模拟等方面非常强大,但难免会出现突变和不一致。LongLive连续性好且生成速度快

VBench-Long权威测评显示,LongLive在长视频赛道拿下84.87总分,领先同量级选手近4分;背景一致性94.8、主角一致性94.0,全程零闪变,比SkyReels-V2快了41倍。


表1:LongLive和其他模型在长视频生成上的User Study对比

回到日常短视频(15-30秒)场景,一样「稳又快」:20.7帧/秒生成速度,比播放速度还快;VBench短片段评分86.97,视觉效果依旧SOTA。


表2:LongLive在VBench 短视频评测榜单上的性能比较

一句话,无论15秒爆款还是240分钟大片,LongLive都给你影院级稳感和丝滑产出

现在,很多扩散模型的做法由于双向注意力机制导致长时域生成过慢。而另一些则是「把一段视频一段视频分别生成然后拼起来」,所以越长越崩,人物形象完全错误,还有一些方法由于训练阶段使用短视频,推理阶段则推长视频导致训推不一致。

总结为:

  • 不用KV-cache,时间太慢并且形象错乱。

  • 使用KV-cache,实时交互困难。

  • 训不动长视频,推理则错误累计。


而LongLive完美解决这些痛点,一个真正面向长视频生成交互式的训练和推理算法。滚动式窗口支持长视频训练,单张GPU实现240s实时交互生成。

视频4:240s长视频生成效果

LongLive三板斧

LongLive的核心秘诀是「三把钥匙」,专门解决「长、顺、快」不可能三角:

长跑钥匙——Streaming Long Tuning

专为「长度」而生:训练时就让模型自己跑完240秒,边生成边学习,像陪练一样陪它冲过终点,从此不再「train-short-test-long」,越长越稳。


图2:流式长视频微调流程图。

剧情钥匙——KV-Recache

换剧情时,旧画面不丢,新指令立刻生效。就像导演现场改剧本,演员自然接戏,不会「出戏」或「重来」。


图3:不同策略对比来看,LongLive提出的KV re-cahce完美解决所有痛点

时间锚点和聚光灯注意力——Frame Sink和Short-Window

把开头几帧永久「钉」在记忆里,后面无论怎么拍,人物长相、场景风格都不会跑。相当于给整部片上了「定妆锁」。


图4:LongLive提出的sink策略保持风格一致

只看最近关键几帧,算力减半,画面反而更稳。就像摄影师只追焦主角,背景再乱也不影响镜头清晰度。


图5:LongLive提出的Shift Window策略极致的加速生成和降低算力消耗

三招齐下,才能让你「边聊边拍」240 秒依旧不崩、不跳、不重来,这才是 LongLive敢把「交互式长视频」做成「打字速度」的大秘诀。

LongLive把「写一句话」变成「拍一部大片」,长视频一镜到底、随时改戏、立等可取——从此,长视频不再是专业团队的专利,而是每个人随手可得的创意游乐场。

真正的交互式视觉时代已悄然开启,AI的每个灵感都值得被实时看见,被长久记住。

参考资料:

https://arxiv.org/abs/2509.22622

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

走失女童被找到后父亲首度发声:感谢1.2万个恩人

极目新闻 浏览 8 10-18

老人旅游期间睡梦中去世 家属起诉旅行社索赔15万

红星新闻 浏览 2531 02-19

印尼国脚小赖因德斯:这段旅程始于梦想,如今却以痛苦告终

懂球帝 浏览 16 10-13

新增车道级导航与全向记录仪 腾势N9迎重磅OTA升级

网易汽车 浏览 14 10-16

外媒:以黎紧张时刻 美军两栖攻击舰进入地中海

参考消息 浏览 2398 07-03

05后星二代“四大顶流”,为什么是她们?

仙女事件簿 浏览 23 10-11

文旅上市潮,进入Next Level

斑马消费 浏览 12 10-16

一场春节档,让人看到了62岁刘德华在内地的“窘困”

不八卦会死星人 浏览 2632 02-19

李禹熹公开和荣梓杉聊天记录!​开房都不舍花钱,还拿私密照威胁

萌神木木 浏览 8 10-17

驴妈妈回应官网、APP无法打开:被拖欠20亿,现金流困难

南方都市报 浏览 2492 02-02

136-120!杜兰特33分8助,布克22+8,太阳轻取篮网迎两连胜

ALL体育 浏览 2547 02-02

用魔法打败魔法,电信公司已部署 AI 遏制诈骗电话

IT之家 浏览 21486 07-09

营收大增1332.52%,牛散出手增持!下周6股解禁比例超50%

数据宝 浏览 5 10-18

看完《热辣滚烫》,对塑料古偶应激了!满屏假肌肉的痛,尽数爆发

娱乐圈笔娱君 浏览 2602 02-19

比肩库里浓眉獭兔!唐斯砍下50+ 全明星历史第4人

直播吧 浏览 2537 02-19

最高法改判福清祖屋强拆案后 屋主再提诉讼

澎湃新闻 浏览 18 10-13

TikTok再陷「封禁」法案,用户打爆美国会办公电话;丰巢回应撤柜;李彦宏称程序员职业将不存在丨雷峰早报

雷峰网 浏览 16114 04-29

拼多多,十年启示录

正和岛 浏览 13 10-11

阿里云盘宣布个人主页动态、订阅服务预计3月15日下线

IT之家 浏览 15990 04-29

哈马斯同意“20点计划”提议:释放所有以色列人质

央视新闻客户端 浏览 20 10-04

达尼-加西亚:不想抢穆尼亚因风头,所以拖了一周才宣布离队

懂球帝 浏览 2414 07-09
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2