关闭广告

Sora炸裂科技圈:真神还是焦虑制造机

零态2024-02-19 13:14:4516098人阅读



周鸿祎又口出狂言了。

他说,“AGI(通用人工智能)的实现将从10年缩短到1年”,而背后的原因,仅仅是因为一个1分钟的短视频。

注意看,这个女人叫小美,她正向我们走来。虽然身处日本某条热闹的大街,小美却总是不停地回头张望,似乎在暗示观众镜头之外隐藏了不为人知的秘密。



▲图:主角出场

镜头拉近,可以清晰看到小美修长的脖子和优美的下颌线,让整个画面充满了令人无法抗拒的神秘和美感。



▲图:细节展示

实际上,整个短视频中,从街景到行人,包括小美,在现实中根本不存在。这是OpenAI最新产品Sora制作的演示视频,而正是这个视频,让周鸿祎做出了AGI发展将会10倍提速的预言。

传统方式制作这样一段1分钟的视频成本非常高。除了需要选址,选演员,提前进行分镜构图,架设机位外等,想要碰上如此理想的天气,还需要赌一赌运气。落日转瞬即逝,一旦失误就只能第二天重头来过。

拍摄完成后,是非常耗时的后期制作。不仅要调整画面色调,还要仔细核对画面中是否有瑕疵,比如眼镜反射的画面会不会导致穿帮、路人中是否出现不协调元素等等。

但Sora出马,全部流程就是(字面意义上的)一句话的事。

Sora官网上公布了十几段“制作”精良的高清演示短片, 从现实人物到3D动画,所有短片都是通过一句话生成的。



▲图:Sora展示视频

看过这些短片后,我科技圈的朋友集体表示“炸裂”;大众圈的朋友表示“AI都到了这种程度了吗”;而摄影圈的朋友表示,尽管还是能看出和人类摄影师有一点点差距,但依然被Sora的效果震撼了,进而纷纷开始和我讨论起失业以后,除了送外卖还可以从事什么工作。

但如果我们抛开网上铺天盖地、对Sora近乎玄幻的赞誉,跳出官网演示视频的魅惑就会发现,Sora本质上是生成式AI在视频领域的一个应用,一个diffusion transformer模型。

而官方宣传的Sora所有功能,例如通过文字或者图片生成高清短视频,在此基础上进行扩展生成一段更长的视频等,其实很多公司都在做。比较知名的产品包括已经商用的Runway,免费的Pika,以及还在完善阶段的Google Lumiere、Meta Make-A-Video,还有一些知名度稍低的产品如Leonardo,FinalFrame等等。

这里就有一个很大的疑问:凭什么出圈的又是Sora,它真有网上说的那么神吗?

1、凭借更逼真的效果,OpenAI再次出圈

1月24日,谷歌研究人员公布了一段Lumiere的演示视频。画质非常高清,且真实。



▲图:由Lumiere生成的游泳海龟视频

Lumiere除了可以生成真实图片外,还可以实现一键换装、根据图片和提示词生成动态视频等功能。



▲图:一键换装



▲图:通过图片生成视频

2月15日,刚刚过完情人节的谷歌在疯狂星期四又重磅推出了下一代AI产品Gemini 1.5。在此前的演示视频中,Gemini已经展现了其在图像识别和多轮对话中的逆天能力。

演示视频中,演示人员画了一个类似鸭子的轮廓让Gemini辨认,Gemini表示它觉得像个鸟。



▲图:Gemini演示

但是当演示人员画上了波浪后,Gemini表示通过长脖子长嘴又会游泳这几个依据,判断这是只鸭子。



▲图:Gemini演示

随后演示人员拿了个玩具小鸭子问Gemini这个东西是什么材质做的,Gemini表示看起来可能是橡胶也可能是塑料。而当演示人员捏响橡胶鸭子后,Gemini立刻判断出是用柔软的橡胶做成的。



▲图:Gemini演示

就在圈内很多人认为谷歌将要凭借Lumiere和Gemini拿下今年头条的时候,OpenAI仅仅用Sora就轻松获得了更高的关注度。

Sora这个词很有意思,它在韩语中表示海螺壳,在日语中表示天空,在芬兰语中表示砂砾。这就很难不让人想到《海底两万里》的鹦鹉螺号,《沙丘》,以及“我们的目标是星辰大海”的豪情壮志。

而且Sora是一个比较常见的名字,比Lumiere(法语,光)更短、更好读。

和GPT当年的故事如出一辙,Sora也是踩着竞争对手以碾压式的优势胜出。相比同类产品,Sora能抓住提示词的精髓,巧妙地生成具有多个角色和特定动作的场景。

有人做过对比,使用同样的提示词,让AI生成一个在花园里、似乎正在追逐什么东西、快乐奔跑的黄白相间的猫,最终结果的差距十分明显。



▲图:不同AI产品的效果对比

上面由Sora生成的视频看起来非常真实,甚至在奔跑时候,猫腮帮子上的毛都会随着脑袋起伏。而下面通过Pika, Runway, Leonardo, FinalFrame生成的视频,猫不仅看起来不像真的,连动作都很诡异。

在生成的视频时长上,Sora也碾压友商。Sora可以生成1分钟的视频,相对的,Pika是3秒,Runway是4秒,Lumiere是5秒。

最重要的是,Sora有望解决一个生成式AI的痛点,那就是同样的提示词通常不会生成同样的结果,例如“黄白相间的猫”这个提示词,不同的视频里会出现不同模样的黄白相间的猫。导致的结果,就是无法通过拼接来创作更长的视频。

尽管Sora一出道就秀出了远超同行的肌肉,但Sora并没有选择像Pika、Runway一样,开放给大众使用,而是采取了Google、Meta类似的保守策略,先官宣来吊足大家胃口,然后慢慢内测,等待一个合适的时机,再向大众开放。

因为,有很多关键问题,大家都没有找到好的解决方案。

2、AI一调皮,人类就头疼

生成式AI天生就有一个“不按物理定律出牌”的老毛病,即便是看起来已经非常接近真实世界的Sora也不例外。这个问题过于明显,以至于OpenAI都懒得去遮掩,干脆自己先大方的说了出来。

从内测用户流出的视频可以发现,Sora无视物理法则随意发挥的意愿十分高涨,而这种意愿在“必须还原物理世界”的规则约束下,很容易生成像人类做梦一样的场景。有过做梦经历的朋友应该会这样的体会:明明梦是虚幻的,但在梦里你的感受又很“真实”。

下面就是个很典型的例子。



▲图:Sora的梦境物理

注意看,视频中的这个杯子莫名其妙的跳了起来并侧翻在桌面上,杯中的液体在杯子跳起来的一瞬间穿透了杯底铺满桌面,而最终杯子连同里面剩余的液体一起,融进了桌面。



▲图:融进桌面的杯子

这样的视频显然无法应用在正式的场合,大概率只能出现在B站的鬼畜区,告诉你一个学了3年动画的人,是如何因为一个毕业作品被老师轰出门外的故事。



此外,Sora对算力有很高的要求。下面这个视频演示了低算力和高算力之间的差距能有多可怕。



▲图:算力差距

而想要高算力,就得花更多的钱。

以Runway为例,个人版收费模式分3档,标准版为每月15美元,可以制作一个125秒的Gen-1视频,或者44秒的Gen-2视频,相当于每秒1-2.4元人民币,超出部分需要额外付费。Pro版每月35美元,至尊版每月95美元。而用户如果希望加快视频的产出效率,也需要额外购买“时间”。

3、能力越大,危险越大

生成式AI在社会层面有几个老生常谈的问题。

首先就是造假问题。AI生成的视频越真实,造假就越容易。最直接的解决办法是将AI生成的内容打上一个特殊的标签,以便于平台将其和人工拍摄的视频进行区分,OpenAI和Google的确也在做这件事。

但水印的问题在于,它可以在分享的过程中会被人恶意抹除。例如通过截图、录屏的方式获得视频副本,不会带有任何水印。

其次是版权问题。版权问题比造假更加复杂,它既是一个形而上的宏大概念,又和每一个创作者的个人利益息息相关。目前对版权的争论主要集中在AI和人类对齐的过程中,比如,AI通过学习别的艺术家的风格在此基础上进行的创作,和人类以同样方式进行的创作,本质上有没有区别?

而更直白的问题则是,AI到底是来帮我赚钱的,还是来跟我抢钱呢?

这些问题一个比一个难解决,也就意味着Sora们至少在短时间内不会向公众开放。从某种角度来看,这或许对于视频制作者是一个好消息,至少有了更多的缓冲时间,来思考如何应对接下来Sora们带来的冲击。

无论如何,Sora们向公众开放,只是时间问题,至于会不会像周鸿祎预言的那么快,可能还存在疑问。但有一点毫无疑问:

那时候的Sora们,将比现在更加强大。

作者|吴狄

编辑|胡展嘉

运营|陈佳慧

出品|零态LT(LingTai_LT)

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美国大模型战局生变:Anthropic 甩出最强模型,OpenAI 陷内部分歧

创业家 浏览 0 04-10

NBA全明星正赛全场数据:东部飚中42记三分,命中率为43.3%

懂球帝 浏览 2944 02-19

激怒特朗普 BBC身陷数十年来"最严重危机"

鲁中晨报 浏览 190 11-12

俄副总理称亲自参战:用狙击步枪在乌军袭击时还击

鲁中晨报 浏览 162 11-09

菲媒:泽连斯基参加完"香会"赴马尼拉 与菲总统会晤

环球网资讯 浏览 2557 06-03

冬天适合穿什么外套?这三种款式时尚好搭

Yuki时尚酱 浏览 2706 01-08

标普将全球最大稳定币运营商Tether资产评级下调至最低等,质疑挂钩美元能力

华尔街见闻官方 浏览 202 11-27

辽宁舰正常演训 日本为何炒作所谓“雷达照射”问题

澎湃新闻 浏览 187 12-09

AI成核心方向 银行启动博士后招聘

北京商报 浏览 176 11-25

14天尝鲜期临近 多名用户退货vision pro:佩戴不舒适

中国基金报 浏览 2738 02-19

普京:某国准备进行核试验

北京日报 浏览 249 10-04

李小璐晒与女儿跳女团舞,11岁甜馨进步好大,母女俩同框像同龄人

娱絮 浏览 2597 06-25

中航成飞:第三季度净利润12.56亿元 同比增长170%

网易财经 浏览 198 10-29

怒砸15亿,全明星阵容,年底压轴大片来了

独立鱼 浏览 158 12-23

媒体:在21世纪20年代 美国总统要向外派出"总督大人"

新民周刊 浏览 139 01-06

北约下周军演 将模拟可能动用核武器场景

界面新闻 浏览 217 10-12

首款星闪音频耳机!华为FreeBuds Pro 5悦彰耳机开售:1499元 母带级无损音质

快科技 浏览 318 11-25

三年打入越南Top 5,这家纸巾厂的出海秘诀是什么?

虎嗅APP 浏览 208 10-20

美财长挑拨中阿关系称"米莱要将中国赶走" 阿根廷回应

澎湃新闻 浏览 203 10-14

仅2.2万,王晶贺岁档新片票房崩塌,我感慨:观众不再为情怀买单

靠谱电影君 浏览 125 01-20

配备3C快充 埃安AION i60预售11.98万起

网易汽车 浏览 192 11-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2