《投资者网》叶芯
近日,OpenAI的文生视频模型Sora刷屏了。
2月16日,OpenAI在其官网发布文生视频模型Sora。据介绍,该模型可以生成长达一分钟的视频,同时保持视觉品质并遵循用户提示。
作为OpenAI首推的文本转视频模型,Sora的问世,宣告了新一轮科技革命的到来。Sora惊艳炸裂的效果,冲击着当前的AI行业。Sora横空出世后,又将带来怎样的变革?资本市场哪些上市公司将受益?
Sora面世
Sora作为OpenAI首推的文本转视频模型,能够严格根据用户输入的提示词、文本指令或静态图像,生成长达1分钟的视频,保持较高的视觉质量,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。同时也接受现有视频扩展或填补缺失的帧。
OpenAI表示,Sora能够生成复杂的场景,不仅包括多个角色,还有特定的动作类型,以及对对象和背景的准确细节描绘。除此之外,Sora还可以将静态图像制作成动画。文本指令和静态图像均能生成准确反映用户提示的视频。
国泰君安研报指出,Sora具有三大突出亮点,一是60秒长视频,Sora可以保持视频主体与背景的高度流畅性与稳定性。二是单视频多角度镜头,Sora在一个视频内实现多角度镜头,分镜切换符合逻辑且十分流畅。三是理解真实世界的能力,Sora对于光影反射、运动方式、镜头移动等细节处理得十分优秀,极大地提升了真实感。
与目前AI视频赛道同行相比,Sora每条提示60秒的视频长度,远高于Pika Labs的3秒、Meta Emu Video的4秒和Runway公司Gen-2的18秒的视频时长。
此外,从官方发布的演示来看,无论从视频流畅度还是细节表现能力上,Sora的效果都相当惊艳。
不过,目前Sora仍在开发中,OpenAI承认该模型可能会混淆提示的空间细节,例如混淆左右,并且难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。同时,OpenAI还称,可扩展的视频生成模型,是构建物理世界通用模拟器的一条可能的路径。
Sora的面世,意味着AI视频生成能力实现了跨越式发展。该模型可以深度模拟真实物理世界,标志着人工智能在理解真实世界场景并与之互动的能力方面实现了重大飞跃。
应用前景广阔
近年来,OpenAI领跑AI赛道。2021年初和2022年末,OpenAI分别推出了图像生成系统DALL·E和聊天机器人ChatGPT。这也使得AI逐渐成为各行各业辅助工作的工具,也正逐渐改变人们对未来工作的看法。
如今,Sora模型能够生成一分钟的高保真视频。视频格式既可以是横屏1920*1080视频,竖屏1080*1920视频,以及之间的所有内容。这使得Sora可以兼容不同的视频播放设备,根据特定的纵横比来生成视频内容,这也会大大影响视频创作领域,包括电影制作、电视内容、自媒体等。
国盛证券认为,文生视频大模型Sora横空出世,其能够理解并呈现物理定律,影视动画行业的颠覆性时刻到来。
据介绍,Sora是基于过去对DALL·E和GPT的研究基础构建,利用DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,因此模型能更好的遵循文本指令。
对此,360集团创始人周鸿祎表示,Sora的技术思路完全不一样。之前我们做视频做图用的都是Diffusion,是多个真实图片的组合,这次OpenAI利用它的大语言模型优势,把LLM和Diffusion结合起来训练,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。
“这都是大模型的功劳。OpenAI训练这个模型应该会阅读大量视频。一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI(通用人工智能)不远了,不是10年20年的问题,可能一两年很快就可以实现。”周鸿祎称。
周鸿祎表示,这也代表未来的方向。有强劲的大模型做底子,基于对人类语言的理解,对人类知识和世界模型的了解,再叠加很多其他的技术,就可以创造各个领域的超级工具,比如生物医学、蛋白质和基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。这次Sora对物理世界的模拟,至少将会对机器人具身智能和自动驾驶带来巨大的影响。
国盛证券也持有相同的观点。其认为文生视频大模型Sora横空出世,其能够理解并呈现物理定律,影视动画行业的颠覆性时刻到来。
对于Sora的面世,工信部信息通信经济专家委员会委员、数字经济专家刘兴亮称,这标志着AI技术在内容创作领域的一个新纪元。
“Sora能够生成持续一分钟左右的1080P高清视频,涵盖多个角色、不同类型的动作和背景细节等,几乎达到了电影级别的逼真场景。这种能力不仅为内容创作者提供了前所未有的工具,使他们能够以更低的成本和更快的速度将创意变为现实,而且为观众带来了更丰富和多样化的视觉体验。技术创新的这一巨大飞跃,预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”刘兴亮表示。
AI基础设施需求旺盛
市场观点认为,2022年是影像之年,2023是声波之年,而2024是视频之年。
OpenAI表示,Sora是构建世界模型的基础,未来将向实现AGI继续迈进。
对于Sora的发展,算力需求旺盛。国泰君安指出,Sora模型推动AI多模态领域飞跃式发展,AI创作等相关领域将迎来深度变革,AI赋能范围进一步扩大,多模态相关的训练及推理应用也将进一步提升对算力基础设施的相关需求。
无独有偶,国盛证券也持有相同的观点,其认为,Sora依旧符合AI缩尺律(Scaling Law)OpenAI在技术文档中说明,随着训练计算量的增加,样本质量明显提高,进一步佐证了多模态时代,算力需求将成为最核心的瓶颈之一。
多模态大模型拉动全球算力需求快速增长,国产AI算力迎来机会。根据南方财富网趋势选股系统数据统计,A股国产AI算力相关上市企业目前数量有52家,如国产AI算力产业链包含AI服务器零部件、服务器整机、算力租赁、数据中心等环节。AI服务器零部件公司主要包括海光信息、寒武纪、龙芯中科、景嘉微等;服务器整机公司主要包括高新发展、神州数码、拓维信息、广电运通、烽火通信、同方股份等;算力租赁公司主要包括恒润股份、云赛智联、鸿博股份等;数据中心公司主要包括奥飞数据、光环新网、宝信软件、数据港等。
此外,多家巨头谋划布局AI基础设施。举例来看,主营视频创意、绘图创意类软件产品的万兴科技近日在互动平台表示,公司旗下视频创意产品万兴喵影/Filmora可用于各类视频的创作和剪辑,“天幕”大模型是以视频创意类AI技术为核心的多媒体大模型,涵盖音频、图像、视频等多模态能力。
昆仑万维旗下Star Group和Opera都具备做短视频的土壤,其中Opera在海外已经推出了短视频功能。此外,昆仑万维天工大模型在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评中,综合得分排名第一。
专业智能视频解决方案与视频云服务提供商当虹科技拥有自研的AIGC工具集,于去年上半年发布以静态照片生成三维体积视频的方案。
当虹科技1月5日互动平台表示,公司拥有自研的AIGC工具集,发布了以静态照片生成三维体积视频的方案,并且通过点云模型转换及压缩算法实现高达800倍的视觉无损压缩,实现不同模态之间相互切换。
因赛集团旗下InsightGPT目前可生成20秒以上的视频,能够结合图像、视频大模型,融合抠图等多种算法,再结合音频模型,整体渲染后最终合成完整视频。
据不完全统计,包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信、神思电子、因赛集团、拓尔思、国脉文化、佳都科技在内的超10家A股上市公司近三个月以来在互动平台披露视频生成模型领域的业务情况。(思维财经出品)■
OpenAI