撰文| 吴坤谚 吴先之
编辑| 王 潘
拨开互联网春晚这道“屏风”,我们可以看到中国云计算技术发展的清晰脉络。
作为中文世界的超级IP与流量洪峰,春晚互动自2015年起便成为大厂争夺的流量战场。在巨大流量之下,互联网春晚也是一次对互联网后台技术保障的大考。
互联网春晚开始的头几年恰是云计算方兴未艾之时,那是一个后台保障全靠人力与物力堆砌,硬抗的时代。面对春晚互动十亿量级的流量冲击,能做的无非是在服务器集群基础上扩容,拉上数百人规模的运维团队,时刻紧盯系统水位,腾挪计算资源。即便如此,宕机事故仍无法完全杜绝。
如果说,拼资源做加法是春晚保障的上半场,那么,降成本做减法就是春晚保障的下半场。随着分布式、自动化、高弹性云计算架构的日益形成,中国云计算思维方式,也从升维走向降维——资源与人力的多寡不再是玩家们“亮剑”的重点,外部经济环境的压力与提高竞争力的内驱力推动技术降本增效成为业界主流叙事。
这对2024年央视春晚互动合作伙伴京东来说尤为重要,其在龙年春晚既要发放30亿红包,又要派送1亿好物,还要确保年货供应链服务履约。这样联动旗下几乎所有业务矩阵的打法,明显指向京东主打的低价心智。
为了充分挖掘春晚的商业价值,从技术维度出发的基础设施降本是实现其低价的关键一环。尽可能降本增效亦成为京东的必选题。
或因如此,我们看到京东今年不仅未在春晚保障中堆砌资源,还要将整体资源成本下降50%。这不仅是对技术的挑战,更是对团队智慧和创新能力的考验。
数据显示,春晚当天,全球华人参与京东系应用累计互动量达552亿次。减少资源的动作看似兵行险招,实则体现了京东云独有的核心技术优势,折射了春晚保障从“拼阵仗”到“拼效率”,从硬抗到“智抗”的数智进化。
按图索骥,中国云计算力量历经9年互联网春晚的锻打,由互联网技术力量构建的“中国式超越”也在日渐形成。在外部环境愈发复杂,逆全球化浪潮不时袭来的当下,中国云厂商的商业理性和技术自信无疑更具现实意义。
技术降本的关键时刻
回顾历年春晚互动合作,让各玩家如临大敌的当属规模堪称中文互联网之最的并发流量。
例如2024年春晚互动,京东发出的红包总额加码至30亿元,更大的互动奖池意味着更大规模的互动流量,数以十亿计的流量压力,无疑全方位考察团队的技术保障能力。
另一方面,本次春晚互动明显有别于往年:京东云既要支撑春晚红包与抽奖互动,扛住高并发流量,又需要保障业务体系内的电商购物和履约能力——多场景均会出现流量高峰,算力调度需要做到高频甚至实时切换,技术挑战极大。
对此,京东云给出的解法是业内首个混合云操作系统云舰。
数年前,京东在大促时发现云上痛点,催生了云舰。彼时的京东虽已打造出适配自身的公有云及同源同栈的私有云,但二者的底层架构却有所差别。计算资源的调度先天需要跨越架构差异所形成的障壁,最初打通两朵云的解决方案便是云舰系统的“雏形”。
而后,京东自底层向上重构技术栈与调度系统,云舰才真正具备实战能力。广为外部感知的第一场战役便是2022年春晚互动。彼时,天生善于处理复杂场景计算资源调度的云舰“小试牛刀”。
数据显示,2022年全球华人参与京东APP累计互动量达691亿次,京东物流的“全年不打烊寄递服务”范围达全国200多个城市。这背后是春晚互动项目有近600个需求要被快速拆分,3000多个任务要被有效跟踪,保证600多个上下游系统快速交付,数百万核资源快速扩缩容。
京东如何做到混合复杂场景中的算力资源调度?答案藏在云舰系统的自研调度算法中,通过管理虚拟机的方式管理容器化的业务集群,实时监测服务器CPU利用率,进行秒级分配与调度。
时间来到2024年,云舰的精细化管理与调度能力在京东云拓展的交通、零售、物流、能源等多个产业集群中持续迭代。不同产业有各自逻辑,在实践中又产生了新问题,首当其冲的是不同业务之间为算力“打架”。
要知道,即使是我们平日接触到的PC,在面对多项任务同时进行、CPU使用率过高的情况时,也极易引发系统性能不稳定,遑论离线混布的计算集群。
而云舰自虎年保障以来,其混部集群的规模和应用数量增加3-4倍,云舰可调度资源随之大幅增长。更重要的是,迭代的调度算法可以无视传统模式下的CPU时间片,将服务器之间的干扰率由5%降为1%。
当业务之间基本不用再为计算资源相互掐架,高优先级业务自然能更迅速抢占算力。这一突破的直观反映是GPU性能利用率的大幅提升——京东云混部计算集群的 CPU 整体利用率控制在60%左右,而业界的 CPU 整体利用率却大多在40%和50%之间徘徊。
自京东自身业务来看,以云舰为代表的云上创新逐渐向体系内其他业务迁移,围绕降本增效主题的“挤水分”革命让供应链的成本效率得以持续优化,为京东体系内如零售、物流、金融等板块挤出更多利润空间,为“低价”的发展战略积蓄势能。
将视域放宽至整个行业,云舰这样的混合多云部署与调度能力的重要性亦在凸显。过去一年我们见过不少因云计算IaaS层的种种故障带来的宕机事故,业内对下云自建与多云部署的呼声愈发高涨。何况单一云架构还将面临议价能力低、业务依赖性高等次生问题。
需要肯定的是,多云混合的技术基底一定程度上展现了京东云内生的前瞻性。另一方面,我们也可由此一窥京东在本次春晚保障中,减少服务器的“自虐”式行为的底气所在。
“临摹”流量:从被动应战到主动挑战
“在我们一贯对用户极致体验的追求和海内外用户的大规模互动下,我们二次筹备春晚保障的挑战不能说不大”,京东零售技术负责人表示,“但相比虎年,龙年的我们明显更从容了”。
当我们进一步问及京东从容在哪,他首先提到的是龙年春晚的流量预估,“我们从原来的半自动化方式演变成现在的全自动化,相比虎年的时候更精准、更灵活了”。
应对大流量并发场景的解决方案往往一体两面,除了算力调配外,更重要的是对不同时刻的流量峰值预估。如果说购物大促的流量峰值往往出现在用户集中结算自己购物车的开门红时刻,那么历届春晚红包互动的流量峰值便出现在主持人每一轮红包口令口播时。
届时,全球各地的互动流量将瞬间飙至数亿级别,系统压力陡增。即使服务器紧急扩容数倍,这种高频的脉冲式洪峰也极难仅凭人力来疏导,互联网春晚早期所遭遇的宕机事故大多源自于此。
就像外科医生做手术前,需要精准临摹病情,拟定方案,以便实施手术。业内并非不知道流量预测的重要性,往年参与者都会根据口播红包口令的时间节点绘制流量地图。
只是过去的流量地图的绘制缺乏精度,不仅难以cover多轮洪峰的全局,而且容易在首轮峰值预测错误的情况下“满盘皆输”,给保障带来的帮助有限。比如2018年,淘宝春晚项目组就曾慨叹,“我们对春晚的力量一无所知”。
反观京东保障的龙年春晚,AI大模型以一个新的历史性变量的身份参与其中。
春晚保障流量预测的两大痛点在于精度与敏捷响应。我们了解到,京东通过分析历史数据和虎年春晚保障经验,从数千个数据维度预测并绘制流量地图,预测准确率达到了95%。应对流量冲击时,大模型能自动调整了后续几轮的红包策略,确保流量平稳分配,更高效地服务零售、物流与整体供应链的运营。
此外,AI大模型还可以依据流量大小、用户访问轮次分布,以无代码形式生成用户权益策略,如春晚互动中的1亿好物的用户权益策略。运营人员基于交互式策略画布,在5分钟内无代码生成大型晚会的用户权益并上线,这相当于5个工程师用写代码的形式,连续工作100个小时,灵活性和策略的上线效率大幅度提升。
归根结底,AI大模型的出现已经开始深入改变我们所熟知的业务范式,而模型化的预测功能仅是大模型与AI能力深入千行百业的一隅。在大模型寻找合适“落脚点”的当下,行业仍在等待有足够深度与新意的AI应用方式的出现。
大模型:举重若轻的操盘手
2023年,大模型激起千层浪,为云计算打开了一片新天地。自去年初至今,云厂商们接连入局,纷纷交出属于自己的大模型答卷。
云与大模型的耦合并不令人意外。
云计算中占比最重的IaaS板块已经实现规模化,上云本身已不具备稀缺性,这意味着同质化、内卷、价格战的时代到来。而刚需算力、存储能力与分布式计算环境的大模型不仅提供了新的算力需求,更是为云厂商的服务提供了新的载体。
然而就落地情况来看,国内的模型底座的能力竞争尚不明朗,能率先构建竞争力甚至护城河的,是各家应用AI大模型的产业深度。针对这一点,我们在京东云前后两次春晚保障的对比中窥得一二。
据悉,京东云为备战春晚保障,推出了春晚保障Agent“AI指挥官”。它通过大模型等新一代人工智能技术,连接多个系统数据,拆分出若干关键环节,将春晚保障工作及相应系统统筹起来并跟进进度,使春晚保障效率提升30%,成本降低50%。
作为一个去年下半年才逐渐进入主流语境的应用范式,Agent于云厂商而言像是一块商业化“无人区”。以AI指挥官为例,京东打开始起就给指挥官布置了“以己之矛攻己之盾”,通过自我对抗而持续迭代的能力。
如此便不得不提京东本次在春晚互动上的创新玩法——不登录抢红包。
众所周知,不登录即可参与活动为用户提供了匿名性和便利性,同时也让系统难以区分正常用户和恶意攻击者,使系统遭受攻击的可能大大提高。而DDos这样的自动化攻击可以迅速消耗服务器资源,导致正常用户无法访问服务。
AI指挥官的第一战是在安全大模型模拟匿名环境下对系统发起DDos攻击。防守端,京东云安全大模型在分辨攻击者与用户的同时,为安全运营提供辅助决策核心信息,包括告警涉及的攻击手法、预测攻击链路、以及防护策略等,最后根据系统个性化防御组件能力,一键生成防护意见。
模拟攻防演练、预测攻击与给出策略等功能分别对应了Agent对某个任务目标的拆解、执行与自我学习。从京东在龙年春晚的战果来看,其对Agent的应用无疑是成功的。深入云计算技术栈肌理的AI能力不仅为春晚互动保障了新玩法,同时推动了云计算解决方案的迭代。
当然,安全大模型也仅是京东云技术栈中的一环,面对春晚保障的宏大目标,Agent的能力更多地体现在玩家们必须经历的春晚全链路压测上,考题也自DDos攻击延伸至更宽泛的云算力层面。
京东云为此研发了集成ForceBot全链路军演机器人和故障分析大模型的泰山平台,将Agent的能力引入传统的系统压测中。
京东方面提到,“如果说ForceBot像是制造问题的高手,那么故障分析大模型就是解决问题的高手。”在压测中,ForceBot可以轻松模拟千万量级的流量,对压测系统形成高并发压力。而压测过程中发现的问题则通过故障分析大模型解决。
故障分析大模型在压测期间承担故障诊断、故障分析、故障记录等工作。借助故障大模型的支持,压测平台的监控工具实时收集系统性能指标以确定故障的具体位置;分析日志文件,找出异常行为或错误信息,快速定位并解决问题。
与此前的DDos攻击相比,全链路压测虽然同样采用内部攻防模式,但涉及的技术栈与信息数据则不可同日而语。这背后是云计算行业因循的规模化逻辑,正如IaaS层能力的规模化推动云计算行业走上盈利正轨,Agent能力应用的规模化亦昭示京东云的大模型能力迈出商业化脚步。
据悉,2022年京东内部足足进行7次压测方有把握做好春晚保障,而今年的京东却只需要2-3次即可,这也自侧面佐证了京东的AI技术能力。AI指挥官像一个举重若轻的操盘手,助推京东云的计算资源调度与分布进入自动化时代。
春晚背后的“中国式”超越
一年一度的春晚是承载着中国乃至华人的文化记忆的载体,那么互联网春晚亦是技术记忆的载体。
即使“摇一摇”与“集五福”后,业内外对互联网春晚的关注往往集中于互动操盘手是否曾打破陈规并建立新路径,但更具现实意义的是中国云计算行业在保障中文世界流量洪峰时的技术演变。我们从龙年春晚保障可以看到,巨头面对春晚这个“名利场”的求变之心正在从表层的玩法,过渡到深层的技术创新上。
打破陈规往往需要 “中国式超越”。
所谓的“中国式超越”,体现在技术应用的广泛范围和深入程度上的双维扩展,这种“坐标轴”的全方位发展展现了一种极致的工程化水平。京东云在春晚这一“高并发+超复杂场景”的挑战中,两次成功验证了自己标准化保障方法论的有效性,其技术应用的普适性和可复制性显然很高,能够迅速适用于更多场景,实现质量提升、成本降低和效率增强。
工程化之下的暗线是中国企业过去十年的数字化向数智化过渡。单从保障这一维度看,京东云的行业创新在于从拼资源堆人力到搞架构写算法,计算资源在智能化的保障架构下得以被解放。
保障维度之外,京东在春晚互动的APP“新春爆品楼层”中引入专属模型,个性化推荐从过去的“千人千面”升级为“千人千模”,京东长期秉承的“用户极致体验”得以更进一步。另一方面,玲珑、领航者、京小智、言犀数字人等多款AI经营工具的出现也将智能化的轻风吹向商家侧。
正如埃弗雷特·罗杰斯曾提出创新扩散理论,智能化的普及推广也是由点至面的过程。而“中国式超越”的出现与成熟意味着云计算行业乃至AI赛道的创新已行至一道关键分水岭,身后是单点突破,身前则是全面智能化的序幕。
9年互联网春晚,10年中国云计算。时至今日,云计算终于有底气与高铁、5G网络、供应链等并行,共同上演一个个从追随到并行再到超越的中国故事。
上下滑动阅览
微信号|TMTweb
公众号|光子星球
别忘了扫码关注我们!