海创云视野

为您传递最新政策、行业资讯、干货分享,不妨来充个电吧

让自动驾驶「再次伟大」,Sora有这个本事吗?

2024-02-26                 网络

图片来源@视觉中国

文 | 电车通

2024年2月16日,OpenAI宣布推出生成式人工智能模型Sora,外界认为,这是AI视频生成的全新里程碑时刻。

仅需只言片语,Sora就可以给你输出一段最长60秒的视频,并且能够全程保持高度的流畅性与稳定性,实现了对Runway、Stable Video、Pika等生成式AI的超越。值得一提的是,Sora还能够根据静态图像扩展成一段视频或补充缺失的动态帧。

这几天,整个世界都在围绕着AI旋转,更先进的生成式AI出现,有人欢喜有人忧。

OpenAI将Sora定位为模拟世界的视频生成模型,它的特性包含精确理解文本命令,生成长达60秒的高质量视频、模拟真实世界的物理规则,比如光影反射、运动方式、物理效果等、能够在单个视频当中生成同一对象的多个镜头,并且保持对象外观的高度一致。

这就意味着AI生成的视频距离「以假乱真」又近了一步。

另外,谷歌还宣布了下一代大模型Gemini 1.5 Pro,将上下文窗口长度扩展到100万个tokens,意味着它可以在短时间一次性处理巨量信息,比如11小时音频、一小时视频、超过3万行代码,又或者是超70万个单词。生成式AI在进步,AI大模型的学习能力同样在突飞猛进。

真赋能也好,蹭热度也罢,一时间整个行业都在围着AI转,也在开始认真思考,更先进的AI技术能够为他们带来什么不一样的应用场景。

站在汽车行业的角度,Sora等更超前的大模型,好像又有一些别样的玩法。

视频全靠「算」,车企的宣发费用全省了?

不久前,深蓝汽车更新了一条用AI生成的G318新车视频,视频中罗列了一系列AI「想象中」的G318,表示将借助Sora的能力,「拍摄」一段G318的新车视频,并抛出一个疑问——AI真的能拍出G318的美吗?

能不能「拍」出来暂且不得而知,截至本文发布时,深蓝汽车还未公布Sora眼中的G318究竟如何。但放眼汽车行业,尝试用大模型生成汽车视频的企业,确实屈指可数。小通还是很期待,AI的生成质量,能否跟现有的专业拍摄工作流媲美。

车企的宣发工作十分频繁,为了造势吸引流量,测试车都不惜拿出来曝光。以深蓝G318为例,正式预热之前,官方已经发布多条曝光视频。不过这款车型已经通过工信部公示,距离上市不会太远。

宣发视频不像简单的海报宣传,涉及拍摄和动画制作等领域,品牌方还需要外包给专业的团队来完成。一段视频从前期拍摄到后期合成处理,周期长,外包制作的成本也不低。但为了呈现尽可能好的「官方」效果,这些是车企宣发必须付出的成本。

如果能够凭借Sora的能力和想象力打造一段媲美实拍的宣发视频,那么AI可以说是对现有工作流的一种「打压」了。仅靠文字和图片,Sora就能生成一段可用的宣发视频,省去一大笔外包费用,还缩短了物料交付的时间,我们似乎通过Sora看到了AI视频商用化的可能性。

当然,或许以后车企的新车官图,都可以用AI来解决了,场景合成效果可以做得更逼真,还省去了前期拍摄和后期的成本。

但问题就在于,Sora生成的视频并非完美,无法准确判断常见的物理运动轨迹,主体与周围物体之间的比例还有提升空间,物体运镜连贯性有待提高。总体而言,Sora生成的视频确实足够流畅逼真,但以现在的水平还无法完全取代专业团队的生产流程。

生产流的工作或许有一天会被AI取代,但人类的创意潜力是无穷的,这是人类与AI区别最大的地方。

不过,小通认为Sora的想象力不应该止步于艺术创作当中。作为真正意义上的「世界模型」,Sora认知世界的能力,在高阶辅助驾驶以及未来的自动驾驶当中发挥更多作用。

智能汽车需要Sora,但人类仍是「主角」

OpenAI表示,Sora在训练当中表现出了与其它模型不同的涌现能力,通过涌现学习到了物品的时间与空间的相关性,以及与周围世界互动的能力等。简单来说,Sora不单止是拥有感知世界运行法则的能力,它还可以判断不同事物之间的关系,拥有发散思考的技能。

智能汽车当中的智能驾驶能力也是训练AI模型得出的结果。当前汽车智能驾驶分为感知、定位、决策、规划、控制几个模块,每个部分紧密配合,最终实现精确的智能驾驶。智能驾驶的不同模块,目前都需要单独训练,训练量庞大,研发人员要通过不断地「喂数据」优化迭代,所带来的沉没成本自然巨大。

360董事长周鸿祎认为,原来的自动驾驶技术过于强调感知层面,而没有工作在认知层面。人在驾驶汽车的时候,很多判断都是基于对这个世界的理解,比如对方的速度、会否发生碰撞、碰撞的严重性如何。这就是当前智能驾驶与真人司机之间的区别。

但Sora对世界的感知和交互能力,并不是单纯的数据堆叠就能实现的。想要提高自动驾驶的研发和运行效率,人为优化迭代是必须,更重要的还是要让AI具备自主发散,缩短迭代周期,将交互能力赋能到现有的智驾模型当中,更接近人类的驾驶体验或许就此诞生。

此外,支撑计算的算力芯片,光是智能座舱、智能驾驶就需要多块单独的高性能SoC支撑,集中化程度欠缺,整车成本也下不来。无论是算力平台还是模块都趋向集中化和一体化,智能驾驶或许就不再分成多个模块,而是将其当作一个整体。

再到智能底盘领域,有些车企开发出了路面预判能力,通过提前建模判断路况,实时调整底盘工作状态。当前的工作模式还是先建模后再决策,本身存在一定的时间和过程,有时候并不能够像人类司机一样判断及时判断。

这一切,有了Sora的加入之后,智驾技术和智能座舱就能够跳出传统的训练模式。试想一下,如果Sora自己生成模拟现实世界的视频,再用来训练自动驾驶的能力,说不定比车企不断收集道路数据和视频训练来得更快,而且Sora的交互能力还有机会影响到现有的自动驾驶模型。

AI「生米煮成熟饭」,挑战与机遇并存

我们的想象力总会比AI更快一步,这就说明人类还无法完全被AI所替代。

现阶段的AI在各行各业表现出了令人意外的能力,大模型的出现更为企业提供了更多可能。不过我们对AI的态度或许不应该过于乐观,AI还没走到最关键的商业化层面,很显然人类仍然是这个世界绝对的「主角」。

对于汽车行业而言,机遇和挑战并存,AI的崛起为车企带来了降本增效的新突破口,但AI的潜力上限尚不可预知,当前的应用场景也不能代表AI的全部,想要完全利用,不是一件简单的事。

就好比智能手机的影像传感器,还没被打磨完成,就已经被厂商抛弃,造成浪费。

同时,要支撑庞大的AI运算和数据积累,车企的投入完全看不到底,比如头部厂商需要建立自己的数据中心。另外,先进大模型确实有利于汽车智能化发展,但这并不意味着车企能够高枕无忧,在算法投入上,车企之间的智能驾驶开发程度上仍然存在明显代查,模块化的智驾技术还没玩透,头部的端到端等潜在新赛道更是难以跟上。

到最后,AI变成了巨头提升自身水平的「专属武器」,前者的能力越强,很可能会拉大不同厂商之间的代际差别,使得汽车行业头部化来得更猛烈。

无论如何,Sora的潜力值得期待,不过这需要时间去发掘,谁也不敢保证AI接下来还能厉害到什么地步。