首页
> 视野
> 干货·观察

让自动驾驶「再次伟大」，Sora有这个本事吗？

2024-02-26 网络

图片来源@视觉中国

文 | 电车通

2024年2月16日，OpenAI宣布推出生成式人工智能模型Sora，外界认为，这是AI视频生成的全新里程碑时刻。

仅需只言片语，Sora就可以给你输出一段最长60秒的视频，并且能够全程保持高度的流畅性与稳定性，实现了对Runway、Stable Video、Pika等生成式AI的超越。值得一提的是，Sora还能够根据静态图像扩展成一段视频或补充缺失的动态帧。

这几天，整个世界都在围绕着AI旋转，更先进的生成式AI出现，有人欢喜有人忧。

OpenAI将Sora定位为模拟世界的视频生成模型，它的特性包含精确理解文本命令，生成长达60秒的高质量视频、模拟真实世界的物理规则，比如光影反射、运动方式、物理效果等、能够在单个视频当中生成同一对象的多个镜头，并且保持对象外观的高度一致。

这就意味着AI生成的视频距离「以假乱真」又近了一步。

另外，谷歌还宣布了下一代大模型Gemini 1.5 Pro，将上下文窗口长度扩展到100万个tokens，意味着它可以在短时间一次性处理巨量信息，比如11小时音频、一小时视频、超过3万行代码，又或者是超70万个单词。生成式AI在进步，AI大模型的学习能力同样在突飞猛进。

真赋能也好，蹭热度也罢，一时间整个行业都在围着AI转，也在开始认真思考，更先进的AI技术能够为他们带来什么不一样的应用场景。

站在汽车行业的角度，Sora等更超前的大模型，好像又有一些别样的玩法。

视频全靠「算」，车企的宣发费用全省了？

不久前，深蓝汽车更新了一条用AI生成的G318新车视频，视频中罗列了一系列AI「想象中」的G318，表示将借助Sora的能力，「拍摄」一段G318的新车视频，并抛出一个疑问——AI真的能拍出G318的美吗？

能不能「拍」出来暂且不得而知，截至本文发布时，深蓝汽车还未公布Sora眼中的G318究竟如何。但放眼汽车行业，尝试用大模型生成汽车视频的企业，确实屈指可数。小通还是很期待，AI的生成质量，能否跟现有的专业拍摄工作流媲美。

车企的宣发工作十分频繁，为了造势吸引流量，测试车都不惜拿出来曝光。以深蓝G318为例，正式预热之前，官方已经发布多条曝光视频。不过这款车型已经通过工信部公示，距离上市不会太远。

宣发视频不像简单的海报宣传，涉及拍摄和动画制作等领域，品牌方还需要外包给专业的团队来完成。一段视频从前期拍摄到后期合成处理，周期长，外包制作的成本也不低。但为了呈现尽可能好的「官方」效果，这些是车企宣发必须付出的成本。

如果能够凭借Sora的能力和想象力打造一段媲美实拍的宣发视频，那么AI可以说是对现有工作流的一种「打压」了。仅靠文字和图片，Sora就能生成一段可用的宣发视频，省去一大笔外包费用，还缩短了物料交付的时间，我们似乎通过Sora看到了AI视频商用化的可能性。

当然，或许以后车企的新车官图，都可以用AI来解决了，场景合成效果可以做得更逼真，还省去了前期拍摄和后期的成本。

但问题就在于，Sora生成的视频并非完美，无法准确判断常见的物理运动轨迹，主体与周围物体之间的比例还有提升空间，物体运镜连贯性有待提高。总体而言，Sora生成的视频确实足够流畅逼真，但以现在的水平还无法完全取代专业团队的生产流程。

生产流的工作或许有一天会被AI取代，但人类的创意潜力是无穷的，这是人类与AI区别最大的地方。

不过，小通认为Sora的想象力不应该止步于艺术创作当中。作为真正意义上的「世界模型」，Sora认知世界的能力，在高阶辅助驾驶以及未来的自动驾驶当中发挥更多作用。

智能汽车需要Sora，但人类仍是「主角」

OpenAI表示，Sora在训练当中表现出了与其它模型不同的涌现能力，通过涌现学习到了物品的时间与空间的相关性，以及与周围世界互动的能力等。简单来说，Sora不单止是拥有感知世界运行法则的能力，它还可以判断不同事物之间的关系，拥有发散思考的技能。

智能汽车当中的智能驾驶能力也是训练AI模型得出的结果。当前汽车智能驾驶分为感知、定位、决策、规划、控制几个模块，每个部分紧密配合，最终实现精确的智能驾驶。智能驾驶的不同模块，目前都需要单独训练，训练量庞大，研发人员要通过不断地「喂数据」优化迭代，所带来的沉没成本自然巨大。

360董事长周鸿祎认为，原来的自动驾驶技术过于强调感知层面，而没有工作在认知层面。人在驾驶汽车的时候，很多判断都是基于对这个世界的理解，比如对方的速度、会否发生碰撞、碰撞的严重性如何。这就是当前智能驾驶与真人司机之间的区别。

但Sora对世界的感知和交互能力，并不是单纯的数据堆叠就能实现的。想要提高自动驾驶的研发和运行效率，人为优化迭代是必须，更重要的还是要让AI具备自主发散，缩短迭代周期，将交互能力赋能到现有的智驾模型当中，更接近人类的驾驶体验或许就此诞生。

此外，支撑计算的算力芯片，光是智能座舱、智能驾驶就需要多块单独的高性能SoC支撑，集中化程度欠缺，整车成本也下不来。无论是算力平台还是模块都趋向集中化和一体化，智能驾驶或许就不再分成多个模块，而是将其当作一个整体。

再到智能底盘领域，有些车企开发出了路面预判能力，通过提前建模判断路况，实时调整底盘工作状态。当前的工作模式还是先建模后再决策，本身存在一定的时间和过程，有时候并不能够像人类司机一样判断及时判断。

这一切，有了Sora的加入之后，智驾技术和智能座舱就能够跳出传统的训练模式。试想一下，如果Sora自己生成模拟现实世界的视频，再用来训练自动驾驶的能力，说不定比车企不断收集道路数据和视频训练来得更快，而且Sora的交互能力还有机会影响到现有的自动驾驶模型。

AI「生米煮成熟饭」，挑战与机遇并存

我们的想象力总会比AI更快一步，这就说明人类还无法完全被AI所替代。

现阶段的AI在各行各业表现出了令人意外的能力，大模型的出现更为企业提供了更多可能。不过我们对AI的态度或许不应该过于乐观，AI还没走到最关键的商业化层面，很显然人类仍然是这个世界绝对的「主角」。

对于汽车行业而言，机遇和挑战并存，AI的崛起为车企带来了降本增效的新突破口，但AI的潜力上限尚不可预知，当前的应用场景也不能代表AI的全部，想要完全利用，不是一件简单的事。

就好比智能手机的影像传感器，还没被打磨完成，就已经被厂商抛弃，造成浪费。

同时，要支撑庞大的AI运算和数据积累，车企的投入完全看不到底，比如头部厂商需要建立自己的数据中心。另外，先进大模型确实有利于汽车智能化发展，但这并不意味着车企能够高枕无忧，在算法投入上，车企之间的智能驾驶开发程度上仍然存在明显代查，模块化的智驾技术还没玩透，头部的端到端等潜在新赛道更是难以跟上。

到最后，AI变成了巨头提升自身水平的「专属武器」，前者的能力越强，很可能会拉大不同厂商之间的代际差别，使得汽车行业头部化来得更猛烈。

无论如何，Sora的潜力值得期待，不过这需要时间去发掘，谁也不敢保证AI接下来还能厉害到什么地步。

为您传递最新政策、行业资讯、干货分享，不妨来充个电吧

让自动驾驶「再次伟大」，Sora有这个本事吗？