Terra:自动驾驶基础世界模型

2024年6月8日
pxiaoer
 pxiaoer
JoinAI Terra博客文章头图插画,标题为‘terra:自动驾驶基础世界模型’的头图插画,描绘了一名人类探索者在变幻莫测的数据海洋中的形象,象征着通过Terra模型在自动驾驶基础世界中导航的旅程。

写在前面

Terra是JoinAI正在研发的面向自动驾驶领域的基础世界模型,它可为自动驾驶模型提供高质量多样化的数据生成,包括生成现实世界采集很难采集的长尾数据。本文,将从自动驾驶和端到端驾驶相关背景和发展开始,介绍Terra模型的设计思路以及Terra能为自动驾驶带来什么,希望你喜欢。

自动驾驶背景介绍

自动驾驶技术在过去几年取得了长足的进步。从最初的辅助驾驶系统,到如今的高级自动驾驶功能,这项技术正在朝着完全自动驾驶的目标稳步前进。在这个过程中,深度学习发挥了关键作用,特别是近年来大模型的兴起,为自动驾驶带来了新的发展方向。

回顾自动驾驶技术的演进历程,我们可以看到几个重要的技术里程碑:

  • 2022年是BEV(鸟瞰视图)技术的应用年,通过模拟从正上方垂直向下观看的效果,简化了车辆对周围环境的感知和理解。
  • 2023年则是OCC(占用网络)开始在城市场景中应用的一年,这项技术将世界划分为微小的立方体或体素,预测每个体素是否被占用,从而提供更精确的物体形状信息,有助于车辆理解复杂场景并避免碰撞。
  • 2024年,业界预计将迎来端到端大模型的应用,即所有模块神经网络化,将原始数据直接输入神经网络系统,由模型系统直接输出驾驶指令。

特斯拉FSD的技术发展

在自动驾驶发展趋势中,特斯拉一直走在前列。从2021年开始,特斯拉就在不断简化其自动驾驶系统的架构,追求"用更简单、通用、低成本的架构,实现更强的可拓展性"。2021年,特斯拉推出了基于Transformer的BEV技术,将8个摄像头的信息在一个Transformer backbone下处理,解决了纯BEV视角由于图像拼接导致的信息缺失问题。2022年,为了进一步解决物体高度和遮挡等问题,特斯拉引入了占用网络技术。

2023年初,特斯拉开始探索更加端到端的自动驾驶方案。他们认为,如果给自动驾驶系统提供足够多的数据,是否能够训练出具备泛化能力的基础模型,从而处理所有场景?基于这一思路,特斯拉开始尝试用神经网络替代更多的规则,并进一步简化模型架构。

目前,特斯拉最新的FSD Beta V12.3版本已经在向完全端到端的方向迈进。虽然具体架构细节尚未公开,但业内普遍认为,相比早期版本,V12系列在感知、预测、规划等模块中更多地使用了神经网络来取代规则。特斯拉的目标是实现"感知、预测、规划统一骨干网络,更彻底端到端"的架构。

世界模型的加入

特斯拉也在积极探索"世界模型"的应用,特斯拉对世界模型的定义是"能够理解和预测现实世界中各种复杂情况的通用模型"。Yann LeCun则认为世界模型是离AGI更近的模型,真正的人工智能系统应该能够学习世界如何运作,并基于这种理解来预测和生成内容。

论文World Models上的世界模型结构图
论文World Models上的世界模型结构图

在2023年的CVPR大会上,特斯拉的研究人员介绍了他们在世界模型方面的探索。他们认为,占用网络技术是构建世界模型的重要基础,而世界模型不仅可以用于自动驾驶,还可以应用于机器人等领域。特斯拉正在研发的端到端生成模型,被描述为一种能够理解和预测现实世界中各种复杂情况的通用模型。

从公开信息来看,特斯拉构建世界模型用到了他们的数据飞轮,并提到了,世界模型改进了corner case数据、人与模型决策有差异的数据。

多模态大模型的加入

与此同时,OpenAI等公司在多模态大模型领域的突破,也为自动驾驶技术的发展带来了新的思路。

OpenAI发布的Sora模型展示了AI在视频生成方面的惊人能力,这种技术有可能应用于自动驾驶场景的模拟和预测。

OpenAI Sora生成的样例
OpenAI Sora生成的样例

然而,Sora目前在理解和模拟物理世界运动规律方面还存在一些局限性,这也反映出了当前AI模型在完全理解和模拟现实世界方面的挑战。不过,OpenAI还通过投资Figure等具身智能公司来获得足够的数据,想用更好的多模态大模型来提高物理世界的模拟和理解能力。

马斯克的xAI发布的Grok-1.5V也被认为会参与特斯拉端到端自动驾驶系统的研发,大模型驱动的端到端智驾则更聪明更强大的方案,期待多模态大模型给智驾系统提供更强的推理能力,决策能力和交互能力。

xAI grok-1.5v 官网的例子
xAI grok-1.5v 官网的例子

自动驾驶的未来趋势

和特斯拉路线研究端到端智驾模型类似的还有一家英国自动驾驶公司Wayve,他们在端到端和具身智能研究算比较深入。

两家公司都试图通过模型来结构化表示事物并预测未来,将自动驾驶决策问题转化为预测视频的下一帧。

Wayve的GAIA-1 使用Transformer+世界模型架构,基于过去的图像、文本和动作标记来预测下一个图像标记。而特斯拉虽然没有公布具体的模型架构,但从其招聘信息可以看出,他们正在探索包括扩散模型、VAE、自回归模型和GAN在内的多种生成模型架构。

Wayve GAIA-1模型架构
Wayve GAIA-1模型架构

最近Wayve还公布了他们的4D场景重建模型PRISM-1,加上去年公布的多模态智驾大模型LINGO-2和数据生成世界模型GAIA-1,串起来他们整个数据驱动的端到端智驾的方案。

Wayve PRISM-1 演示
Wayve PRISM-1 演示

Wayve PRISM-1 视频演示

目前自动驾驶技术的发展可能会沿着两条并行的路径:

  • 像OpenAI这样的公司继续推进多模态基础模型的研发,提升AI对世界的理解和模拟能力
  • 像特斯拉这样的自动驾驶公司,利用其在实际道路环境中积累的海量数据,开发更加垂直的世界模型和端到端自动驾驶系统

这两条路径的交叉和融合,可能会带来自动驾驶技术的质的飞跃。就目前的状态来讲,特斯拉确实是走在了前面。

自动驾驶的挑战

尽管自动驾驶技术有了大的发展, 完全自动驾驶仍然面临诸多挑战。

首先是数据的问题,尽管特斯拉等公司拥有大量的实际道路数据,但如何有效地利用这些数据来训练智驾模型仍是一个复杂的问题。

端到端模型对高质量数据的需求是非常强烈的,最主要的需求就是高质量的视频数据,包括了各种长尾场景数据,像逆向的车辆,横穿的机动车,鬼探头行人,恶劣的天气等。 长尾数据在现实数据采集难度大,大部分厂商还在依赖传统仿真来获得部分数据。

其次,如何保证模型的可解释性和安全性也是一个重要问题,特别是在完全端到端的系统中,如何确保AI的决策过程是可理解和可控的。

此外,法律和伦理方面的问题也需要解决,比如在紧急情况下AI应该如何做出决策,以及当事故发生时如何界定责任等。

Terra 出现的初衷

自动驾驶系统的训练和测试都需要大量的数据,然而真实世界的数据采集成本高、周期长,且难以覆盖所有的场景。因此,JoinAI从一开始就在探索使用数据生成的方法来获取更多更多样化的数据。

随着GenAI的发展,我们选择了融合两条路径的做法,采用transformer+diffusion+world model的架构训练Terra来为自动驾驶模型提供合成数据,后续我们也测试了为机器人,工业视觉等领域生成数据,都得到了很好的效果。

Terra-1 模型介绍

Terra-1是一种基础世界模型,专门为自动驾驶领域生成高质量的合成数据。它由两个核心模块组成:Diffusion-Transformer模块负责生成高质量图像数据,世界模型模块用于模拟环境动态和物理规则。Terra-1能够生成视觉和物理上高度真实的驾驶环境和场景。

Terra-1 模型结构图
Terra-1 模型结构图

Terra-1 能做什么

Terra-1主要为自动驾驶系统生成高质量、高效率的训练和测试数据,主要是模拟复杂的驾驶环境,包括交通流、天气条件、道路类型等,生成罕见或极端情况下的驾驶场景数据。

2024年Q2 Terra-1 效果
2024年Q2 Terra-1 效果

2024年Q2 Terra-1 视频效果

Terra-1这种纯模型的训练数据生成,这不仅能显著降低数据采集的成本和难度,还能创造更加多样化和极端的场景,从而提升模型的鲁棒性。

Terra-1 带来了什么

Terra-1技术在自动驾驶领域展现出巨大的潜力和应用前景。它通过降低数据采集的成本和时间,为自动驾驶系统提供了一种经济高效的解决方案。这种技术不仅能够提升系统的性能,还能增强其安全性,这对于自动驾驶车辆在复杂交通环境中的稳定运行至关重要。

Terra-1的应用范围广泛,包括场景理解、风险评估和仿真测试等关键任务。这些任务对于自动驾驶车辆正确理解周围环境、预测潜在风险以及在模拟环境中进行测试和验证至关重要。随着端到端的发展,对高质量合成数据的需求也会不断增长,Terra-1能够为端到端系统提供这些数据,支持自动驾驶系统的持续优化和改进。

展望未来,随着Terra模型的迭代,Terra可以作为基础世界模型存在,不仅在自动驾驶领域,还可能通过微调扩展到机器人和工业视觉等领域,从而扩大其应用范围和影响力。

中国端到端自动驾驶发展

中国的智驾厂商一直在端到端智驾上投入了很多资源研发,今年特斯拉 FSD预计会进入中国,让国内的厂商都变得积极落地端到端起来,并意识到端到端的落地进度,会一定程度上让智驾行业重新洗牌。

UniAD模型Pipeline
UniAD模型Pipeline

UniAD模型 Pipeline

考虑上端到端自动驾驶模型,最明显的优势就在于信息的无损传递,其天花板比传统的方案要高很多,最后如果像人一样综合理解复杂的交通环境, 那会带来更多的可能性。

越来越多的厂商选择了依赖模型+数据驱动的端到端方案,这也会让国内厂商更够更快的迭代效率,更快速实现全国都能开的目标,无论是城区还是乡村道路。

JoinAI对Terra的期待

Terra-1的首要目标是为自动驾驶AI提供多样化丰富的训练数据,生成各种复杂道路情境、天气条件和交通场景,以及现实世界的难以捕捉的极端情况,从根本上为自动驾驶消除Corner Case。

诚然Terra-1目前仍然还在研发迭代阶段,我们对它的潜力和未来充满信心。我们相信通过持续的优化和改进,Terra一系列的模型,必将成为自动驾驶技术的重要推动者,为大模型驱动的端到端自动驾驶提供强大的支持。

参考资源:

JoinAI
用更好的数据,
为每一个人带来更好的AI,直到永远。
Copyright © 2025 JoinAI. All rights reserved.
浙ICP备2021040718号-2
隐私政策和Cookie政策