新京报贝壳财经讯(记者罗亦丹)2月22日,商汤绝影CEO,商汤科技联合创始人、首席科学家王晓刚在2025GDC全球开发者先锋大会上发布了端到端自动驾驶技术路线R-UniAD,通过构建世界模型生成在线交互的仿真环境,以此进行端到端模型的强化学习训练。
“算法、算力和数据三者共同推动着人工智能技术的螺旋式上升和进步,随着强化学习等算法引入到大模型训练的思路得到验证,新的尺度定律正在开启,数据价值被进一步深入挖掘,模型能力天花板被打开。”王晓刚表示。
近期,DeepSeek-R1基于纯强化学习的关键创新引发了广泛的关注。通过少量高质量数据的冷启动,模型进行多阶段的强化学习训练,有效降低大模型训练的数据规模门槛。
王晓刚表示,基于强化学习的大模型技术路线也可以迁移到端到端自动驾驶算法的训练与研发之中,“多阶段强化学习的训练方法能大幅降低端到端自动驾驶数据规模门槛。R-UniAD就是通过高质量数据进行冷启动,用模仿学习的方式训练出一个端到端基础模型,再通过强化学习方法进行训练。据测算,小样本多阶段学习的技术路线能让端到端自动驾驶的数据需求降低一个数量级。”
编辑 韦英姿
校对 吴兴发