模仿学习
1️⃣没法穷尽所有场景
2️⃣没法涌现真正的智能
特别对于多交通参与者中间存在那些【奇奇怪怪的小概率场景】
端到端处理的并不好,这也是为什么要么用规则兜底要么需要通过对齐人类驾驶观【类似奖励模型】去调优