自动驾驶真正的挑战是什么?
量产?商用?低成本传感器?
都不本质。
最最最难的,还是针尖上的边界化难题——被称为Corner Case。
△
披着恐龙服的小孩
一般是指从未遇到过的问题,因为缺少数据,自动驾驶车无法应对这些问题
这些问题,占比极少,出现的概率极低,但如果自动驾驶系统“没有见过无法应对”就可能导致安全问题。
于是也就成了自动驾驶技术规模化安全落地的阿克琉斯之踵。
而在前沿学术领域,更多顶级科学家开始从自监督学习寻找突破。
什么是自监督学习?
英文全称:Self-supervised Learning。
字面也能看出,源自Supervised Learning——监督学习的衍生。
而所谓监督学习,最简单的理解就是在训练AI模型中,需要有大量的标注数据。
监督学习促成了当前这波AI复兴浪潮,让大(标注)数据+大计算+算法三位一体的深度学习成为主流。
但规模化落地AI,监督学习就并非长久之计。
或许你听过“有多少人工就有多少智能”的调侃,其实就是依赖监督学习的准确描述。
在监督学习的方式下,依赖大规模标注数据集,需要耗费大量的人力来完成数据集的收集和人工标注。
而具体到自动驾驶领域,一辆车只要上路实测,产生的数据能够被有效标注,任务量极大,更别说大规模车队了……
所以把自监督学习应用于自动驾驶,让AI司机可以在没有经过人工标注的数据进行学习,毫无疑问能大大提升系统迭代效率。
没错,说到这里,或许你已经基本能知道“自监督学习”的原理了。
那就是解决监督学习过于依赖大规模标注数据集的难题,能从大规模未标记数据中学习特征,无需使用任何人工标注数据。
值得一提的是,目前已被应用在自然语言处理和计算机视觉领域。
典型的自监督任务包括给照片上色:
把模糊的照片变高清:
更夸张一点说,自监督学习也是让AI产业告别人力密集型、让AI真正自动化的关键所在。
所以深度学习三巨头之一、图灵奖得主 Yann LeCun这样评价过自监督学习:
如果人工智能是一块蛋糕,那么蛋糕的最大一部分是自监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习。
而自动驾驶作为AI在汽车交通产业的技术落地,自监督学习自然也成为AI大牛和技术公司的攻坚重点。
这不,在AI领域的顶级学术会议CVPR 2021的入选论文中,就出现了AI大牛+自动驾驶公司的最新自监督学习研究成果。
这个AI大牛是Alan Yuille,自动驾驶公司则是目前以RoboBus知名的轻舟智航。
自监督学习如何应用于自动驾驶?
这个新研究成果,聚焦在车载激光雷达点云上。
当自动驾驶汽车在行驶过程中,需要实时理解各种交通参与者的运动,这些运动状态信息对于各个技术模块来说都非常重要,涉及检测、跟踪、预测、规划等等。
自动驾驶汽车通常配有多个传感器,其中最常用的是激光雷达。
因此,如何从点云中获得其他交通参与者的运动信息是一个重要课题,并且存在如下挑战:
交通参与者的类别不一样,每个类别都表现出特定的运动行为;
激光雷达点云的稀疏性导致两次激光雷达扫描的情况不能精确地对应起来;
需要在很短的时间限制内和有限的车载算力下完成计算。
传统的做法,是通过识别场景中其它交通参与者,根据所观测到的历史信息,来预测交通场景会如何变化,从而实现预测。
但是大多数识别模型都是为检测若干已知类别的物体而训练的。在实际情况中,经常会遇上没出现过的物体类别。这肯定不是长久之计。
还有一种做法是通过估计激光雷达点云每个点的3D运动来从点云中估计场景流,但这样做对计算的要求太高了,自动驾驶车又特别需要达到实时性,所以根本无法进行实际应用。
第三种做法是基于BEV(bird’s eye view)的方式,把激光雷达的点云画成一个个小网格,每个网格单元被称为体柱,点云的运动信息可以通过所有体柱的位移向量来描述,该位移向量描述了每个体柱在地面上的移动大小和方向。
这种表征方法成功简化了场景运动,反正只需要考虑在水平方向上的运动情况,而不用特别考虑垂直方向上的运动。
这种方式的所有关键操作都可以通过2D卷积进行,计算速度非常快。
但是,这种方式需要依靠大量带有标注的点云数据,但点云数据的标注成本比普通图像更高。
据统计,一辆自动驾驶汽车每天会产生超过1TB的数据,但仅有不到5%的数据被利用,若能把其他数据也充分利用起来,在没有手工标注的数据上来进行学习,那可就太高效了。
带着对上述现状的思考,轻舟智航和约翰霍普金斯大学学者决定携手展开挑战。
他们推出了用于自动驾驶的自监督“点云运动学习”。
△
此次自监督柱运动学习概览
如图所示,为了充分利用BEV中运动表征的优点,研究团队将点云组织成体柱(pillar),并将与每个体柱相关的运动信息称为体柱运动(pillar motio)。
研究团队先引入了一种基于点云的自监督学习方法,假设连续两次扫描之间的体柱或物体的结构形状是不变的。
然而这在大多数情况下是不成立的,因为激光雷达的稀疏扫描,连续的两个点云缺乏精确的点与点的对应。
解决方案是利用从相机图像中提取的光流来提供跨传感器的自监督和正则化。
△
用于点云体柱运动估计的自监督学习框架
再如上图所示,这种设计形成了一个统一的学习框架,包括激光雷达和配对相机之间的交互:
(1) 点云有助于将自车运动(ego-motion)导致的图像运动从光流中分解出来;
(2) 光流为点云中的体柱运动学习提供了辅助正则化;
(3) 反投影(back-projected)光流形成的概率运动掩膜(probabilistic motion masking)提升了点云结构的一致性。
注意,与相机相关的模块仅用于训练,在推理阶段不会被使用,因此,在运行时不会对相机相关的模块引入额外的计算。
该研究提出的运动学习方法将点云的结构一致性自监督与跨传感器的运动正则化紧密耦合。
正则化包括从光流中分解出自我运动,并在传感器之间执行运动一致性(motion agreement)。
该研究还引入了一种基于反投影(back-projected)光流的概率运动掩膜(probabilistic motion masking)来增强点云的结构相似性匹配。
△
概率运动掩膜说明
上图展示来看,左边,投影点在前向相机图像上的光流(已将自我运动分解)。
右边,点云的一部分,颜色表示非空体柱的静态概率。
最终,研究团队打造出了业内首个能够在完全自监督框架下,进行点云体柱运动预测的学习范式。
跑个分?
研究成果的表现究竟如何,还是要靠事实来证明。
研究人员首先进行了各种组合实验,以评估设计中每个单独组件的贡献。如表1所示:
△
每个单独组件的贡献,结果包括均值和中位误差
研究团队将他们所采用的方法与表3中的各种监督算法进行了比较。
实验首先将提出的自监督模型与FlowNet3D 、 HPLFlowNet进行了比较,这些模型都在FlyingThings3D以及KITTI Scene Flow进行了预训练。
在表3中可以看到,该研究提出的模型在很大程度上优于这两种有监督的预训练模型。
值得注意的是,这一成果甚至优于或接近一些在基准数据集上全监督训练的方法,如FlowNet3D、HPLFlowNet、PointRCNN。
当使用真值标签进一步微调该研究提出的自监督模型时,该模型实现SOTA性能。
△
表3:与SOTA结果对比,实验分为三个速度组,表中记录了平均误差和中位误差
如表3所示,对于快速运动的目标,微调模型明显优于MotionNet。
这说明研究团队提出的自监督模型为有效的监督训练提供了更好的基础,并且自监督学习的增益不会随着复杂的监督训练而减少。
最后,实验展示了利用不同的自监督组合进行体柱运动估计的定性结果。
△
图5:点云柱运动预测对比
如图5所示,这些示例呈现了不同的交通场景。第一行显示真值运动场,第二行显示的是该研究全模型的评估结果,而只使用结构一致性的基础模型的预测结果在第三行。每一列都演示了一个场景。
与该研究的完整模型相比,仅使用结构一致性损失的基本模型倾向于在背景区域(第1列和第5列)和静态前景目标(第2列和第3列)中生成假阳性运动预测。
与基本模型相比,完整模型还能够在移动目标上产生更平滑的运动(第5列和第6列)。此外,如第4列所示,基本模型中缺少场景右上角的移动卡车,但完全可以通过完整模型进行合理的估计。
这再次验证了从相机图像中提取的运动信息的有效性。
而整体结果上,研究团队通过紧密整合激光雷达点云和配对相机图像,实现了所需的自监督。
值得一提的是,这一成果也是全球首个能够在完全自监督框架下进行点云体柱运动预测的学习范式。
研究团队都有谁?
就是上述三位作者。
其中两位主要成员都是来自轻舟智航:
杨晓东是轻舟智航研发总监,华中科技大学校友,曾任英伟达(NVIDIA Research)高级科学家。
罗晨旭则是轻舟智航实习生,也是约翰霍普金斯大学(Johns Hopkins University)计算机科学系博士研究生。
而Alan Yuille,熟悉AI领域的人应该对他不陌生,他是AI领域的大牛,也是知名物理学家史蒂芬·霍金的博士弟子。
Alan Yuille跟中国AI公司也颇有渊源,他在UCLA时指导了一名叫朱珑的博士生,后者则创办了中国AI明星独角兽依图科技。
不过现在,Alan Yuille是约翰霍普金斯大学计算机科学系的彭博杰出教授。
最后的最后,这也是轻舟智航在自动驾驶技术上的学术实力展现。
创办于2019年的轻舟智航,之前以创始团队背景和快速落地Robobus著称,不过这一次CVPR,他们展现了技术科研实力。
轻舟智航的核心创始团队源自Waymo,并且快速吸引了特斯拉、Uber ATG、福特、英伟达、Facebook等世界顶级公司的大牛。
2021年还获得了字节跳动的投资,是字节在自动驾驶领域的首次出手。
— 完 —