自动驾驶第一性之纯视觉静态重建

本文经自动驾驶之心公众号授权转载，转载请联系出处。

纯视觉的标注方案，主要是利用视觉加上一些GPS、IMU和轮速计传感器的数据进行动静态标注。当然面向量产场景的话，不一定非要是纯视觉，有一些量产的车辆里面，会有像固态雷达（AT128）这样的传感器。如果从量产的角度做数据闭环，把这些传感器都用上，可以有效地解决动态物体的标注问题。但是我们的方案里面，是没有固态雷达的。所以，我们就介绍这种最通用的量产标注方案。

纯视觉的标注方案的核心在于高精度的pose重建。我们采用Structure from motion (SFM) 的pose重建方案，来保证重建精度。但是传统的SFM，尤其是增量式的SFM，效率非常慢，计算复杂度是O(n^4)，n是图像的数量。这种重建的效率，对于大规模的数据标注，是没有办法接受的，我们对SFM的方案进行了一些改进。

改进后的clip重建主要分为三个模块：1）利用多传感器的数据，GNSS、IMU和轮速计，构建pose_graph优化，得到初始的pose，这个算法我们称为Wheel-Imu-GNSS-Odometry (WIGO)；2）图像进行特征提取和匹配，并直接利用初始化的pose进行三角化，得到初始的3D点；3）最后进行一次全局的BA（Bundle Adjustment）。我们的方案一方面避免了增量式SFM，另一方面不同的clip之间可以实现并行运算，从而大幅度的提升了pose重建的效率，比起现有的增量式的重建，可以实现10到20倍的效率提升。

在单次重建的过程中，我们的方案也做了一些优化。例如我们采用了Learning based features（Superpoint和Superglue），一个是特征点，一个是匹配方式，来替代传统的SIFT关键点。用学习NN-Features的优势就在于，一方面可以根据数据驱动的方式去设计规则，满足一些定制化的需求，提升在一些弱纹理以及暗光照的情况下的鲁棒性；另一方面可以提升关键点检测和匹配的效率。我们做了一些对比的实验，在夜晚场景下NN-features的成功率会比SFIT提升大概4倍，从20%提升至80%。

得到单个Clip的重建结果之后，我们会进行多个clips的聚合。与现有的HDmap建图采用矢量结构匹配的方案不同，为了保证聚合的精度，我们采用特征点级别的聚合，也就是通过特征点的匹配进行clip之间的聚合约束。这个操作类似于SLAM中的回环检测，首先采用GPS来确定一些候选的匹配帧；之后，利用特征点以及描述进行图像之间的匹配；最后，结合这些回环约束，构造全局的BA（Bundle Adjustment）并进行优化。目前我们这套方案的精度，RTE指标远超于现在的一些视觉SLAM或者建图方案。

实验：采用colmap cuda版，使用180张图，3848* 2168分辨率，手动设置内参，其余使用默认设置，sparse重建耗时约15min，整个dense重建耗时极长（1-2h）

重建结果统计

特征点示意图

sparse重建效果

直行路段整体效果

地面锥桶效果

高处限速牌效果

路口斑马线效果

容易不收敛，另外试了一组图像就没有收敛：静止ego过滤，根据自车运动每50-100m形成一个clip；高动态场景动态点滤除、隧道场景位姿

利用周视和环视多摄像头：特征点匹配图优化、内外参优化项、利用已有的odom。

https://github.com/colmap/colmap/blob/main/pycolmap/custom_bundle_adjustment.py

pyceres.solve(solver_options, bundle_adjuster.problem, summary)

3DGS加速密集重建，否则时间太长无法接受