PON:Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks
PON:利用金字塔占用网络预测图像的语义地图表示
提出了一个dense transformer(并非self attention的transformer, 只是MLP结构)的网络结构用于将2D图转换成BEV
我们的贡献如下:
- 提出了一种新的密集变换层,它将基于图像的特征图映射到鸟瞰图空间。
- 设计了一个深度卷积神经网络架构,其中包括在多个图像尺度上运行的变压器金字塔,以从单眼图像预测准确的鸟瞰图。
- 我们在两个大规模自动驾驶数据集上评估我们的方法,并表明我们能够显着提高文献中领先作品的性能。
我们还定性地展示了如何使用贝叶斯语义占用网格框架来累积跨多个相机和时间步长的地图预测,以构建完整的场景模型。 该方法足够快,可用于实时应用程序,在单个 GeForce RTX 2080 Ti 显卡上每秒处理 23.2 帧
一些参考链接