模式识别实验室

中国科学院自动化研究所

联系我们 English

学术讲座

赋予自动驾驶视觉、语言和地图记忆能力

模式识别系列讲座
Lecture Series in Pattern Recognition

题 目（TITLE）：赋予自动驾驶视觉、语言和地图记忆能力

讲座 人（SPEAKER）: 赵行，清华大学

主持人 (CHAIR)：张兆翔研究员

时间 (TIME)：2024年7月3日（周三），10:30

地点 (VENUE)：智能化大厦1610会议室

报告摘要（ABSTRACT）：

本次讲座将分享赵行老师团队在自动驾驶的三个方面的研究工作。 1. 视觉三维占用网络：视觉的三维占用预测可以实现对通用障碍物的感知，团队提出了该任务的评测数据集Occ3D，以及高精度时序感知模型DVT-Occ。 2. 基于地图记忆的无图方案PreSight：不使用高精度地图对车载感知系统提出了巨大挑战，团队提出了一种使用神经辐射场（NeRF）作为地图记忆来增强在线地图感知的方案。 3. VLM理解复杂与长尾场景：自动驾驶的核心挑战之一是复杂和长尾场景中的导航。我们提出了DriveVLM，利用视觉语言大模型进行推理，并给出驾驶决策。DriveVLM进一步与传统的自动驾驶流程集成，创建了一个双驾驶系统。该双系统部署在双OrinX ECU上，首次实现了大模型上车驾驶。

报告人简介（BIOGRAPHY）：

赵行，清华大学交叉信息研究院助理教授，博士生导师。博士毕业于麻省理工学院MIT，后于谷歌无人车项目Waymo担任研究科学家。主要研究自动驾驶和机器人。曾获CoRL 2023最佳系统论文奖提名Top3，ICCP最佳论文奖，福布斯中国30Under30。

友情链接