模式识别系列讲座
Lecture Series in Pattern Recognition
题 目 (TITLE):赋予自动驾驶视觉、语言和地图记忆能力
讲 座 人 (SPEAKER): 赵行,清华大学
主 持 人 (CHAIR):张兆翔 研究员
时 间 (TIME):2024年7月3日(周三),10:30
地 点 (VENUE): 智能化大厦1610会议室
报告摘要(ABSTRACT):
本次讲座将分享赵行老师团队在自动驾驶的三个方面的研究工作。 1. 视觉三维占用网络:视觉的三维占用预测可以实现对通用障碍物的感知,团队提出了该任务的评测数据集Occ3D,以及高精度时序感知模型DVT-Occ。 2. 基于地图记忆的无图方案PreSight:不使用高精度地图对车载感知系统提出了巨大挑战,团队提出了一种使用神经辐射场(NeRF)作为地图记忆来增强在线地图感知的方案。 3. VLM理解复杂与长尾场景:自动驾驶的核心挑战之一是复杂和长尾场景中的导航。我们提出了DriveVLM,利用视觉语言大模型进行推理,并给出驾驶决策。DriveVLM进一步与传统的自动驾驶流程集成,创建了一个双驾驶系统。该双系统部署在双OrinX ECU上,首次实现了大模型上车驾驶。
报告人简介(BIOGRAPHY):
赵行,清华大学交叉信息研究院助理教授,博士生导师。博士毕业于麻省理工学院MIT,后于谷歌无人车项目Waymo担任研究科学家。主要研究自动驾驶和机器人。曾获CoRL 2023最佳系统论文奖提名Top3,ICCP最佳论文奖,福布斯中国30Under30。
|