标题：让AI“听声辨位”：首个自动驾驶多模态听觉理解基准EgoSound发布

2026年2月26日作者 admin

**摘要：** 研究团队推出首个专注于自我中心视角（如车载视角）听觉理解的多模态大模型基准EgoSound。它整合了视觉与听觉数据，定义了七类任务，旨在系统评估模型利用声音进行空间定位、因果推理等关键能力，为提升自动驾驶等场景的多模态感知智能设立了新基准。