**摘要:** 研究团队推出首个专注于自我中心视角(如车载视角)听觉理解的多模态大模型基准EgoSound。它整合了视觉与听觉数据,定义了七类任务,旨在系统评估模型利用声音进行空间定位、因果推理等关键能力,为提升自动驾驶等场景的多模态感知智能设立了新基准。
**摘要:** 研究团队推出首个专注于自我中心视角(如车载视角)听觉理解的多模态大模型基准EgoSound。它整合了视觉与听觉数据,定义了七类任务,旨在系统评估模型利用声音进行空间定位、因果推理等关键能力,为提升自动驾驶等场景的多模态感知智能设立了新基准。