智能学子斩获ICCV 2023国际顶级竞赛四项冠亚军奖项

作者:时间:2023-08-21点击数:


图片图片图片


近日,人工智能与计算机视觉最高水平会议之2023国际计算机视觉大会International Conference on Computer Vision (ICCV)的部分赛事已出结果。在西安电子科技大学人工智能学院焦李成院士、刘芳教授、刘旭副教授与团队博士生杨育婷、黄钟健、赵嘉璇、孙龙、游超、马彦彪等的共同指导下,学院参赛队伍在三项竞赛中斩获四项冠亚军奖项。所有获奖队伍均收到竞赛主办方邀请,将获奖的竞赛方法在2023年10月2日-10月6日于法国巴黎举办的ICCV会议上进行报告与展示。本次竞赛得到了国家自然科学基金重点项目、联合基金项目,教育部111计划项目、教育部创新团队和国家双一流学科建设项目等支持。

图片

赛题一:ICCV 2023 VisDrone Challenge: Object Detection(获冠军奖项)

图片

由博士研究生“路小强、黄钟健、杨育婷”组成的参赛队伍获得了ICCV 2023 VisDrone Challenge: Object Detection赛题冠军。

图片

冠军队伍(路小强、黄钟健、杨育婷)

赛题介绍:VisDrone目标检测竞赛旨在促进无人机视觉研究发展,数据集包含由无人机平台在不同地点、多种视角下捕获的10,209张图像,预定义道路中常见的10种目标类别(行人,汽车,卡车,自行车,三轮车等)。

冠军方案:队伍基于YOLOv7检测器提出LS-DOD算法,该算法由大规模预训练、大尺寸监督学习以及高效测试增强组成。为了提升检测器在不同场景下的泛化能力,队伍首先在SODA10M数据集中的100万张图像上以半监督学习范式进行预训练。其次,在迁移学习中通过大幅度动态增大训练尺寸策略以降低微小目标信息损失,缓解密集场景目标混淆。最后,在测试阶段提出高效测试增强及金字塔加权框融合算法进行多模型融合。以42.713的分数战胜了来自北大、清华、MIT、美团等知名团队,刷新了VisDrone目标检测赛题历史纪录。提出的方案解决了无人机视角目标检测中目标密集以及微小目标无法精准识别的难题。

赛题二:ICCV 2023 MUAD Uncertainty Estimation for Semantic Segmentation Challenge(获冠、亚军奖项)

图片

由2022级硕士研究生“左谊、王子韬、张潇文”和博士生“赵嘉璇”组成的参赛队伍获得了ICCV 2023 MUAD Uncertainty Estimation for Semantic Segmentation Challenge赛题冠军;由2022级硕士研究生“王昕怡、彭瑞、张君沛、张柯欣”组成的参赛队伍获得了同赛道亚军。

图片

冠军队伍(左谊、王子韬、张潇文、赵嘉璇)

图片

亚军队伍(王昕怡、彭瑞、张君沛、张柯欣)

赛题介绍:该赛题旨在评估语义分割模型的不确定性估计性能。比赛采用官方提供的MUAD数据集,其中训练集3420张,验证集492张,测试集240张。所有图像都涵盖了白天和夜间的情况。一些测试集包含OOD(Out-Of-Distribution)对象或雨、雪、雾等两种不同强度等级的特殊天气条件,这将对模型的鲁棒性提出挑战。参与者通过训练模型提交类预测图和置信度图,以便决策者找出测试集图像中的OOD对象。

冠军方案:队伍使用Swin-L+Mask2Former、InternImage H +Mask2Former和Segformer+MIT-B5作为基础模型进行训练。由于训练集中缺乏恶劣天气条件,队伍设计了一种针对恶劣环境的数据增强方法来模拟相应天气状况。为了提高mIoU与mAUROC两个评估指标分别提出了应对方案。对于mIoU评估指标,使用集成模型的思想输出预测结果。对于mAUROC评估指标,通过引入Cityscapes数据集预训练对三个基础模型进行微调,在Segformer模型输出结果的基础上融合Mask2former模型的输出结果,并提出了一种区域归一化策略。首先对置信度低于0.6的区域使用均值滤波,然后使用连接域算法将整个图像分割成多个掩模区域。若置信水平低于0.4的像素中超过50%存在于某个掩模区域,将其定义为分布外区域。对于该区域中的所有像素,则使用该区域的最小置信度覆盖。所提出的方案解决了不确定性语义分割中已知类的精准度与未知类的不确定性相互干扰难题。

亚军方案:队伍首先在Mask2former、Segformer和UperNet三个模型上使用原始数据集进行训练。在训练策略上,为了防止过拟合,设置了模型训练的初始学习率为0.00006并成比例修改最大迭代次数。同时,在对训练集、验证集和测试集进行数据分析后,在给定的训练集上添加了不同程度的特殊天气条件,如雨天、雪天和雾天的效果,该方法显著增强了语义分割模型的鲁棒性和泛化性。在测试阶段,对三个模型不同阶段的训练结果进行测试并给出了最终结果。对同一模型的不同结果进行融合获取类预测结果和置信度结果。所提出的方案解决了在不确定性与不利天气条件等复杂场景下的物体分割问题,实现了更加鲁棒的语义分割。

ICCV 2023 The 5th Large-scale Video Object Segmentation Challenge - Track 1: Video Object Segmentation(获冠军奖项)

图片

由2022级硕士研究生“张潇文、王子韬、左谊”组成的参赛队伍获得了ICCV 2023 The 5th Large-scale Video Object Segmentation Challenge - Track 1: Video Object Segmentation赛题冠军

图片

冠军队伍(张潇文、王子韬、左谊)

赛题介绍:该赛题在仅提供视频第一帧分割物体mask的条件下,要求参赛者对整段视频中的一个或多个物体进行分割。比赛数据集采用常见的视频数据集YouTubeVOS和一个新提出的数据集VOST。其中,VOST数据集中包含的物体是由破碎、撕裂和合成等操作而形成的,极大地改变了物体的整体外观,使得整个比赛任务具有极大的挑战性。

冠军方案:基于前期对实例分割模型机理的分析,发现虽然memory-based方法能够通过平移和变形引起的微小变化来分割物体,但对于更具挑战性的变换分割效果较差。因此,以半监督视频实例分割的SOTA模型AOT为基础,将训练序列的长度由5帧增加到10帧。但由于该模型不具备利用长期时间线索的能力,难以提升效果。我们提出采用recurrent transformer替换短期记忆模块来增加模型的时空建模能力。最后,队伍通过以15fps进行评估并启用多尺度推理,在测试时显著提高了模型的时间和空间分辨率。所提出的方案突破了长视频序列中后段视频分割结果较差的技术难题,显著提升了长视频序列中目标跟踪能力和分割性能。

图片

ICCV,全称IEEE International Conferenceon Computer Vision (国际计算机视觉大会)由IEEE主办,在世界范围内每两年召开一次。其与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。西安电子科技大学人工智能学院焦李成院士团队在遥感领域有30多年的经验积累,智能学子们也屡次在IGARSS、CVPR、ICCV、ECCV等多项国际顶会赛事中斩获冠亚季军奖项达百余项。学院人才培养效果显著。在国际最高赛事中拼搏,通过“赛中学”不仅能够让学生快速了解该领域的相关知识,激发学生科研的动力,同时也锻炼了团队学生的组织协调能力、写作能力与心理抗压能力。

图片

西安电子科技大学 智能感知与图像理解教育部重点实验室 版权所有技术支持:西安聚力

Baidu
map