(通讯员:杨育婷、何文鑫、黄思婧、张丹、马梦茹)2022欧洲计算机视觉国际会议European Conference on Computer Vision(ECCV)于今年10月23-27日进行。会议已正式落幕,多项竞赛大奖尘埃落定。据悉,在西安电子科技大学人工智能学院焦李成院士、刘芳教授、屈嵘教授、刘旭副教授、李玲玲副教授、陈璞花副教授与团队博士生杨育婷、王语涵、黄钟健、赵嘉璇、马彦彪、鲍骞月、刘洋、宋雪、游超、马梦茹、孙龙等的共同指导下,西安电子科技大学人工智能学院的16支队伍入围各类赛事前10,再次斩获ECCV 2022竞赛12项(3冠军、6亚军、2季军、1陪审团奖)奖项。以上获奖队伍均收到竞赛主办方邀请将获奖的竞赛方法在ECCV 2022 会议上进行了报告与展示。据统计,除由刘芳教授与焦李成院士共同指导的博士生李硕等人撰写的论文被ECCV 2022正式收录外,团队在ECCV 2022中已累计获得冠亚季军奖项达16项(7冠军6亚军3季军)。竞赛由国家重点科研计划、国家自然科学基金重点及面上项目、中国人工智能学会-华为MindSpore学术奖励基金等资助。
赛题一:ECCV 2022 VIPriors Action Recognition Challenge(冠亚军)
其中,由“宋欣燃、杨骋远、刘畅、刘洋”组成的学生队伍获得了动作识别赛道冠军。“何文鑫、高子涵、马天植”组成的学生队伍获得了同赛题亚军。同时,“李丹旭、王若楠”组成的学生队伍以第九名的成绩入榜。
冠军队伍:宋欣燃、杨骋远、刘畅、刘洋
亚军队伍:何文鑫、高子涵、马天植
赛题简介:2022 ECCV VIPriors动作识别挑战的主要思想是为特定计算机视觉任务在特定数据集的简化版本上从头开始训练模型。在这个特殊的挑战中,训练期间不允许使用任何预先训练的权重,包括任何预先训练的骨干网络。比赛数据集为Kinetics400数据集的修改版,称为Kinetics400 VIPriors。
冠军方案:队伍提出的方案突破了多模态多模型的高性能融合关键技术,实现了高效的视频行为识别效果。实验数据主要包括了光流、RGB与RGB difference三种模态的数据。在数据集处理时,主要采用了间隔帧采样的方式对视频数据进行采样。同时,采用了RandomResizedCrop方法将数据Resize成128*128和224*224大小,同时增加随机噪声,并以1/2的概率随机翻转操作,对训练数据集进行数据增强。在测试时候,我们使用了TenCrop处理数据并采用测试时数据增强(TTA)策略提高预测结果。提出的方案首先对视频提取RGB difference,并进行光流与RGB difference两种模态的融合。然后,固定每种模态在单模型上的训练参数,提取模型中间特征后进行拼接融合。最后,选取了多个不同模型权重,并对评分较高的模型赋予更高的权重,即使用软投票的方法对实验中所有模型的结果进行融合。
亚军方案:队伍最终提出了基于多模型动态融合的视频动作识别方法,突破了不明显特征识别关键技术,实现了准确的视频行为识别效果。该方法使用动态加权软投票的方式合并模型,融合了Video Swin Transformer, SlowFast, TIN等7个模型。对某些特征不明显,样本数较少的类别采用弱分类器。同时采用了多种数据增强方式,如多尺度随机裁剪,高斯模糊,测试时增强(TTA)策略,测试对比多种损失函数以提高最终性能。为了增加模型收敛的速度和效果,队伍在训练集和验证集的合集上采用对比学习的方法进行训练。同时,选择同视频以不同的帧间隔方式进行采样的数据增强方式来构建正样本,不同的视频之间互为负样本。最终队伍取得了0.69的得分,显著高于标准基线。
赛题二:ECCV 2022 VIPriors Object Detection Challenge (冠军)
由2022级博士研究生“路小强”与2021级硕士研究生“谭逍、李成辉”等组成的学生队伍获得了该赛题冠军。
冠军队伍:路小强、谭逍、李成辉
赛题简介:目标检测赛道的赛题主旨是数据不足的条件下从头训练检测器用以检测来自DelftBikes数据集上的自行车零部件。该数据集包含10,000张自行车图像,每辆自行车有22个密集注释的部件。此外,所有零件位置和零件状态注释为缺失、完整、损坏或遮挡。
冠军方案:队伍提出一种新的两阶段目标检测训练方案,包含预训练阶段与微调阶段两个过程。该方案突破了少样本目标检测训练策略的关键技术,实现了在数据不足且样本相似条件下模型检测与泛化性能得到大幅提升。基础检测器采用多个先进的单阶段检测器(YOLOv7, YOLOR, Scaled-YOLOv4)以及双阶段检测器CBNetv2。在预训练阶段中,采用包含随机缩放、翻转以及颜色抖动组成的弱数据增强方式训练多个基础模型,之后采用Model Soups对模型进行集成。在微调阶段,使用预训练阶段的集成模型用于初始化,随后采用包含Mosaic、Mixup、Copy-paste以及Cutout组成的强数据增强方式训练检测器。此外,在此阶段中还进一步引入一种基于图像级不确定度的加权训练策略。两个阶段中均使用五折交叉验证方法来增强检测器的鲁棒性。然后,对训练好的检测器进行模型集成后使用测试增强来进行推理,最后使用WBF加权框融合策略进行结果融合获取最终检测输出。
赛题三:ECCV 2022 VIPriors Image Classification Challenge (冠亚季军)
其中,由2021级硕士研究生“马天植、高子涵、何文鑫”,2022级博士研究生“路小强”与2021级硕士研究生“李成辉,李超”(陪审团奖项),以及2022级硕士研究生“左谊、王子韬、张潇文”组成的学生队伍分别获得了该赛题冠亚季军奖项。此外,由2021级硕士研究生“王佳豪、王浩”,2022级硕士研究生“佘文轩、王梦佳”,“赵禹轩、陈宝亮”组成的学生队伍分别以第四名、第五名、第八名成绩入榜。
冠军队伍:马天植、高子涵、何文鑫
亚军队伍:路小强、李成辉、李超
季军队伍:左谊、王子韬、张潇文
赛题简介:VIPriors图像分类挑战关注的重点是模型在数据不足的环境中不使用任何预训练,从头开始训练获得最高的Top-1准确率。在数据不足的条件下从头训练分类器用以识别ImageNet数据集子集中1000类物体。该子集下每类物体包含50张图像,训练集、验证集及测试集均包含50,000张图像。
冠军方案:队伍使用了ResNest、ReXNet、EfficientNet-B8、ConvNeXt等多个模型,突破了图像增强方法提升效果不显著的关键技术,实现了准确的图像识别效果。为解决图像增强方法提升效果不显著的问题,引入自适应选择增强特征的方法,避免了模糊信息的干扰。对表现较差的类别使用不同的策略单独训练,利用搜索算法选取合适特定数据集的数据增强策略,同时增加图像多通道的随机对比度拉伸。最后采用软硬投票结合的方法进行模型集成与结果融合,有效地提高了最终的分类准确率。
亚军方案:队伍提出一种具有交叉解耦知识蒸馏的双支教学方案,突破了少样本图像分类数据增强与知识蒸馏的关键技术,实现了在有限数据下提升分类器识别与抗噪性能。该方案从数据端引入AutoMix样本混合策略实现样本分布多样性以及特征端引入交叉解耦知识蒸馏算法实现模型知识多样性两方面来提升分类器的识别能力。基础分类器使用HorNet以及ConvNeXt,在训练过程中两个模型互为老师以及学生两个身份。然后对训练好的模型先使用Model Soups进行模型集成,再使用测试增强进行推理,最后使用少数服从多数的投票策略进行结果融合获取最终分类输出。
交叉解耦知识蒸馏的双支教学网络模型
季军方案:队伍提出的方案突破了平衡模型感知差异的关键技术,实现了泛化力较强的准确率高的图像识别效果。队伍使用了CoAtNet、TResNet、RestNet50、ResNext50、EdgeNeXt五个主干网络作为基准。考虑到ImageNet 2012中的标签作为硬标签,虽然更容易获取,但却丢失了类内、类间的关联,并且对噪声数据敏感。队伍在基础模型训练过程中融合多种数据增强方法。
硬标签训练与模型测试策略
不同的模型对相同的数据拥有不一样的感知、理解能力。例如,使用CoAtNet与RestNet50来预测同一张猫咪图像,虽然两个模型输出的最高分数代表的是同一类,但每个模型对它的理解力不同。为了平衡这种模型间的差异,将模型间的泛化能力“分享”,队伍将五个模型分别作为教师模型与学生模型,用不同的教师模型来指导另一个不同的学生模型,以此增强泛化能力。最后使用TTA与模型融合的方式来增加准确率。最终Top1 accuracy达到了0.77726分数。
赛题四:ECCV 2022 UrbanPipe Challenge on Fine-grained Video Anomaly Recognition (Track 5) (亚军)
由“王浩、王佳豪、董倬君、鲍骞月”组成的学生队伍获得了细粒度视频异常检测分析赛道亚军。“邱灿、张乐、高樱嘉”组成的学生队伍获得了同赛题第六名成绩入榜。
亚军队伍:王浩、王佳豪、董倬君、鲍骞月
赛题简介:视频异常分析对于现实世界中的工业应用非常重要。城市管道系统是城市最重要的基础设施之一,为保证其正常运行,需要对管道进行智能检测。UrbanPipe Challenge旨在通过一种网络/方案来预测视频中存在的多个管道缺陷类别。比赛使用一个名为UrbanPipe的新数据集。UrbanPipe是从现实世界的城市管道系统中的各种Quick-View (QV)检测设备中收集的。它由9.6万个短视频组成,有16个异常类别。所有视频的总时长超过55小时。
亚军方案:队伍提出一种多时域分辨率的集成学习方法。该方案突破了模型对不同时域分辨率具有强敏感性的技术难点,实现了时序鲁棒的概率预测模型。即使用不同的时域采样率采样视频,得到不同时域分辨率的训练集合,从而训练不同的基学习器。其中每个基学习器都能使用全部的训练视频,进而能够取得更高的单模型性能。针对训练集这种明显的长尾类别分布,队伍使用解耦表示学习策略来获得可以更好识别所有类的模型。具体来说,训练过程分为两个阶段。在第一阶段,随机抽样数据进行正常训练。在第二阶段,冻结除最终分类器之外的模型的所有参数,并使用类平衡损失重新训练分类器。同时,对不同模型的类别概率输出进行平均,以获得一个集成的概率结果。最后,将其中效果较差的类别数据重采样进行训练,并根据单一类别的结果,对最终的概率预测结果进行增强。
多时域分辨率的集成学习方法整体结构示意图
赛题五: ECCV 2022 DeeperAction Challenge-SportsMOT Track on Multi-actor Tracking (亚军)
由2021级硕士研究生“王佳豪、孟畅、李东昊、王浩”组成的学生队伍获得了该赛题亚军。
亚军队伍:王佳豪、孟畅、李东昊、王浩
赛题简介:多目标跟踪(MOT)是计算机视觉中的一项基本任务,旨在估计视频序列中的目标(如,行人和车辆)边界框和身份。流行的行人跟踪MOT数据集主要关注拥挤街景中的行人(如MOT17/20)或静态场景中的舞者(DanceTrack)。尽管对运动分析的需求不断增加,但缺乏针对各种运动场景的多目标跟踪数据集。这些运动场景背景复杂,运动员运动速度快,镜头移动速度快。本赛道的SportsMOT是大规模多对象跟踪数据集,由3个类别(即篮球、足球和排球)的240个视频片段组成。目标是仅在各种运动场景中跟踪操场上的球员(除了一些观众、裁判和教练)。
亚军方案:队伍使用二阶段多目标跟踪框架DeepSORT作为基线框架,根据数据类型的区别采用多种不同的检测器,如Cascade-RCNN-ResNest101、ATSS-SwinL等。对于足球场景的跟踪,由于场景变换比较迟缓,同一球员出现的时间间隔相较于篮球和排球过长,因此亚军队伍使用OC-SORT跟踪器单独处理足球类别,这样大大提高了足球类别的关联度得分。此外,为了进一步降低目标ID的切换次数以及补充重合目标的漏检情况,队伍使用AFLink以及线性插值作为后处理方法。最终,队伍取得了74.899的得分。队伍突破了复杂运动场景下多目标跟踪的关键问题,有效解决了不同场景跟踪难度不同的问题。
赛题六:ECCV 2022 SSLAD-Track1-2D Object Detection Challenge (亚军)
由“路小强、杨育婷”等博士研究生组成的学生队伍获得了该赛事亚军。
亚军队伍:路小强、杨育婷
赛题简介:近年来,自动驾驶技术因其在减少事故、挽救生命以及提高效率等方面具备巨大潜力,从而得到迅速发展。道路图像的目标检测作为视觉感知系统中的一个重要模块,是自动驾驶技术的关键技术之一。该赛题专注于具备少量注释与海量无标记数据的2D目标检测任务。给定5K张标记训练样本和10M张未标记图像,推断测试集中每个目标的边界框位置与类别。
亚军方案:队伍提出一种两阶段自训练教师-学生框架,使用一个两阶段检测器作为教师模型为单阶段检测器的学生模型提供多样性的伪监督信号。在第一阶段,通过集成学习与模型融合Model Soups构建了鲁棒的教师、学生模型。在第二阶段,教师模型通过可靠的伪标签生成策略为学生模型提供高质量的伪监督信号。在推理阶段,队伍设计一种有效的后处理流程,由多尺度测试、Model Soups以及自适应加权框融合构成。队伍突破了基于自训练的半监督学习范式的关键技术,实现了自动驾驶技术中道路目标对象检测精度的显著提升。
赛题七:ECCV 2022 SSLAD Corner Case Detection Challenge(亚军)
由“路小强、杨育婷”等博士研究生组成的学生队伍获得了该赛事亚军。
赛题简介:深度学习在检测交通中的常见类别(如车辆、行人和骑车的人)已经取得了突出的成绩。然而,这样的检测器通常无法检测到训练过程中未见过或很少见过的角落目标。这些角落目标主要由(1)新的类别(如失控的轮胎)和(2)常见类别的新实例(如翻倒的车辆)组成,即分布外的目标。该赛题旨在检测真实世界中的常见目标和角落目标。
亚军方案:队伍采用半监督学习方法来探索未知类别的识别以及分布外目标的泛化。具体来说,使用一个两阶段检测器作为教师模型为单阶段检测器的学生模型提供多样性的伪监督信号。在第一阶段,通过集成学习与模型融合Model Soups构建了鲁棒的教师、学生模型。在第二阶段,教师模型通过可靠的伪标签生成策略为学生模型提供高质量的伪监督信号。在推理阶段,队伍设计一种有效的后处理流程,由多尺度测试、Model Soups以及自适应加权框融合构成。该方法突破了开放世界目标检测新的学习方式的关键技术,实现了自动驾驶技术中识别未知目标的精度提升与鲁棒安全。
半监督学习方法来探索未知类别的识别以及分布外目标的泛化框架
赛题八:ECCV 2022 VIPriors Instance Segmentation Challenge (季军)
由“路小强、黄钟健”等博士研究生组成的学生队伍获得了该赛题实例分割赛道季军。由2022级硕士研究生“张君沛、张柯欣、彭瑞”,2021级硕士研究生“程谊、王姝涵、陈翼飞”组成的学生队伍分别以该赛题第四名与第五名的成绩入榜。
季军队伍:路小强、黄钟健
赛题简介:赛题使用由Synergy Sports提供的数据集,该数据集由在不同篮球比赛中记录的图像组成,训练集、验证集和测试集分别有184、62、64张图片。评估时使用COCO评估指标,主要指标是AP @ 0.50:0.95。赛道提出了“数据高效计算机视觉的视觉归纳先验挑战”。在本次挑战中,模型要在数据不足的情况下从头开始训练,且不可以使用任何预训练,挑战的主要目标是提供的图像中分割所有球员和球的实例。
季军方案:队伍采用基于CBSwin-B以及CBFPN的HTC作为基础检测器,针对数据中存在的类别不均衡问题,引入Balanced-Copy-Paste算法来均衡不同类别实例的粘贴率。此外,队伍还使用Mosaic进行数据增强,使用GIoU损失替换L1损失,使用Soft-NMS替换NMS,使用Model Soups进行模型集成以及使用测试增强进行推理。最后额外训练两个专家分割网络对检测器的掩膜输出进行进一步细化得到最终分割结果。方案突破了极少样本实例分割的数据增强方式的关键技术,实现了分割模型的检测与识别双性能有效提升。
2021级硕士研究生
2022级硕士研究生
博士指导师兄师姐
ECCV,全称European Conference on Computer Vision(欧洲计算机视觉国际大会),在世界范围内每两年召开一次。其与计算机视觉模式识别会议(CVPR)和国际计算机视觉大会(ICCV)并称计算机视觉方向的三大顶级会议。西安电子科技大学人工智能学院焦李成院士团队在遥感领域有30多年的经验积累,智能学子们也屡次在各项专业类竞赛中斩获佳绩。让学生通过学术竞赛快速提升科研能力、加强学术交流是人工智能学院人才培养的举措之一,“赛中学”不仅能够让学生保持科研的动力,同时也锻炼了学生的组织能力、团队写作能力与抗压能力等。据统计,团队近年来在的IGARSS、CVPR、ICCV、ECCV等国际赛事上已累计获冠亚季军奖项达百余项,人才培养成效显著。