西电新闻网讯(通讯员王昕怡 杨育婷)近日,2023年国际遥感顶级会议IGARSS竞赛以及计算机视觉顶级会议CVPR部分完结赛事获奖名单陆续公布,人工智能学院参赛队伍在两项竞赛中共获四项冠亚军奖项。同时,学院有6篇论文被2023 CVPR正式公布录用,26+篇论文被IGARSS录用,所有获奖队伍与论文作者被邀请于会议上进行报告或者展示。
2022级硕士研究生张君沛、张柯欣、彭瑞组成的学生团队获得了CVPR 2023竞赛NTIRE 2023 Stereo Image Super-Resolution Challenge—Track 3 Fidelity & Realistic与NTIRE 2023 Image Super-Resolution (x4)竞赛两项冠军奖项。
张君沛、张柯欣、彭瑞
立体图像超分辨旨在用低分辨率的一对左右视角的立体图像来重建高分辨率的立体图像。与单张图像的超分辨率任务不同,双目超分辨率可以利用场景的两个视角(左视角与右视角)提供的互补信息,从而提升图像恢复质量。竞赛数据为Flickr 1024数据集,该数据集有1024对RGB图像,其中训练、验证和测试数据分别有800、112、112对。该赛题最终采用额外的100张低分辨率立体图像对作为测试集进行测试。该赛题采用由模糊、缩减采样、噪声和压缩组成的逼真退化模型来合成低分辨率图像,评价指标为PSNR和SSIM,PSNR(RGB)用于最终排名。
该队伍提出了一种增强立体超分图像恢复细节的集成学习算法LTESSR。该方法可以在立体超分辨率图像恢复过程中进一步补充细节,在不增加太多运行时间的情况下获得更好的图像恢复效果。首先,队伍对图像进行去噪等基础恢复操作,随后使用了CutBlur、Blend和RGB channel shuffling等数据增强方式,提高了模型的鲁棒性。特征提取阶段使用NAFBlock分别提取左右两个视角的单张图像特征,引入立体交叉注意力模块融合两个视角的信息,使用LTE增加补充了超分辨率图像的细节。在测试阶段同时使用数据增强与多模型动态集成方法。队伍提出的LTESSR方案在PSNR(RGB)指标上取得了22.3531的得分,远超基准代码与其他队伍方案得分。该方案突破了多相位视觉信息在训练过程中难以耦合和相互促进的技术难点,解决了左右视觉通道差异性与联系性的平衡问题。
第二个赛题NTIRE 2023 Image Super-Resolution (x4)属于图像超分辨率的经典任务,目标是把双立方下采样生成的低分辨率图像恢复成4倍高分辨率图像。赛题使用DIV2K数据集,共包括1000对高分辨率与低分辨率图像,其中训练集800对,验证集100对,测试集100对。赛题允许使用额外数据集训练,评估指标是PSNR和SSIM。
该队伍采用SwinIR-LTE为基线模型,同时使用了SwinIR、RDN-LTE、LIIF-EDSR、LIIF-RDN等多个模型。队伍使用了CutBlur、Blend、RGB permute、Mixup、CutMix和CutMixup等6种方法进行数据增强。此外,队伍还提出了融合SSIM中结构纬度计算的SL1 loss来替换L1 loss,显著提高了SSIM指标的分数。在模型融合阶段,队伍提出了一种逆差异化动态权重融合方法,实现了减小坏值点影响的目的。队伍方案在取得了31.23(PSNR)与0.87(SSIM)的得分,明显优于其他参赛队伍得分。该方案突破了图像多维度综合评价以及模型高效动态融合等技术难点,解决了低分辨率图像恢复中关键细节信息较难恢复问题。
博士研究生路小强、杨育婷与2022级硕士研究生刘琼组成的学生团队则获得IEEE GRSS 2023 Track1: Building Detection and Roof Type Classification与IGARSS 2023 Track 2:Multi-Task Learning of Joint Building Extraction and Height Estimation两赛道亚军奖项。
路小强、刘琼、杨育婷
IGARSS 2023赛道一旨在从高分辨率光学图像和SAR卫星图像中实现建筑物的实例分割与屋顶细粒度分类,探究光学和SAR数据的融合对建筑物提取效能的影响。
该队伍提出一种三阶段训练框架以及一种两阶段测试增强流程。其训练框架由预训练、监督训练和半监督训练组成。首先通过在裁剪出来的目标实例上进行迁移学习,将自然图像中的先验知识适应至本赛题中的遥感建筑物细粒度感知上,选取BEiTv2模型作为特征提取网络。其次,在监督训练阶段引入一种自适应器来增强网络的表征能力,同时提出一种跨模态融合组件来有效利用SAR数据中的信息进行辅助训练,选取HTC++作为检测器网络。在半监督训练阶段中提出全局平均滤波以及类内自适应阈值法对原始伪标签进行去噪,提高了模型的泛化能力。队伍提出的测试增强处理流程在对多种训练模型的初始预测结果进行目标框级的加权融合,得到定位更准确的前景框后,使用检测器的掩码头对最终结果进行分割。该方案突破了细粒度目标识别类内差异显著以及多源信息融合低效等技术难点,实现了跨域场景下建筑物提取的高效性能。
赛道二旨在从高分辨率光学图像和SAR卫星图像中实现建筑物的提取与高度估计,探究多任务联合学习间的特征共享与信息互补机制。真值数据包括建筑物提取信息与nDSMs数字地表高程信息。
该队伍提出一种复合结构多任务学习框架以及一种两阶段双分支增强处理流程。所提出的多任务学习框架通过共享具备多模态信息融合能力的骨干网络,为实例分割、语义分割、高度估计任务提供表征能力更强的特征。检测器使用HTC++,语义分割头使用轻量化纯MLP结构,高度估计头使用PixelFormer。队伍通过使用二值掩码为高度估计任务进行背景滤波,增强了对前景建筑物高度的估计能力。测试阶段中,对于建筑物提取任务,队伍使用包含加权框融合技术的两阶段结果融合处理。对于高度估计任务,队伍使用投票后的二值掩码对逐像素高度最大化的估计结果进行背景滤波得到最终的DSM结果。该方案突破了多任务学习中的任务间竞争及共享特征表征能力差等技术瓶颈问题,实现了互助学习下的建筑物提取与高度重构之间的有效融合。
据了解,西安电子科技大学人工智能学院焦李成院士团队在遥感领域有30多年的经验积累,人才培养效果显著。让学生通过学术竞赛快速提升科研能力、加强学术交流是人工智能学院人才培养的举措之一,“赛中学”能够让学生保持科研的动力,也锻炼了学生的组织能力、团队写作能力与抗压能力等。近年来,智能学子们屡次在IGARSS、CVPR、ICCV、ECCV等多项国际顶会赛事中斩获冠亚季军奖项达百余项。同时,学院学生也在各顶级权威期刊与会议上发表多篇论文。