西电新闻网讯(通讯员杨育婷)近日,西安电子科技大学人工智能学院收到CVPR 2024国际竞赛组委会发来的喜报。人工智能学院参赛队伍已取得3冠3亚2季军奖项,同时,获奖队伍均收到竞赛主办方邀请,将获奖的竞赛方法在workshop会议上进行报告或者展示。计算机视觉和模式识别会议 (CVPR) 是全球计算机视觉领域顶级会议之一,本次竞赛由国家自然科学基金重点项目,教育部创新团队,国家学科创新引智基地等项目支持。
博士研究生路小强、杨育婷、孙龙组成的学生队伍斩获“CVPR 2024物理视觉与深度学习(PBDL)挑战赛”低光照目标检测赛题与低光照实例分割赛题两项冠军奖项。
路小强、杨育婷、孙龙
与光线充足的环境相比,低光照图像通常存在细节丢失、颜色失真以及显著噪声等问题,进而损害下游视觉任务性能。PBDL低光照目标检测竞赛旨在提升目标检测技术在低光照条件下准确定位和分类目标的能力,数据集包含从室内场景(类别:瓶子,椅子,餐桌,电视)和室外场景(类别:自行车,汽车,摩托车,公交车)中收集的2230张图像。赛题1与赛题2数据集相同但任务不同。赛题1任务为低光照目标检测,赛题2任务为低光照实例分割。
针对低光照目标检测,队伍首先利用Retinexformer对数据进行低光照增强实验。虽然可视化结果显示增强后的图像对比度明显增强且细节更加丰富,但是下游的检测性能却出现了显著的下降。经过分析,队伍发现正常光照下的目标数据缺乏导致了增强结果之间存在域漂移和分布差异大的问题,从而限制了检测性能。因此,队伍提出了利用Object365和COCO数据集进行大规模预训练,通过引入宽泛场景下的域知识来缓解域漂移问题;利用基于焦点自注意力机制的FocalNet骨干网络捕获感兴趣的视觉特征;利用DINO检测算法进行提取特征去噪训练,从而实现端到端的精准目标定位与分类;最后采用多尺度多模型加权框融合技术,进一步增强模型在测试阶段的泛化能力。该方案突破了低光场景下目标识别困难、语义混淆等难点,解决了传统检测器在极端场景下泛化能力低的问题,实现了高性能的目标精准检测。
针对低光照实例分割,队伍首先利用CIDNet对数据进行低光照增强实验。接着,队伍采用与赛道1相同的大规模预训练方案和融合等后处理方式。与检测任务不同,分割任务中主要利用了基于空间先验机制的ViT-Adapter骨干网络捕获特定下游视觉任务的多尺度特征,结合Hybrid Task Cascade分割算法进行渐进式特征互补学习,以实现精准的目标分割。该方案突破了极端场景下前景背景边缘模糊、像素级语义分类困难等难点,解决了传统分割器在跨域场景下低性能的问题,实现了高效的目标精准识别与分割。
由2023级硕士研究生缑雪健、王芹亮、刘洋组成的学生队伍获得了“CVPR 2024物理视觉与深度学习(PBDL)挑战赛:RAW图像的过曝矫正”赛题冠军;赵世展、张延昭、延李波组成的学生队伍和李国鑫、高琼、车晨悦组成的学生队伍分别获得该赛题亚军和季军奖项。
缑雪健、王芹亮、刘洋
由于过度曝光图像带来了一系列独特的挑战,可能会严重破坏图像的完整性,丢失重要细节。该竞赛使用RAW image-based Realworld Paired Over-exposure (RPO)数据集。该数据集包括从各种场景中收集的配对图像。每张短曝光(正常曝光)图像都与具有 4 种比例(x3、x5、x8、x10)的长曝光(过度曝光)图像配对。该赛题旨在检索过度曝光区域丢失的信息,重新平衡颜色分布,并恢复动态范围。
针对原始训练数据特殊的Raw格式问题,冠军队伍利用Matlab对原始图像进行格式预处理,大幅度降低图像的曝光程度。预处理方案缓解了Raw格式过度曝光图像的矫正困难的问题。针对曝光程度问题,队伍采用RECNet模型作为基线对不同曝光比例的数据统一进行恢复训练,结合Omni-SR模型提高矫正后的图像质量。最终,队伍成功实现了将过度曝光的原始图像转化为正常图像的方案,并取得了出色的曝光校正效果。该方案成功突破了Raw格式下过度曝光图像进行曝光校正的技术难点,有效解决了曝光校正中丢失过度曝光区域信息的问题。
由2023级硕士研究生刘欣雨、张京和博士生张柯欣组成的参赛队伍获得了 “CVPR 2024 PBDL挑战赛:低光RAW图像增强”赛题亚军。
刘欣雨、张京、张柯欣
低光照条件下拍摄的图像质量常受环境或技术限制影响,导致细节退化、色彩失真和严重噪音等视觉感知问题。除了sRGB领域的低光增强外,RAW格式也备受关注,其保留了更高的位深度和线性。该数据集包含了使用佳能EOS 5D Mark IV相机以不同曝光比拍摄的成对普通/低光图像。这些图像具有多样的场景,并且是静态的,以确保数据的一致性。由于这些图像是RAW格式,低光照增强面临着高位深度、无压缩和大动态范围等挑战,需要采用更复杂的算法进行处理。
队伍首先对 RAW 图像信息做了分析统计和常规处理,分析和确定了所提供数据集的基本分布特点。随后,队伍以LED模型为基础,并使用U-Net作为骨干网络。为实现特征空间的对齐,队伍在U-Net的所有3x3卷积层中额外添加了权重和偏置。在此基础上,队伍对训练数据进行重新组合微调以进一步提高模型性能。经数据分析和基本分布特点的研究,队伍选取了12张高效数据进行模型重新训练微调。经计算和分析原始数据的曝光比率,队伍最终将平均曝光比率参数设置为10,并在测试集上进行了推理验证。该方案缓解了因RAW域数据量大而导致的高时间计算成本的问题,为更高效地处理RAW域数据提供了有益的指导和启示。
由2023级硕士研究生王芹亮、缑雪健、刘洋组成的学生队伍获得了“CVPR 2024 PBDL挑战赛:具有真实运动的低光RAW视频去噪”赛题亚军;于欣悦、贾森、张君沛组成的学生团队获得了同赛题季军。
于欣悦、贾森、张君沛
本赛题旨在促进低光照条件下视频图像数据增强的算法研究。赛题数据是改善低光视频去噪的专用数据集-低光原始视频增强数据集LLRVD。它包含210个视频序列,且每个视频序列包含6个不同的噪声水平。该数据集捕获了复杂的现实运动,提供了高质量的噪声图像和干净图像对。该赛题的目标是对具有现实运动实际低光照环境条件的视频图片数据进行去噪增强处理。
亚军队伍提出了一种任务分解的策略,将原始低光视频数据增强任务分为低光视频恢复和视频去噪两个子任务。与以往采用端到端增强的解决方案不同,该策略注重对低光视频恢复后的数据携带的噪声进行准确估计,以便有效消除各种水平的噪声。这种策略的优势在于对噪声进行更精细的处理,从而提高了整体增强效果的质量和准确性。在低光视频恢复的子任务中,队伍采用了Shift-Net网络。该网络在保持原始噪声分布的同时,合理利用帧间时序信息。接着,队伍使用RVRT网络对低光视频恢复后的数据进行去噪处理。该方案有效地缓解了低光视频数据去噪不完全的问题,为智能手机等终端设备低光摄影的发展带来了重要的推动作用。
据悉,西安电子科技大学人工智能学院焦李成教授团队在遥感领域拥有超过30年的经验积累,并在国际计算机视觉与模式识别会议(CVPR)等国际顶级会议上取得了卓越成就。团队带领智能学子在各种专业竞赛中屡获佳绩。通过参与学术竞赛,学生们快速提升了科研能力,加强了学术交流,这也是人工智能学院人才培养的重要措施之一。“赛中学”不仅帮助学生快速掌握相关领域的知识,提高了他们从事科研工作的动力,培养了学生的组织协作能力和抗压能力。在过去几年的IGARSS、CVPR、ICCV、ECCV等国际赛事中,团队已经累计获得了百余项国际冠亚季军奖项,取得了显著的人才培养成果。