当前位置:

电子工程学院3篇成果被CVPR 2023录用


(通讯员赵彤璐)近日,计算机视觉与模式识别大会(The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023,简称CVPR 2023)公布了论文录用结果。电子工程学院共计3篇论文被录用,分别是邓成教授团队武阿明博士的《Discriminating Known from Unknown Objects via Structure-Enhanced Recurrent Variational AutoEncoder》和杨木李博士的《Bootstrap Your Own Prior: Towards Distribution-Agnostic Novel Class Discovery》、陈渤教授团队曾泽群博士和张昊副教授合作完成的《ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing》。

作为国际公认的计算机视觉和机器学习领域顶级会议,CVPR大会每年都会吸引学术界和工业界的广泛关注,其收录的论文代表了该领域最前沿的研究成果。本届CVPR共收到9155篇有效投稿,录用2360篇,录用率25.78%。

武阿明博士的论文“Discriminating Known from Unknown Objects via Structure-Enhanced Recurrent Variational AutoEncoder” 提出了循环变分自编码网络用于合成虚拟的分布外特征,同时利用 LoG 算子来增强物体的结构信息,有效缓解了训练过程中缺乏分布外数据的问题。实验结果证明所提方法能够有效地合成分布外特征,显著提升了分布外目标检测的性能。

杨木李博士的论文“Bootstrap Your Own Prior: Towards Distribution-Agnostic Novel Class Discovery”提出类分布无关的新类发现任务,设计了动态温度调整策略来提升模型预测的置信度,从而促进更为精准的类别分布先验估计。基于估计得到的类分布先验,BYOP可为新类样本提供更准确的伪标签,并促进下一次的训练迭代。实验结果表明BYOP在各种类别分布情况下均展现出一致的有效性。

曾泽群博士和张昊副教授合作完成的成果结合团队以往在概率模型建模上的相关经验知识,提出了一种基于吉布斯采样的非自回归零样本图像字幕生成方法。此方案相较于传统自回归条件文本生成方案,生成结果具有更强的多样性和随机性。此外,借助先进的大规模预训练模型中包含的先验知识以及额外的知识库,本文可以实现无需训练样本和训练过程,即在零样本的条件下,灵活应用于下游条件文本生成任务。同时,该工作还将此框架进一步扩展到各个可控文本生成任务上来,将基于图像内容的可控文本生成,分解为独立的文本生成、图像文本匹配、约束文本匹配三个模块,并在多个可控任务,如情感控制、词性控制、长度控制等任务上取得了较好的结果。

此次3篇成果的录用体现了国际学术领域对电院师生科研成果的认可,既扩大了学院的学术影响力,又促进了师生与领域内顶尖学者的交流及对该领域最新研究进展的了解。

(文字来源:MIRACLE Lab;雷达信号处理国家级重点实验室)

责任编辑:赵彤璐