(通讯员:曾泽群)近日,计算机视觉与模式识别大会(The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023,简称CVPR 2023,https://cvpr2023.thecvf.com/)公布了其论文录用的结果。作为国际公认的计算机视觉和机器学习领域顶级会议,CVPR大会每年都会吸引来自学术界和工业界的广泛关注,其收录的论文也代表了领域当今最前沿的研究成果,本届CVPR共收到9155篇有效投稿,录用2360篇,录用率为25.78%。本次,雷达信号处理全国重点实验室陈渤教授团队的博士生曾泽群和副教授张昊合作完成的工作《ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing》被录用。
该项工作成果结合团队以往在概率模型建模上的相关经验知识,提出了一种基于吉布斯采样的非自回归零样本图像字幕生成方法。吉布斯采样是一种蒙特卡洛概率近似方法,可以通过已知条件概率分布获得未知联合概率分布的估计。提出的模型将基于图像内容的文本生成任务建模为迭代形式的基于上下文的完型填空任务,将句子中每个位置的单词视为随机变量,通过对句子中每个位置上的单词基于上下文进行条件采样更新,在多次迭代后整个句子最终收敛于各位置单词联合分布。此方案相较于传统自回归条件文本生成方案,生成结果具有更强的多样性和随机性。此外,借助先进的大规模预训练模型中包含的先验知识以及额外的知识库,本文该成果可以实现无需训练样本和训练过程,即在零样本的条件下,灵活应用于下游条件文本生成任务。本模型的整体框架如下图所示。
同时,该工作还将此框架进一步扩展到各个可控文本生成任务上来,将基于图像内容的可控文本生成,分解为独立的文本生成、图像文本匹配、约束文本匹配三个模块,并在多个可控任务,如情感控制、词性控制、长度控制等任务上取得了较好的结果。部分可控结果如下图所示。
该成果发表是国际学术领域对实验室科研工作的认可,一方面扩大了实验室的学术影响力,另一方面也促进了实验室与领域内顶尖学者的交流以及对该领域最新研究进展的了解。实验室将继续鼓励师生积极探究前沿科技,提升综合素质。