梁继民教授团队论文被计算机视觉顶级会议ECCV2020录用
第十六届欧洲计算机视觉会议 (European Conference on Computer Vision,https://eccv2020.eu/) 将于2020年8月23~28日通过线上举行。该会议是计算机视觉三大顶级会议之一,代表着热门科研领域的最前沿,具有广泛而深远的国际影响力。作为计算机视觉领域国际顶级会议,ECCV对论文质量有较高要求,本届ECCV会议从5025篇有效投稿中最终录用论文1361篇,录用率仅为27%,因此在该会议发表论文表达了对作者工作的高度肯定。
我院梁继民教授指导的博士生牛闯的研究论文《GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering》被今年ECCV录用,该研究属于无监督学习或自监督学习领域。图领奖获得者以及深度学习先驱Geoffrey Hinton和Yann Lecun曾在多次演讲中表示,目前深度学习大多数面临的问题都来自有监督学习,而无监督学习或者自监督学习是人工智能的未来(https://www.cs.cornell.edu/content/unsupervised-learning-next-frontier-ai)。无监督学习已成为当前深度学习研究的热门领域之一,其中复杂自然图像的无监督聚类或无监督分类是无监督学习领域中最具挑战的问题之一。由于没有人工标记指导模型训练,如何优化模型使其能够提取出图像的语义特征,以及如何避免聚类过程陷入简单解是无监督聚类任务在理论上面临的主要挑战;此外,无监督聚类通常需要在一大组图像数据上进行统计分析,如何处理大尺寸图像是无监督聚类任务主要面临的技术挑战。
图1 (a) 标签特征定理;(b) 神经网络模型架构;(c) 自监督学习算法
针对上述问题,本研究提出了标签特征定理,从理论上证明了如何避免简单解,并设计了无监督注意力机制来提取以局部物体为导向的语义特征,这也是第一个将注意力机制与无监督学习结合的工作;从技术上,本研究提出了针对无监督聚类任务的自监督学习算法,具有显著的内存高效性,能够处理现代数据集(如ImageNet)中的大尺寸自然图像。图1(a)~(c)分别展示了本研究提出的标签理论,整体模型结构,以及自监督学习算法。大量的实验结果表明本研究提出的方法极大提高了聚类的准确率,如在STL10数据上比现有最好方法在三个常用聚类性能指标上分别提高了8%,7%和10%。另外,本研究提出的无监督聚类方法在聚类的同时,还能给出局部语义物体的定位(如图2所示),从而使该神经网络模型具有更好的可解释性。
图2 GATCluster在实现无监督聚类的同时能够实现局部物体的定位,具有良好的可解释性
论文信息:
Chuang Niu, Jun Zhang, Ge Wang, Jimin Liang, GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering, European Conference on Computer Vision (ECCV), 2020.