近日,人工智能学院梁雪峰教授团队的最新研究成果“Multi-pattern Mining using Pattern-level Contrastive Learning and Multi-pattern Activation Map”被IEEE Transactions on Neural Networks and Learning Systems(TNNLS)期刊论文收录。论文链接:https://ieeexplore.ieee.org/document/9944792
IEEE Transactions on Neural Networks and Learning Systems(TNNLS)是美国电气和电子工程师协会(IEEE)人工智能及机器学习领域国际顶级期刊,旨在出版神经网络和学习系统方面的理论、设计和应用的技术文章,期刊影响因子为14.255。
该研究提出了一种新颖的视觉任务“多模式挖掘”,该任务旨在挖掘复杂类别中的不同模式,它的挑战在于要同时完成有监督的分类任务和无监督的聚类任务。多模式挖掘在机器学习领域中鲜有探索,但在社会心理学、文化心理学、创新设计、生物制药领域的复杂问题解决中有着广泛的价值。
论文提出一种算法,其由两部分组成:1)模式级对比学习(pattern-levelcontrastive Learning),上图(ab),用无监督的方式提取每类内的多种频繁性模式。2)多模式激活特征图(Multi-pattern Activation Map(MAP)),上图(c),用于更好的联合优化分类和对比学习任务,确保模式同时具有判别性与频繁性。
1)模式级对比学习。频繁性代表了一组数据的共性,但传统对比学习通过学习不同样本之间差异,得到合适的特征分布,是实例级学习,并不关注数据的频繁性。因此,控制loss在优化时对差异的注意程度成为了得到合适模式的必要条件。在文中,我们详细证明了如何通过温度系数、多正样本来控制对比学习的粒度,使其学习从实例级变为模式级,学习到每类内的多种模式。
2)多模式激活特征图MAP。判别性代表两组数据之间的差异与一组数据内的共性,而每个类别内又存在多种频繁性特征。因此,如何确保判别性的类内共性不会让多种频繁性特征趋于相同,成为了两者共同优化的前提。MAP使用了多通道组合技术,让类内的不同频繁性特征,存储于不同的通道中。分类任务可以自主选择合适通道的特征进行判别性优化。
方法在ILSVRC2012,Cifar100,Place,VOC,Travel上都进行了多角度的验证。
上图展示了方法在ILSVRC2012中的“档案室”“南瓜意面”中的结果。红色到深蓝色代表网络从感兴趣到不感兴趣,每张热力图的右上角是原图。可以看出,在“档案室”中,每种模式分别是,整齐排列的档案、人像后的档案、存储档案的柜子三种模式。在“南瓜意面”中,三种模式分别是,完整的南瓜、南瓜壤、做好的意面三种模式。更详细的证明和更多的实验结果见论文:https://ieeexplore.ieee.org/document/9944792。
在此工作之前,该团队还研究了单模态挖掘的问题,相关成果发表在Neurocomputing和ACCV 2020。("A Joint Framework for Mining Discriminative and Frequent Visual Representation",Neurocomputing (ELSEVIER),Vol. 500, pp. 776-790, Aug 2022,IF=5.719)