随着AI技术的快速发展,个性化图像生成技术成为科学界乃至整个社会的关注焦点,一个人人都可以生产图像的时代似乎即将到来。
为帮助同学们了解个性化图像生成的原理、现有技术的发展与应用情况,5月9日,先进视觉研究所举办第四期“学术沙龙”活动,邀请南开大学杰出教授、计算机系主任程明明,带来题为“高效能个性化图像生成”的报告,带领同学们进入个性化图像生成的研究领域,90余名学生参加讲座。
程明明教授介绍,以大模型为代表的多模态图像生成技术可以有效地根据文本信息生成高质量的图像,是图像生成技术发展过程中的又一突破。
然而,程明明教授关注到,现有多模态生成技术仍存在明显的弊端,具体表现为在模型训练和个性化生成方面的效率较低。他以最近AI生成领域内的“顶流”——Sora模型为例,解释该模型虽然可以生成数十秒的流畅视频,但其训练代价高、效率低。造成这一结果的原因在于Sora的核心组件Difussion Transformer (DiT) 经常需要数十万次地迭代训练才能生成高质量的图像。同时,在用户想要生成个性化图像时,需要对模型进行微调,而这一过程经常需要耗费数十分钟。Sora的低效率极大阻碍了其大规模的推广与应用。
如何有效解决多模态生成技术的低效率问题?程明明教授认为,可以通过提升结构信息建模能力和个性化信息编码能力,有效规避这一问题。基于这一构想,程明明教授团队提出了文生图像模型Masked Diffusion Transformer (MDT) ,以提高扩散模型的训练效率和生成质量。
程明明教授介绍,MDT给出的核心解决方案在于提出了一种针对DiT设计的mask modeling表征学习策略,能够增强DiT对上下文语义信息的学习能力,让该模型变得更“善解人意”,学习图像中语义部分之间的关联关系,进而提升图像生成的质量和学习速度。相较于基准模型DiT,MDT的训练步骤和时间显著缩短,能够将个性化图像生成领域主流方法的性能提升2个数量级以上,效能提升10+倍。
报告结束后,同学们积极提问。李珂博士和梁萧博士从语义空间中引入补充信息、语义控制的难点等方面与程明明教授深入交流,活动在热烈的讨论中圆满结束。
本次“学术沙龙”活动,不仅帮助同学们深入理解了AI生成领域的前沿技术,也搭建了一个青年学子与专家学者互动交流的平台。接下来,先进视觉研究所将继续依托“学术沙龙”系列活动,持续策划形式多样、内涵丰富的学术活动,提升同学们的科研素养和创新实践能力,为他们打造更加宽广的学术视野和成长空间。(通讯员:李少峰)
主讲人介绍:
程明明,南开大学杰出教授,计算机系主任。主持承担了国家杰出青年科学基金、优秀青年科学基金项目、科技部重大项目课题等。主要研究方向是计算机视觉和计算机图形学,在SCI一区/CCF A类刊物上发表学术论文100余篇(含IEEE TPAMI论文30余篇),h-index为80,论文谷歌引用5万余次,单篇最高引用4900余次,多次入选全球高被引科学家和中国高被引学者。技术成果被应用于华为、国家减灾中心等多个单位的旗舰产品。获得教育部自然科学一等奖2项、其他省部级科技奖2项。培养的3名博士生获得省部级优秀博士论文奖。现担任中国图象图形学学会副秘书长、天津市人工智能学会副理事长和顶级期刊IEEE TPAMI, IEEE TIP和《中国科学:信息科学》编委。