建立了基于张量学习的图像结构表示模型,提出了基于高阶张量的层次化图像结构表示方法,统一了图像结构空间变化与尺度缩放的关联关系;设计了基于最优张量子空间学习的结构保持投影算法,理论上证明了该算法的收敛性,避免了小样本问题带来的超大协方差矩阵分解难题,获得了具有较好判别力的图像结构特征。
建立了图像结构驱动的视觉表观重构模型,揭示了图像结构显著度与视觉感知灵敏度间的同向激励关系。提出了局部结构方向感知算子和非局部结构自相似感知算子,解决了表观重构的逼真度难题;提出了多字典联合学习的非线性拟合方法,构造并简化了原始空间与重构空间的多重多元映射关系,实现了资源受限情况下的快速表观重构。图像奇异性聚合认知的理论与方法。
提出了图像结构变化的质量客观评价框架,发现了图像结构的统计分布与视觉感知质量之间的内在规律,设计了尺度结构保持的图像质量评价测度,突破了过去难以利用图像结构统计特性刻画质量变化的理论瓶颈。建立了视觉生理-心理特性与图像结构变化之间的映射关系,构建了面向结构感知的图像质量评价准则,实现了主客观感受一致性度量。
城市级视频监控系统是平安城市建设的重要内容,已从第一代“看得见”和第二代“看得清”的阶段发展到“看得懂”的第三阶段。由于城市级摄像头网络空间分布广、设备类型和参数差异大,实现城市级视频监控系统“看得懂”面临重大挑战。为此,本方向研究面向跨设备多场景视频理解的可视分析技术,包括:
利用深度神经网络模拟大脑的认知机理,采用多层非线性变换和卷积神经网络算法训练适用于特定视频的网络结构、模型参数,提取强辨识度的深层特征,实现对海量视频图像的有效特征编码。搭建GPU+CPU+MIC的硬件系统,依托超算中心百万级视频数据接入能力,实现深度特征的并行编码运算。
利用无监督聚类算法实现海量视频关键帧的自适应提取,结合规范化的文本语义先验,采用基于隐含语义的层次化概率图模型,构建高效的视频目标分割与语义信息提取模型,实现视频大数据中有价值信息的有序挖掘。通过在处理器中集成大量计算引擎来构建众核处理器,实现视频的高速解码和并行环路滤波,完成大数据价值挖掘的并行加速运算。
面对手机图像、遥感图像、监控视频、网络视频等多源异构数据,依托已有百万级数据接入能力,研发流式汇聚平台,利用分布式计算方法完成百万级数据的存入和特征提取。
利用多任务学习方法模拟大脑实时处理多源数据的学习机制,结合联合学习和迁移学习方法,构建多视角视频数据的关联和融合规则,完成监控视频中目标的融合和再识别。搭建模拟场地,配置全方位监控摄像头,实现对场地内区域的多视角覆盖。
利用视觉语义分层模型实现视频事件的结构化描述;采用基于词袋模型的视频检索技术完成特定事件的实时检索;针对事件特征构建主题模型,分析不同事件的分布特征,达到突发事件的高效检测、特定事件的实时分析、未知事件的可信预警。搭建实验场地,配置高清摄像头,模拟特定事件(如防护人员的摔倒),测试检索系统的精度和速度性能。