1. 图像结构建模与视觉表观重构理论与方法

① 图像结构建模的理论与方法

建立了基于张量学习的图像结构表示模型,提出了基于高阶张量的层次化图像结构表示方法,统一了图像结构空间变化与尺度缩放的关联关系;设计了基于最优张量子空间学习的结构保持投影算法,理论上证明了该算法的收敛性,避免了小样本问题带来的超大协方差矩阵分解难题,获得了具有较好判别力的图像结构特征。

② 视觉表观重构的理论与方法

建立了图像结构驱动的视觉表观重构模型,揭示了图像结构显著度与视觉感知灵敏度间的同向激励关系。提出了局部结构方向感知算子和非局部结构自相似感知算子,解决了表观重构的逼真度难题;提出了多字典联合学习的非线性拟合方法,构造并简化了原始空间与重构空间的多重多元映射关系,实现了资源受限情况下的快速表观重构。图像奇异性聚合认知的理论与方法。

③ 视觉表观质量评价的理论与方法

提出了图像结构变化的质量客观评价框架,发现了图像结构的统计分布与视觉感知质量之间的内在规律,设计了尺度结构保持的图像质量评价测度,突破了过去难以利用图像结构统计特性刻画质量变化的理论瓶颈。建立了视觉生理-心理特性与图像结构变化之间的映射关系,构建了面向结构感知的图像质量评价准则,实现了主客观感受一致性度量。

2. 面向跨设备多场景视频理解的可视分析技术研究

城市级视频监控系统是平安城市建设的重要内容,已从第一代“看得见”和第二代“看得清”的阶段发展到“看得懂”的第三阶段。由于城市级摄像头网络空间分布广、设备类型和参数差异大,实现城市级视频监控系统“看得懂”面临重大挑战。为此,本方向研究面向跨设备多场景视频理解的可视分析技术,包括:

  • 视频时序行为定位与识别:通过多尺度边界敏感的时序行为定位与识别思路提取完整语义信息
  • 视频异常行为检测:通过基于时域-空域融合特征的检测思路来差异化正常与异常数据的重构质量;
  • 跨设备跨模态行人重识别:对跨模态行人高维特征的模态差异进行度量与约束,以提高特征的模态不变性;
  • 视频目标清晰化:联合先验信息与运动不变性,以提升帧间时序依赖关系的表征能力;
  • 跨域人脸图像合成和跨域图像识别:通过表征解构学习提高跨域图像合成与识别的可懂度。该课题的研究能为网络视频大数据智能分析提供系统的解决方案
3. 视频图像大数据挖掘与深度学习

① 面向浅层特征难以表述视频大数据的困难,研究深度特征编码技术

利用深度神经网络模拟大脑的认知机理,采用多层非线性变换和卷积神经网络算法训练适用于特定视频的网络结构、模型参数,提取强辨识度的深层特征,实现对海量视频图像的有效特征编码。搭建GPU+CPU+MIC的硬件系统,依托超算中心百万级视频数据接入能力,实现深度特征的并行编码运算。

② 面向海量视频信息杂乱无序的问题,研究大数据价值挖掘技术

利用无监督聚类算法实现海量视频关键帧的自适应提取,结合规范化的文本语义先验,采用基于隐含语义的层次化概率图模型,构建高效的视频目标分割与语义信息提取模型,实现视频大数据中有价值信息的有序挖掘。通过在处理器中集成大量计算引擎来构建众核处理器,实现视频的高速解码和并行环路滤波,完成大数据价值挖掘的并行加速运算。

4. 多源视频数据汇聚与对象事件检索

① 面向视频数据来源和结构多样化的问题,研发百万级数据汇聚平台

面对手机图像、遥感图像、监控视频、网络视频等多源异构数据,依托已有百万级数据接入能力,研发流式汇聚平台,利用分布式计算方法完成百万级数据的存入和特征提取。

② 面向公共场所监控设备不断增加的问题,研究多视角视频数据融合技术

利用多任务学习方法模拟大脑实时处理多源数据的学习机制,结合联合学习和迁移学习方法,构建多视角视频数据的关联和融合规则,完成监控视频中目标的融合和再识别。搭建模拟场地,配置全方位监控摄像头,实现对场地内区域的多视角覆盖。

③ 面向视频事件非结构化和多模式的问题,研究分层结构化描述和数据检索技术

利用视觉语义分层模型实现视频事件的结构化描述;采用基于词袋模型的视频检索技术完成特定事件的实时检索;针对事件特征构建主题模型,分析不同事件的分布特征,达到突发事件的高效检测、特定事件的实时分析、未知事件的可信预警。搭建实验场地,配置高清摄像头,模拟特定事件(如防护人员的摔倒),测试检索系统的精度和速度性能。

Baidu
map