近日,我集团孙万捷副研究员课题组在极端倍率图像重采样方向取得最新研究进展,相关研究成果《Timestep-Aware Diffusion Model for Extreme Image Rescaling》被计算机视觉领域国际顶级会议IEEE International Conference on Computer Vision(ICCV 2025)接收。论文第一作者为我集团2024级硕士研究生王策,通讯作者为孙万捷副研究员。
图像重采样旨在利用自然图像存在的视觉冗余,构建一个最有利于超分辨率重建过程的降采样过程,在超高分辨率图像的存储与传输优化、遥感影像压缩与还原、无人系统视觉感知、智能终端图像显示等多种典型场景中具有广泛应用前景。随着超高分辨率图像的大量出现,目前亟需极端倍率的图像重采样方法以去除更多的视觉冗余。然而,由于重采样任务的病态特性,当前的主流方法面对极端倍率图像重建时往往会出现语义错误和纹理模糊等问题,难以推广到实际应用场景中。为了解决以上问题,此项工作创新性地提出了一种时间步感知扩散模型TADM,首次将时间感知扩散模型与潜空间重采样机制结合,成功突破了现有方法16×甚至32×极端倍率下图像语义结构重建不准确、纹理丢失等瓶颈。实验结果显示,TADM在多个数据集上,在感知质量与结构恢复准确性上全面超越现有主流方法。
图1 TADM模型架构示意图
TADM包括四个阶段:隐空间编码、隐空间重采样、隐空间增强和隐空间解码。在隐空间重采样阶段,基于可逆神经网络设计了一种解耦特征重采样策略。它可以将低分辨率图像生成从重采样操作中解耦出来,从而充分去除视觉冗余,提升重建特征的准确性。在隐空间增强阶段,基于预训练Stable Diffusion(SD)模型设计了一种单步扩散的时间对齐机制。时间对齐机制创新性地将重采样退化与扩散模型的前向加噪过程联系在了一起,通过时间步预测模块和可学习时间调度器等独特的设计让整个框架可微,从而允许端到端的训练和单步快速推理。在大量高分辨率图像数据集上的实验结果表明,TADM的重建结果在定量指标和视觉效果上均具有显著优势。
图2 SGDM超分辨率重建的可视化结果
近年来,孙万捷副研究员课题组围绕真实场景极端倍率图像处理方向持续深耕,已先后指导本科生和研究生在国际顶级期刊IEEE TPAMI, IEEE TIP、ISPRS P&RS上发表多篇相关成果。系统地构建起了涵盖图像降采样、图像超分辨率重建、图像压缩全流程的技术框架,奠定了在该方向的持续创新能力与领先优势。
本研究成果得到了国家自然科学基金青年项目(62201403)和湖北省自然科学基金面上项目(2024AFB549)的支持。
论文链接:https://arxiv.org/pdf/2408.09151
项目开源代码:https://github.com/wwangcece/TADM
———————————————————————————————————————
欢迎优秀学生加入课题组参与科研实践
孙万捷副研究员课题组专注于高性能图像重建、图像压缩、图像生成模型等图像质量增强方向。近年来,团队承担了多项国家级和省部级科研项目,聚焦解决超高分辨率图像在实际应用中遇到的挑战,取得了一系列具有国际影响力的研究成果。课题组诚挚欢迎对计算机视觉、人工智能、图像生成与遥感图像智能分析等方向感兴趣的本科生和研究生申请加入团队,参与高水平科研项目,共同开展前沿技术研究。
课题组将为学生提供:
l 高水平论文发表与国际顶会交流机会;
l 稳定的科研支持与指导机制;
l 参与真实科研项目、解决实际应用问题的实践平台;
l 优秀的科研氛围与合作环境。
个人主页:https://sunwj.github.io/
联系方式:sunwanjie@whu.edu.cn