语义驱动融合实例分割与扩散模型的高保真古陶瓷图像生成方法-景德镇陶瓷大学期刊社

研究与探索

语义驱动融合实例分割与扩散模型的高保真古陶瓷图像生成方法

肖勇，李步升，余焱林，周文波，杨利华，邱望仁，肖卓豪

(景德镇陶瓷大学，江西景德镇 333403)

摘要：古陶瓷图像生成是文化遗产数字化与虚拟复原的重要基础，但通用文生图模型在器型结构控制和装饰语义表达方面仍存在不足。针对古陶瓷轮廓复杂、纹饰精细以及中文描述噪声较大的问题，本文提出一种融合实例分割与扩散模型的高保真图像生成框架。首先利用GroundingDINO与SAM2完成器物检测和实例分割；不同于直接使用原始二值掩码或仅采用普通形态学平滑的方法，本文进一步设计HiRes-APD风格掩码正则化策略，通过超采样平滑与面积一致性重采样改善边界稳定性，并构造灰度软掩码用于边界过渡与融合。随后将正则化结构掩码与文本提示共同输入ControlNet引导的Stable Diffusion模型，在器物区域内生成纹饰，并通过领域微调增强模型对古陶瓷器型、釉色和装饰语义的适配能力。在30个验证样本上的实验结果表明，本文方法的平均Mask IoU为0.8371，平均CLIP Score为0.984±0.051。对比实验表明，ControlNet是实现高结构一致性的关键模块，领域微调进一步提升了文本—图像语义匹配与风格表达能力；消融实验表明，系统的结构控制上限仍主要受前端结构条件准确性制约。该方法可为古陶瓷数字展示、创意设计与相关方法研究提供一种可控图像生成思路。

关键词：古陶瓷；文本生成图像；语义驱动；实例分割；ControlNet；领域微调

DOI: 10.13957/j.cnki.tcxb.2026.03.017

【查看全文】已下载次

打印收藏导出BibTex文件导出EndNote文件导出XML文件

上一条：基于曲率滤波增益和主动轮廓分割的陶瓷基复合材料微损伤特征提取方法