肖 勇,李步升,余焱林,周文波,杨利华,邱望仁,肖卓豪
(景德镇陶瓷大学,江西 景德镇 333403)
摘 要:古陶瓷图像生成是文化遗产数字化与虚拟复原的重要基础,但通用文生图模型在器型结构控制和装饰语义表达方面仍存在不足。针对古陶瓷轮廓复杂、纹饰精细以及中文描述噪声较大的问题,本文提出一种融合实例分割与扩散模型的高保真图像生成框架。首先利用GroundingDINO与SAM2完成器物检测和实例分割;不同于直接使用原始二值掩码或仅采用普通形态学平滑的方法,本文进一步设计HiRes-APD风格掩码正则化策略,通过超采样平滑与面积一致性重采样改善边界稳定性,并构造灰度软掩码用于边界过渡与融合。随后将正则化结构掩码与文本提示共同输入ControlNet引导的Stable Diffusion模型,在器物区域内生成纹饰,并通过领域微调增强模型对古陶瓷器型、釉色和装饰语义的适配能力。在30个验证样本上的实验结果表明,本文方法的平均Mask IoU为0.8371,平均CLIP Score为0.984±0.051。对比实验表明,ControlNet是实现高结构一致性的关键模块,领域微调进一步提升了文本—图像语义匹配与风格表达能力;消融实验表明,系统的结构控制上限仍主要受前端结构条件准确性制约。该方法可为古陶瓷数字展示、创意设计与相关方法研究提供一种可控图像生成思路。
关键词:古陶瓷;文本生成图像;语义驱动;实例分割;ControlNet;领域微调