DB游戏最近,基于扩散模型的文本和图像提示生成服装相关图像的技术取得了令人兴奋的进展。然而,目前的方法在支持多种服装组合方面存在不足,同时在保留服装细节和忠实呈现文本提示方面表现欠佳,这限制了它们在多样化场景中的表现。为了解决这些问题,字节提出了一个新任务:
AnyDressing采用双网络架构。GarmentsNet(服装网络):专注于提取服装的细节特征,能够并行编码每件服装的纹理细节,避免混淆,同时确保运算效率;DressingNet(试穿网络):负责生成定制化的图像,能够精准地将多服装特征注入到图像中的对应区域。AnyDressing 不仅解决了多服装组合和细节保留的问题,还能更好地与文本提示匹配。AnyDressing 非常适合各种场景和复杂的服装。并且,AnyDressing 与 LoRA 以及 ControlNet 和 FaceID 等插件很好的兼容。
给定N件目标服装,AnyDressing可以定制一位穿着多件目标服装的角色。GarmentsNet利用服装特定特征提取器(GFE)模块,从多件服装中提取详细特征。DressingNet通过试穿注意力(DA)模块和实例级服装定位学习机制,将这些特征整合用于虚拟试穿。此外,服装增强纹理学习(GTL)策略进一步提升了细节表现。
由于对比方法缺乏多服装支持,通过将多件服装沿空间维度拼接作为输入,获得了基准结果。下图展示了AnyDressing方法与基准方法的视觉对比。AnyDressing在服装风格和纹理一致性方面保持了优越性,并且表现出更好的文本忠实度,而其他方法在保持服装细节和文本忠实度之间难以平衡。
特别地,基准方法在多服装试穿结果中遇到了显著的背景污染和服装混淆问题,而AnyDressing方法展现了出色的可靠性,这归功于GarmentsNet和DressingNet双架构。AnyDressing作为插件模块与其他扩展和定制LoRA结合后的结果,展示了其强大的兼容性。