字节跳动 InfiniteYou:文生图黑科技,换场景不换脸

AI1个月前发布 小强
1 0 0
推出了一款名为 (InfU)神器,这是一款文本到图像的生成模型,能够根据你输入的文字描述,生成带有你个人身份特征的高质量图像。
这可不是简单的换脸 App 能比的,它更注重的是在灵活变换场景和内容的同时,精准保留你的身份特征。想象一下,你可以轻松生成自己穿着宇航服漫步太空、身着古装穿越回古代的照片,而且保证那张脸还是你自己的,是不是很酷?
InfiniteYou”之所以能做到这一点,背后可有着一套“组合拳”。
  • 核心武器:InfuseNet。“ InfiniteYou”的核心是一个名为 InfuseNet 的秘密武器。它可以将你的身份特征巧妙地注入到被称为 Diffusion Transformer (DiT) 的先进(比如 FLUX)中。InfuseNet 像一位技艺高超的化妆师,通过“ 残差连接”这种精细的操作,在增强人脸相似度的同时,还不破坏原有的生成能力。
  • 多阶段训练:精益求精。“ InfiniteYou”的炼成并非一蹴而就,而是经历了 预训练 和使用 合成的单人多样本(SPMS)数据进行监督微调(SFT)等多重考验。这种精细化的训练策略,能够显著提升文本和图像的对齐度,让生成的图像更符合你的文字描述,同时还能 提高图像质量和美观度,并有效 缓解“换脸”后常见的面部复制粘贴问题
  • 模型“双保险”:各有侧重字节跳动这次还贴心地发布了 aes_stage2sim_stage1 两个模型版本。 aes_stage2 是经过第二阶段微调的模型, 默认情况下拥有更好的文图对齐度和美观性。如果你更看重 人脸的相似度,那么可以选择 sim_stage1。这就像买手机,一个注重拍照效果,一个注重性能,总有一款适合你。
通过对比实验可以看出,“ InfiniteYou”在 身份相似性、文本图像对齐、图像质量和美观度 等方面,都超越了现有的先进方法,比如 FLUX.1-dev IP-Adapter 和 PuLID-FLUX。那些方法要么人脸不像,要么文字描述和图像内容不符,要么就是图像质量堪忧,甚至出现“换脸”后脸部特征生硬粘贴的问题。相比之下,“ InfiniteYou”的表现更加全面和出色。
更令人惊喜的是,“ InfiniteYou”还具备“即插即用”的特性。它可以与 FLUX.1-dev 的各种变体(比如更高效的 FLUX.1-schnell)、ControlNets 和 LoRAs 等现有工具无缝集成,提供更强的可控性和定制化能力。甚至还可以与 IP-Adapter 结合,实现个性化图像的风格迁移。这种强大的兼容性,无疑将为更广泛的社区做出有价值的贡献。
需要注意的是,“ InfiniteYou”目前是基于 Creative Commons Attribution-NonCommercial4.0International Public License 发布的,仅供学术研究使用。下载和使用相关的模型(如 InsightFace 的人脸模型、FLUX.1-dev 基础模型和 LoRA 等)必须遵守其原始许可。同时,开发者也希望用户能够遵守当地法规,负责任地使用这项,避免任何潜在的滥用行为。
© 版权声明

相关文章

暂无评论

none
暂无评论...