小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上...-轻识

本文经机器之心（微信公众号：almosthuman2014）授权转载，禁止二次转载

机器之心编辑部

只需一张照片，整个过程无需训练 LoRA 模型，多风格 AI 写真即刻呈现！

最近，有一群来自小红书的 95 后神秘团队，自称 InstantX，搞了个大动作 —— 开源「InstantID」项目。 InstantID 凭借着高质量的图像生成能力，在开源界掀起了一股热潮：不仅获得了众多技术大佬的点赞，更是在 GitHub 热榜上迅速飙升，成为焦点。这个「出片神器」，让用户只需上传一张照片，就能轻松定制出多种风格的 AI 写真。

对，你没看错。如图左侧所示，与之前爆火的妙鸭相机至少需要上传 20 张照片不同的是，InstantID 只需一张自拍，不依赖模型训练，不需要等待，瞬间变身。无论是古典油画的优雅，炫酷的赛博朋克，或是 3D 雕像的立体感，只要是你喜欢的风格，InstantID 都能轻松驾驭。它不仅风格多样，还能在保持人物面部高保真的同时，无需模型训练，实现秒级出图，效率大幅提升。 InstantID 目前位列 Hugging Face Space Trending 榜首，许多小伙伴玩得不亦乐乎～比如，把马斯克送上了火星。

让蒙娜丽莎拍「樱花写真」，微笑依旧很神秘。

甚至可以让语文课本中的杜甫从二维变三维，穿越到现代变身「帅大叔」。

图灵奖得主 Yann LeCun，化身多种动漫人物，你猜出了几个角色？

就连 Yann LeCun 本人也点赞转发，调侃自己的「钢铁侠」衣服在哪里。

在个性化图像合成领域，实现强烈风格化写真的同时保持面部高保真度，一直是个挑战。从效果上看，InstantID 做到了。那它背后运用了哪些方法，有什么独到之处吗？

回顾过去，尽管 Textual Inversion、 DreamBooth 和 LoRAs 等技术已经取得了重大进展。但它们在实际应用中仍受限于高存储需求、耗时的微调过程以及对多张参考图像的依赖。相比之下，现有基于 ID 嵌入的方法虽然只需一次前向推理，但也面临不小挑战：要么需要对大量模型参数进行广泛的微调，要么与社区预训练模型不兼容，要么无法保持高真实性。 InstantID 的出现，打破了这些局限。小红书 InstantX 团队公开了论文《 InstantID: Zero-shot Identity-Preserving Generation in Seconds 》和推理代码，他们表示：InstantID 巧妙地避免了对文生图模型 UNet 部分的训练，仅通过训练一个轻量级的可插拔模块，实现了在推理过程中无需 test-time tuning，同时保持了文本控制的灵活性，确保了面部特征的高保真度。

如图所示，InstantID 的工作原理可分为三个关键部分：

ID Embedding：团队利用预训练的面部识别模型代替 CLIP 来提取语义人脸特征，并使用可训练的投影层，将这些特征映射到文本特征空间，形成 Face Embedding，具有丰富的语义信息，包括如面部特征、表情、年龄等，为后续的图像生成提供了坚实的基础。
Image Adapter：引入一个轻量级的适配模块，将提取的身份信息与文本提示结合起来。这个模块通过解耦的交叉注意力机制，使得图像和文本能够独立地影响生成过程，从而在保持身份信息的同时，允许用户对图像风格进行精细控制，实现「双赢」。
IdentityNet：小红书提出了一个名为 IdentityNet 的网络，是 InstantID 的核心部分。它通过强语义条件（如面部特征的详细描述）和弱空间条件（如面部关键点的位置）来编码参考面部图像的复杂特征。在 IdentityNet 中，生成过程完全由 Face Embedding 引导，无需任何文本信息。仅更新新添加的模块，而预先训练的文本到图像模型保持冻结以确保灵活性。

在实际的图像生成过程中，InstantID 首先会接收到用户的文本提示和面部图像。然后通过 ID Embedding 提取关键信息，接着 Image Adapter 将这些信息与文本提示融合。IdentityNet 会根据这些融合后的信息生成图像。整个过程是自动化的，用户不需要进行任何额外的微调或训练，只需等待二十几秒，就能得到一个既符合文本描述又保留个人身份特征的定制图像。

InstantID 不仅解决了训练效率与身份保真度之间的平衡问题，还提供了一系列令人印象深刻的特性。首先，InstantID 的即插即用和兼容性是其最大的卖点之一。它无需对 UNet 进行额外训练，即可与现有的预训练模型无缝集成，如社区内的文生图基础模型、LoRAs 和 ControlNets。这意味着用户可以在不增加成本的情况下，轻松地在推理过程中保持人物的身份特征，裂变性强。

其次，InstantID 的无需微调特性，使得它在实际应用中极具经济性和实用性。用户只需进行一次前向传播，即可快速生成图像，同时保持对文本编辑的强大控制力，让身份信息与各种风格完美融合。如下图所示，其编辑性强的特点让用户能够通过文本控制性别、头发、服装等细节，确保生成图像的多样性。

性能方面的表现同样卓越，它能够仅凭一张参考图像，就生成具有高保真度和灵活性的先进结果。这一性能不仅超越了基于单张图片特征的嵌入方法，如 IP-Adapter-FaceID，而且在特定场景下，其效果与 ROOP、LoRAs 等方法不相上下。

对于相似度有更高要求的真人写真场景，InstantID 也能完成得不错。不仅能够在秒级时间内完成高质量的图像生成，还避免耗时的 LoRa 训练，相比妙鸭成本更低，大约是其 1/300。通过精细化控制脸部区域，InstantID 能够增强脸部相似度，同时保持整体风格的和谐。

此外，InstantID 的分区域生成方案支持多人多风格的图像生成，耗时基本无增。

它的鲁棒性和泛化性，使其能顺利处理夸张的五官比例。

多视角的生成也没问题。按你指定的姿势图和面部特征，生成新的 AI 写真。

InstantID 的可扩展性良好，能够快速支持多种衍生功能。比如快速换脸。与 Inswapper 相比，InstantID 生成的作品在面孔和背景的融合上更加灵活。

ID 信息插值。InstantID 支持两脸自定义融合，保留双方特征。

非人像与 ID 的结合，很有特点。

聊到这儿，不妨你亲自尝试一下，感受它的魅力。操作方式非常简单，进入 InstantID 的 Demo 页面，直接上传照片，便可免费体验： https://huggingface.co/spaces/InstantX/InstantID

InstantID 的这些优势，不仅为个人用户提供了强大的创作工具，也为商业应用如电子商务、广告和娱乐产业开辟了新的可能性。InstantID 本次表现令人惊喜，其高效、灵活、强大的性能和易用性，印象深刻。期待小红书该开源项目的后续进展，未来能在多个领域发挥出更大的价值。附录：

论文地址：https://arxiv.org/abs/2401.07519
InstantID 主页：https://instantid.github.io/
Demo 尝鲜：https://huggingface.co/spaces/InstantX/InstantID

---END---