真假难辨！AI人像生成再进化！HyperHuman：基于隐式结构扩散的超逼真人像生成-轻识

大家好，今天和大家分享最新的一篇 AI生成相关的工作，本文的重点在于对于人像生成的优化，之前的工作，例如stable diffusion等，对于真人生成效果存在一定的缺陷，基于此为出发点，本文贡献了新的数据集，并提出一个新的隐式结构扩散模型结合姿态图、深度图等，生成更逼真的人像图片。

好久没更新原创啦，兄弟们点点赞，以后多多更新，fighting！！！

欢迎大家留言，你更想看到的内容，实战？论文？或经验分享？

https://snap-research.github.io/HyperHuman/

https://github.com/snap-research/HyperHuman

https://snap-research.github.io/HyperHuman/content/hyperhuman.pdf

标题：HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion

背景：

现在文本到图像模型取得了重大进展，但实现超逼真的人类图像生成仍然是一项理想但尚未解决的任务。现有模型（例如stable diffusion和 DALL·E 2）往往会生成部分不连贯或姿势不自然的人像图片。为了应对这些挑战，作者认为，人类图像本质上是跨多个粒度的结构，从粗粒度的身体骨骼到细粒度的空间几何。因此，在一个模型中捕获显式外观和隐式结构之间的这种相关性对于生成连贯且自然的人像图片至关重

主要贡献：

提出了一个统一的框架 HyperHuman，它可以生成高度真实和多样化布局的开放场景下的人像图片。具体如下：

1）首先构建以人类为中心的大规模数据集，名为 HumanVerse，它由 3.4 亿张图像组成，具有人体姿势、深度和表面法向量等详细标注。

2）提出了一种隐式结构扩散模型（Latent Structural Diffusion Model），该模型可以同时对深度和表面法向量以及合成的 RGB 图像进行去噪。模型在统一网络中强制执行图像外观、空间关系和几何形状的联合学习，其中模型中的每个分支在结构意识和纹理丰富性方面相互补充。

3）最后，为了进一步提高视觉质量，提出了一种结构引导细化器来组合预测条件，以更详细地生成更高分辨率。大量的实验表明，我们的框架具有SOTA的性能，可以在不同的场景下生成超逼真的人类图像。

效果展示：