Stability AI新模型采用对抗性扩散蒸馏技术，图像生成更快品质更好

2023 年 11 月 30 日

Stability AI改进自家着名的文字转图像模型释出SDXL Turbo（Stable Diffusion XL Turbo），藉由应用创新的对抗性扩散蒸馏技术（Adversarial Diffusion Distillation，ADD），将需要的迭代步骤从50步减少到仅剩1步，单步骤就能生成高品质图像。目前Stability AI将模型权重和程式码公开在Hugging Face，供个人和非商业用途使用。

SDXL Turbo模型最大特点，就是能够单步合成影像输出，并在即时文字转影像输出上保持高采样传真度。而之所以SDXL Turbo能够有别於过去的模型，主要原因在於使用了一种称为对抗性扩散蒸馏技术，官方论文提到，这个方法能够只经过1到4步骤高效采样，达到高品质输出图像。

对抗性扩散蒸馏技术以现有的大型图像扩散模型，作为教师讯号，并结合对抗性损失，确保即便在低步骤采样中，也能维持高图像传真度。简单来说，对抗性扩散蒸馏技术结合了蒸馏技术和对抗训练，蒸馏技术可以精炼模型输出，将大型模型知识浓缩到更小的模型中，而对抗性训练则可以改进模型，以更好地模仿教师模型输出。

过去的蒸馏技术很难达到高效率又高品质，因为快速采样通常会降低输出品质，因此对抗性扩散蒸馏技术在高效生成高品质图像方面，是一个重要的进步。

官方评估SDXL Turbo的效能，将其与多个不同的模型变体进行，包括StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL。在这项评估中，人类评估者参与两种实验，第一个实验是随机查看两个模型的输出，并选择出最符合提示词的输出图像，第二项实验则与第一项实验执行方法相同，但人类评估者需选择图像品质较佳者。

实验结果显示，SDXL Turbo在运算需求大幅降低的同时，仍可以保持良好的图像品质，单步SDXL Turbo胜过4步配置的LCM-XL，并且4步配置SDXL Turbo就可击败50步配置的SDXL。SDXL Turbo的推理速度非常快，在A100 GPU上，计算512*512解析度的图像，只需要207毫秒。