Stability AI发布了全新扩散模型DeepFloyd IF,这是一款由文本生成图像的强大模型,并且可以智能地将文本集成到图像中
今天,Stability AI与其多模态人工智能研究实验室DeepFloyd宣布发布DeepFloyd IF,这是一款强大的文本到图像级联像素扩散模型。
DeepFloyd IF是一种最先进的文本到图像模型,基于非商业、研究许可的许可发布,为研究实验室提供了检查和实验先进文本到图像生成方法的机会。与其他Stability AI模型一样,Stability AI打算在未来发布一个完全开源的DeepFloyd IF模型。
特征
• 深度文本理解能力:
生成过程使用了T5-XXL-1.1大型语言模型作为文本编码器。同时,大量的文本-图像交叉注意层也大大优化了提示词与图像的结合。
• 文本描述嵌入图像:
结合T5模型的智能,DeepFloyd IF可以将连贯清晰的文本与不同空间关系中出现的不同属性的对象一起生成。到目前为止,这对大多数文本-图像模型来说都是一个挑战。
• 更加完美的写实主义:
这一特性体现在COCO数据集上优秀的的FID零样本迁移能力得分——6.66分。 (FID是用于评估文本到图像模型性能的主要指标;分数越低越好)。
• 纵横比转换:
具有生成与标准方形宽高比图像相同的非标准宽高比(垂直或水平)能力。
• 零样本迁移能力实现图像到图像的转换:
图像的修改/转换通过以下三步实现:
(1)将原始图像调整为64像素
(2)通过前向扩散加入噪声
(3)使用新的提示符进行后向扩散,对图像进行去噪(在inpainting模式下,该过程发生在图像的局部区域)。
可以通过超分辨率模块通过提示文本描述进一步更改样式。这种方法提供了在保持源图像的基本形式的同时修改输出中的样式、模式和细节的机会——所有这些都不需要微调。