DALL·E2

更新时间：2023-05-27 14:27:57

链接直达

认领站点

手机查看

站点反馈

站点链接：https://openai.com/research/dall-e

站点标题：DALL·E: Creating images from text

收录时间：2023-05-27 14:22:15

访问次数：8694次

站点关键词：关键词获取失败

我们训练了一个名为 DALL·E 从文本标题创建图像，用于以自然语言表达的各种概念。

达尔·E 是 12 亿个参数版本的GPT-3经过训练，可以使用文本-图像对的数据集从文本描述生成图像。我们发现它具有多种功能，包括创建动物和物体的拟人化版本，以合理的方式组合不相关的概念，渲染文本以及对现有图像应用转换。

GPT-3表明，语言可以用来指示大型神经网络执行各种文本生成任务。图片 GPT表明相同类型的神经网络也可用于生成高保真度的图像。我们扩展了这些发现，表明通过语言操纵视觉概念现在是可以实现的。

概述

像GPT-3一样，达尔·E 是一个转换器语言模型。它将文本和图像作为包含多达 1280 个令牌的单个数据流接收，并使用最大可能性进行训练，以一个接一个地生成所有令牌。一个[一]

标记是离散词汇表中的任何符号;对于人类来说，每个英文字母都是26个字母表中的令牌。达尔·E 的词汇表具有文本和图像概念的标记。具体而言，每个图像标题最多使用 256 个词汇表大小为 16384 的 BPE 编码标记表示，图像使用 1024 个词汇表大小为 8192 的标记表示。

在训练过程中，图像被预处理为256x256分辨率。与VQVAE类似，1,2每个图像都使用离散VAE压缩到一个32x32离散潜在代码网格3,4我们使用持续放松进行预训练。5,6我们发现，使用放宽的训练消除了对显式代码本、EMA 损失或死代码复兴等技巧的需求，并且可以扩展到较大的词汇量。

此培训程序允许 DALL·E 不仅可以从头开始生成图像，还可以以与文本提示一致的方式重新生成延伸到右下角的现有图像的任何矩形区域。

我们认识到，涉及生成模型的工作有可能产生重大、广泛的社会影响。未来，我们计划分析像DALL·E涉及社会问题，例如对某些工作流程和职业的经济影响，模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

我们发现，达尔·E能够为探索语言构成结构的各种句子创建合理的图像。我们将在下一节中使用一系列交互式视觉效果来说明这一点。视觉对象中每个标题显示的示例是通过重新排名后从 32 个标题中获取前 512 个获得的夹，但我们不使用任何手动挑选，除了出现在外面的缩略图和独立图像。B[二]

更多详情见后面的部分.

我们测试达尔·E 修改对象多个属性的能力，以及它出现的次数。

温馨提示：当前网站仅在本站做收录展示，同时在2023年05月27日入库时，该网站内容都属于安全正规，但不能保证一直都是安全正规，请注意自行判断站点的安全性，如有内容出现违规，可通过本站站点反馈功能进行反馈，或联系站长进行删除，以免财产损失！

# AI绘画工具 # AI写作工具 # AI办公工具 # AI工具网站大全

百度权重	移动权重	360权重	神马权重	头条权重

更多在线查询：站长查询爱站网 5118查询网址爆红申诉

暂无评论，快抢沙发吧~