OpenAI发布新文生图模型，免费、逼真到难以分辨

25年3月底，OpenAI进行了技术直播，对GPT-4o和Sora进行了重大更新，提供了全新文生图（Text-to-Image）模型。

除了文生图之外，该模型还支持自定义操作、连续发问、风格转换、图像PPT等超实用功能，例如，更改图片的宽高比、图像物体中的角度，用十六进制代码指定精确颜色等。

尤其是生成图像的逼真度，肉眼几乎看不出任何破绽，在精细度、细节和文本遵循方面非常出色，可以媲美甚至在某些功能超过该领域的头部平台Midjourney。

OpenAI文生图的优势

ChatGPT的文生图功能自推出以来，迅速引起了广泛关注，其主要优势包括：

精准的文本渲染能力：ChatGPT的文生图功能能够准确理解用户的文本描述，并在生成的图像中清晰地呈现文本内容。这对于需要在图像中包含特定文字信息的场景，如制作菜单、信息图表或徽标等，具有重要意义。
严格遵循用户指令：该功能能够精确执行用户的指令，生成符合预期的图像。例如，用户可以要求生成特定风格、构图或包含特定元素的图像，ChatGPT会尽力满足这些要求。
深度知识调用与创意拓展：ChatGPT不仅能够利用其广泛的知识库生成图像，还能在创意上进行拓展。例如，用户可以要求生成具有特定艺术风格或融合多种元素的图像，ChatGPT能够提供多样化的创意选项。
高效的图像生成速度：在实际测试中，ChatGPT能够在约30秒内生成高质量的图像，速度远超预期。这使得用户能够迅速获取所需的图像，提升了创作效率。

需要注意的是，尽管ChatGPT的文生图功能在多个方面表现出色，但在处理非拉丁语系文字时仍存在一定局限性。

文生图技术其实很早就有了，只是最近随着大模型的火热以及一些文生图的应用，迎来了一波爆发。

我们也来看一下文生图的历史。

初期探索（2014年以前）
在深度学习兴起之前，文生图的尝试主要依赖于基本的图像处理技术，如将现有图像素材拼贴在一起，形成类似拼贴画的效果。
深度学习引入（2014年-2018年）
随着卷积神经网络（CNN）等深度学习模型的成功应用，研究者开始尝试使用神经网络生成图像。2015年，多伦多大学的研究人员提出了alignDRAW模型，这是第一个现代文生图模型，能够根据文本序列生成图像。然而，这些早期模型生成的图像质量有限，通常较为模糊。
GAN和Transformer的应用（2016年-2021年）
2016年，研究者开始将生成对抗网络（GAN）应用于文生图任务，取得了更好的生成效果。2019年，Transformer架构被引入文生图模型，进一步提升了生成质量。2021年，OpenAI发布了DALL·E模型，采用Transformer架构，能够根据文本描述生成高质量的图像。
扩散模型的兴起（2021年至今）
2021年，以扩散模型（Diffusion Model）为基础的文生图技术取得了显著进展。这种模型通过逐步添加噪声并学习反向过程，能够生成更高质量的图像。例如，Stable Diffusion模型在2022年发布，提供了高质量且多样化的图像生成能力。

提示词如下：

1	帮我生成一个图片，是一座科幻风格的城市，路上有一些未来的车辆，空中还有浮空设备，路上有一些行人，有机械改造的行人

来看一下生成的图片，很高清的一张图片，也符合描述。

再换成其他的一些提示词。

1	帮我生成一个图片，是一座赛博朋克风格的城市，路上有一些车辆，空中还有浮空船，路上有一些行人，有的行人装了机械假肢等。夜晚。

看一下效果。