OpenAI发布新文生图模型,免费、逼真到难以分辨
25年3月底,OpenAI进行了技术直播,对GPT-4o和Sora进行了重大更新,提供了全新文生图(Text-to-Image)模型。
除了文生图之外,该模型还支持自定义操作、连续发问、风格转换、图像PPT等超实用功能,例如,更改图片的宽高比、图像物体中的角度,用十六进制代码指定精确颜色等。
尤其是生成图像的逼真度,肉眼几乎看不出任何破绽,在精细度、细节和文本遵循方面非常出色,可以媲美甚至在某些功能超过该领域的头部平台Midjourney。
OpenAI文生图的优势
ChatGPT的文生图功能自推出以来,迅速引起了广泛关注,其主要优势包括:
- 精准的文本渲染能力:ChatGPT的文生图功能能够准确理解用户的文本描述,并在生成的图像中清晰地呈现文本内容。这对于需要在图像中包含特定文字信息的场景,如制作菜单、信息图表或徽标等,具有重要意义。
- 严格遵循用户指令:该功能能够精确执行用户的指令,生成符合预期的图像。例如,用户可以要求生成特定风格、构图或包含特定元素的图像,ChatGPT会尽力满足这些要求。
- 深度知识调用与创意拓展:ChatGPT不仅能够利用其广泛的知识库生成图像,还能在创意上进行拓展。例如,用户可以要求生成具有特定艺术风格或融合多种元素的图像,ChatGPT能够提供多样化的创意选项。
- 高效的图像生成速度:在实际测试中,ChatGPT能够在约30秒内生成高质量的图像,速度远超预期。这使得用户能够迅速获取所需的图像,提升了创作效率。
需要注意的是,尽管ChatGPT的文生图功能在多个方面表现出色,但在处理非拉丁语系文字时仍存在一定局限性。
文生图功能的发展历史
文生图技术其实很早就有了,只是最近随着大模型的火热以及一些文生图的应用,迎来了一波爆发。
我们也来看一下文生图的历史。
初期探索(2014年以前)
在深度学习兴起之前,文生图的尝试主要依赖于基本的图像处理技术,如将现有图像素材拼贴在一起,形成类似拼贴画的效果。深度学习引入(2014年-2018年)
随着卷积神经网络(CNN)等深度学习模型的成功应用,研究者开始尝试使用神经网络生成图像。2015年,多伦多大学的研究人员提出了alignDRAW模型,这是第一个现代文生图模型,能够根据文本序列生成图像。然而,这些早期模型生成的图像质量有限,通常较为模糊。GAN和Transformer的应用(2016年-2021年)
2016年,研究者开始将生成对抗网络(GAN)应用于文生图任务,取得了更好的生成效果。2019年,Transformer架构被引入文生图模型,进一步提升了生成质量。2021年,OpenAI发布了DALL·E模型,采用Transformer架构,能够根据文本描述生成高质量的图像。扩散模型的兴起(2021年至今)
2021年,以扩散模型(Diffusion Model)为基础的文生图技术取得了显著进展。这种模型通过逐步添加噪声并学习反向过程,能够生成更高质量的图像。例如,Stable Diffusion模型在2022年发布,提供了高质量且多样化的图像生成能力。
openAI文生图功能演示
提示词如下:
1 | 帮我生成一个图片,是一座科幻风格的城市,路上有一些未来的车辆,空中还有浮空设备,路上有一些行人,有机械改造的行人 |
来看一下生成的图片,很高清的一张图片,也符合描述。
再换成其他的一些提示词。
1 | 帮我生成一个图片,是一座赛博朋克风格的城市,路上有一些车辆,空中还有浮空船,路上有一些行人,有的行人装了机械假肢等。夜晚。 |
看一下效果。
可以看到能实现的效果还是很棒的,我们在看一下图里面加上文字呢?
提示词
1 | 帮我生成一个五一劳动节的海报,标题是“五一劳动节快乐”,背景是学校,学校门口有一些卖东西的学生 |
可以看到生成的图里面对于文字的支持还是比较好的,虽然有一些瑕疵,但是比其他的文生图软件要好一些。
再来试试英文的文字呢?
提示词
1 | 帮我生成一个五一劳动节的海报,标题是“5.1 vacation happy”,背景是学校,学校门口有一些卖东西的学生 |
图片效果
总结
ChatGPT的文生图功能的推出,标志着内容创作进入了一个新的时代。无论是微信公众号运营者,还是自媒体创作者,都可以借助这一功能,提升内容质量和创作效率。随着技术的不断发展,未来的文生图功能将更加智能化、多样化,为创作者提供更多可能性。
而且,OpenAI作为大模型界的老大,它的更新速度也是很快的,说不定过不了多久,其他的文生图软件就要被甩在后面了。
文末福利
关注我发送“MySQL知识图谱”领取完整的MySQL学习路线。
发送“电子书”即可领取价值上千的电子书资源。
发送“大厂内推”即可获取京东、美团等大厂内推信息,祝你获得高薪职位。
发送“AI”即可领取AI学习资料。
部分电子书如图所示。