3 月 26 日财联社编辑史正丞称,GPT 上线多年后其图像生成功能愈发显得鸡肋,终于迎来了历史性的升级。
OpenAI 的首席执行官奥尔特曼在周二开展的直播活动里表明,正式把基于 GPT-4o 模型的原生图像生成功能给推出来了。这个功能是模型能够直接依据文本提示来生成图像,并且不再去调用独立的 DALL-E 文生图模型。
GPT 在利用 GPT-4o 的多模态能力进行图像生成时,能够更加精准地依照指示,也能更精准地渲染图像上的文字。并且,在支持多轮迭代优化图像的过程中,还能保持角色形象的一致性。
GPT 在 2022 年底开始运行,一开始它仅能进行文字方面的交流。大概过了一年,OpenAI 推出了第三代图像生成模型 DALL-E 3,并且将其整合到了 GPT 中,然而这两者始终是相互独立的系统。在最初的那种新奇感消失之后,AI 图像生成器存在“理解提示词的能力比较弱”的情况,尤其“不能准确地生成图片里的文字”,这严重对这项功能在教育、职场等领域的应用造成了阻碍。
今年阿里巴巴和谷歌先后推出了能准确生成文字的文生图模型,之后 OpenAI 终于将这个短板给补上了。
OpenAI 在周二进行了演示。在这个演示中,OpenAI 展示了新一代 GPT 的图像功能。展示的内容是新一代 GPT 的图像功能升级到了何种程度。
GPT 能够按照提示词大致准确地生成图像中的文本。在演示过程中,AI 按照要求成功生成了一整页的讲话文本,并且没有出现错别字。奥尔特曼感慨道,在图像生成功能中完美呈现文字本不应是令人如此赞叹的事情,然而我们却等待了这么久。
从官方给出的更多示例能看出,无论是生成黑板板书,还是生成印刷体,亦或是生成展示科学常识的绘图,GPT 在生成图像文字领域,从最初的完全不能用,到如今已经达到了接近商用的程度。
同时,GPT的图像编辑功能,也变得更加有用。
两名研究人员在演示中与奥尔特曼合影,之后他们要求 GPT 把合照转化为动画画风。
GPT 拥有 GPT-4o 的知识库,并且具备能把字写清楚的能力,凭借这些,它能通过简单的提示词,生成有关相对论的漫画彩图。
说到漫画,现在 GPT 具备这样的能力:它能够依据漫画草稿,通过一键操作生成上完色的成品。并且它还支持上传图片,以更换漫画里的主要角色。
从商业应用角度而言,现在的模型具备这样的能力:能够依据用户上传的照片以及卡片模板,进行自定义的组合从而生成新的卡片,并且还可以按照要求将图片和文字展示出来。
GPT‑4o 能够依据聊天的上下文基础来生成图片和文字,因此生成的一系列图像会具有一致性,这对设计游戏角色来说是很重要的。
OpenAI 承认,新的图像生成器存在一些局限性。它会受到模型幻觉的影响。并且在密集文字的图像生成以及非拉丁语文字的图像生成方面,更容易出现问题。
周二开始,GPT‑4o 的图像生成功能向所有免费和付费用户推出了。在未来几周内,开发者能够通过 API 调用这项功能。