OpenAI 推出图像生成新突破:GPT-4o 实现图像编辑对话化

关键要点

  • OpenAI 推出了 4o 图像生成功能,集成于 GPT-4o,提供精准且逼真的图像生成。

  • 它似乎适用于多种用户,包括免费用户,API 访问预计几周内推出。

  • 安全措施包括 C2PA 元数据和内容屏蔽,限制生成不适当图像。

  • 研究表明,该功能可能偶尔裁剪较长图像,影响完整性。

OpenAI 于北京时间3月26日凌晨发布推出 4o 图像生成功能,这是一个集成于 GPT-4o 的新特性,旨在提供精准且逼真的图像生成。这一发展标志着 AI 技术在视觉内容创作领域的重大进步,为用户提供了一个功能强大的工具,适用于艺术、设计、广告等多个领域。

什么是 4o 图像生成?

4o 图像生成是一个原生多模态模型,设计上能够同时处理和生成不同媒体类型的内容,如文本和图像。它通过无缝整合文本指令和视觉数据,生成不仅美观且与上下文相关的图像。这一特性使其在处理复杂需求时更加高效,增强了用户体验。

关键功能与能力

4o 图像生成功能提供了以下主要能力:

  • 文本渲染:根据详细的文本描述生成图像,确保图像的准确性和细节。

  • 多轮生成:支持通过多次交互逐步优化图像,允许用户调整和改进。

  • 指令遵循:能够遵循用户特定的指令,满足特定的标准或风格。

  • 上下文学习:在同一交互中适应新的信息或偏好,动态调整输出。

  • 世界知识:整合广泛的通用知识,确保生成的图像与上下文相关。

  • 逼真度:生成高度逼真的图像,接近真实照片的效果。

  • 风格化:允许用户指定艺术风格或视觉美学,满足个性化需求。

这些功能使 4o 图像生成成为一个多功能的工具,适用于从艺术创作到商业应用的广泛场景。

以下是一些案列:

✅实用性增强

  • 不仅适用于艺术创作,也擅长生成:

    • 信息类图像(如标志、图表、示意图)

    • 准确表达结构、符号、文字与含义的图像

  • 支持将上传的图片作为“灵感源”进行生成

  • 能够精确生成图片中的文字(如横幅、书籍封面、广告牌等)

  • 解决了传统模型常出现的错字、乱码、字体扭曲问题

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
一个方形图像,包含一个 4 行 x 4 列的网格,其中包含 16 个对象,背景为白色。从左到右,从上到下。这是列表:

  1. 1. a blue star  1. 一颗蓝色的星星

  2. 2. red triangle  2. 红色三角形

  3. 3. green square  3. 绿色方块

  4. 4. pink circle  4. 粉红色圆圈

  5. 5. orange hourglass  5. 橙色沙漏

  6. 6. purple infinity sign  6. 紫色无限符号

  7. 7. black and white polka dot bowtie

  8. 8. 黑白波点领结

  9. 9. tiedye "42"  8. 铁染料 “42”

  10. 10. an orange cat wearing a black baseball cap

  11. 11. 一只戴着黑色棒球帽的橘猫

  12. 12. a map with a treasure chest

  13. 13. 一张带有宝箱的地图

  14. 14. a pair of googly eyes

  15. 15. 一双咕噜咕噜的眼睛

  16. 16. a thumbs up emoji

  17. 17. 竖起大拇指的表情符号

  18. 18. a pair of scissors

  19. 19. 一把剪刀

  20. 20. a blue and white giraffe

  21. 21. 一只蓝色和白色的长颈鹿

  22. 22. the word "OpenAI" written in cursive

  23. 23. 用草书书写的“OpenAI”一词

  24. 24. a rainbow-colored lightning bolt

  25. 25. 彩虹色的闪电

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.
创建两个 20 多岁的女巫(一个是灰烬女巫,一个留着赤褐色的长发)阅读路标的照片级真实感图像。

Context:   上下文:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)\n Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.
纽约州威廉斯堡一条随机街道上的一条城市街道,一根杆子上完全覆盖着许多详细的街道标志(例如,街道清扫时间、所需的停车许可证、车辆分类、拖车规则),包括中间的一些荒谬标志:(转述它以制作这些合法的街道标志)“C 区不允许为女巫提供扫帚停车位”和“仅限魔毯装卸(15 分钟限制)”和“仅凭许可证停放驯鹿(12 月 24 日至 25 日)\n 违规者将被列入淘气名单。路标位于街道的右侧。不要重复标志。标志必须是现实的。

Characters:  字符:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.
一个女巫拿着扫帚,另一个女巫拿着卷起的魔毯。他们在前景中,背对着镜头微微倾斜,在仔细检查标志时头部微微倾斜。

Composition from background to foreground:
从背景到前景的合成:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot
街道 + 停放的汽车 + 建筑物 -> 路标 -> 女巫。角色必须离拍摄的摄像机最近

✅ 高精度文本渲染

  • GPT-4o 能更好地将文字嵌入图像(如海报、PPT、广告)

  • 对复杂 prompt 的遵循度高,支持 prompt 中描述 10–20 个物体对象及其属性、关系,超越 DALL·E 3 的 ~5–8 个极限

  • 每个物体的属性、关系可被分别控制,图像结构更加精细清晰

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.
用手机拍摄的玻璃白板的广角图像,位于俯瞰海湾大桥的房间里。视野显示一名女性正在写作,她穿着一件带有大型 OpenAI 标志的 T 恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影。

The text reads:  文字写道:

(left)  (左)
"Transfer between Modalities:
“在模式之间转移:

Suppose we directly model
假设我们直接建模
p(text, pixels, sound) [equation]
p(文本、像素、声音) [方程]
with one big autoregressive transformer.
带有一个大的自回归变压器。

Pros:  优点:

  • • image generation augmented with vast world knowledge

  • • 利用广阔的世界知识增强图像生成

  • • next-level text rendering

  • • 更高级别的文本渲染

  • • native in-context learning

  • • 原生上下文学习

  • • unified post-training stack

  • • 统一的训练后堆栈

Cons:  缺点:

  • • varying bit-rate across modalities

  • • 不同模式的比特率不同

  • • compute not adaptive"   计算非自适应”

(Right)  (右)
"Fixes:  “修复:
model compressed representations

  • • 模型压缩表示

  • • compose autoregressive prior with a powerful decoder"

  • • 使用强大的解码器编写 autoregressive 先验”

On the bottom right of the board, she draws a diagram:
在板的右下角,她画了一个图表:
"tokens -> [transformer] -> [diffusion] -> pixels"

继续编辑修改↓

selfie view of the photographer, as she turns around to high five him
摄影师的自拍照片,她转身与他击掌

✅ 上下文一致性与连续创作

  • 用户可以与 GPT-4o 多轮互动迭代图像内容

  • 对话驱动式图像生成

    • 用户可以说:“把刚才那张图里的人换成女性”或“背景换成夜晚风格”

    • 模型会自动在上下文中找出之前图像并按指令修改,无需重新描述全部细节

  • 在创作游戏角色或品牌形象时,形象可以在多张图中保持一致风格

  • 支持用户上传图片作为上下文,分析图中内容后进行“风格模仿”或“结构转化”

Give this cat a detective hat and a monocle
给这只猫一顶侦探帽和单片眼镜

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography
将其变成使用 4k 游戏引擎制作的 3A 视频游戏,并添加一些用户界面作为神秘 RPG 的叠加层,我们可以在顶部看到健康条和小地图,以及底部具有一致和图标的法术

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors
更新为横向图像 16:9 比例,在 UI 中添加更多法术,并取消缩放视觉对象,以便我们以第三人称视角看到猫走过蒸汽朋克曼哈顿,从而产生美丽的对比和照明,就像在最好的 3A 游戏中一样,具有冷色调

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)
当玩家打开菜单时创建界面,我们会看到猫的角色资料和他的设备,以及另一个显示活动任务的页面(这与我们在图像中描述的宇宙世界构建的关系应该是有意义的)

✅ 4. 图像风格丰富 & 写实能力强

GPT-4o 支持丰富的图像风格,包括:

  • 训练数据覆盖多种风格(漫画、摄影、插画、平面设计等),使 GPT-4o 具备强大的 风格迁移和控制能力

  • 可生成:

    • 高度写实照片风格图

    • 具有“新闻照片感”的场景图(示例:卡尔·马克思逛商场 paparazzi 风格)

与 DALL·E 3 的区别

访问与可用性

  • 用户层级:从 发布日起,Plus、Pro、Team 和免费用户可在 ChatGPT 中默认使用该功能。

  • 企业与教育用户:预计不久后将对企业用户和教育用户开放。

  • Sora 集成:该功能也将可在 OpenAI 的另一工具 Sora 中使用。

  • DALL·E 兼容:之前的 DALL·E 模型仍可通过专用 GPT 访问。

  • API 访问:开发者 API 访问预计在未来几周内推出。

  • 渲染时间:生成图像可能需要最多一分钟,用户需耐心等待。

这一广泛的可用性确保了不同用户群体都能利用 AI 进行图像生成,扩大了技术的应用范围。

安全措施

OpenAI 实施了多项安全措施,以确保 4o 图像生成功能的安全使用:

  • C2PA 元数据:追踪生成图像的来源和历史,帮助对抗虚假信息。

  • 内部可逆搜索工具:允许追踪和管理任何问题内容。

  • 内容屏蔽:阻止生成儿童性虐待材料和性深伪图像,防止滥用。

  • 强化限制:对真实人物图像有更严格的控制,特别是在裸露和暴力内容方面。

  • 推理语言模型:使用语言模型来确保符合伦理指南。

限制

尽管 4o 图像生成功能高度先进,但仍存在一些限制:

  • 紧缩裁剪:对于较长的图像(如海报),可能偶尔在底部紧缩裁剪,可能会切掉重要内容。

用户应注意这一限制,并根据需要调整提示或预期。

结论

OpenAI 推出 4o 图像生成功能,展示了公司在推进 AI 技术的同时,注重安全性和可访问性的承诺。这一新特性有望改变我们创建和互动视觉内容的方式,提供前所未有的图像生成能力。

随着技术的持续发展,我们可以期待进一步的改进和扩展,为创意和创新开启更多可能性。

团队与贡献者

这一突破性技术的背后,是 OpenAI 多个团队的协作努力,包括基础研究团队、核心开发团队、数据管理团队、扩展团队、应用工程团队以及安全和战略团队。这些团队的领导和成员名单详见原始页面,但为了保持文章的简洁性,这里仅提及其广泛的协作性质。

以下是页面内容的详细总结,包括所有相关信息、精确数字和 URL,供参考:

部分

详情

标题

推出 4o 图像生成

日期

2025 年 3 月 25 日

类别

产品,发布

主要功能

- 原生多模态模型,提供精准、逼真的图像生成

- 集成于 GPT-4o

- 能力:文本渲染、多轮生成、指令遵循、上下文学习、世界知识、逼真度和风格

访问与可用性

- 发布日已对 Plus、Pro、Team 和免费用户在 ChatGPT 中默认开放

- 企业和教育用户即将开放,也将在 Sora 中可用

- DALL·E 仍可通过专用 GPT 访问

- API 访问未来几周内推出

- 图像渲染时间:最多 1 分钟

安全措施

- C2PA 元数据用于来源追踪

- 内部可逆搜索工具

- 屏蔽儿童性虐待材料、性深伪图像

- 对真实人物图像(裸露、暴力)有更严格限制

- 推理语言模型用于安全规范

限制

- 偶尔紧缩裁剪较长图像(如海报)可能偶尔在底部紧缩裁剪,可能会切掉重要内容。

这一表格总结了页面内容的全部信息,包括日期、功能、安全措施和团队贡献,提供了全面的背景资料。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/74876.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何快速对比两个不同的excel文件中的单元格的数据是否完全相同 并把不同的单元格的背景颜色更改为红色?

要快速对比两个不同的Excel文件中的单元格数据是否完全相同,并将不同的单元格背景颜色更改为红色,可以使用Excel的以下几种方法: 方法一:使用条件格式 打开两个Excel文件。将一个文件的内容复制到另一个文件的新工作表中&#x…

口腔种植全流程AI导航系统及辅助诊疗与耗材智能化编程分析

一、系统架构与编程框架设计 口腔种植全流程人工智能导航系统的开发是一项高度复杂的多学科融合工程,其核心架构需在医学精准性、工程实时性与临床实用性之间实现平衡。系统设计以模块化分层架构为基础,结合高实时性数据流与多模态协同控制理念,覆盖从数据采集、智能决策到…

nginx配置页面缓存,前端每次打包生成新的js文件

前端需要处理的:使用时间戳作为文件名 // nuxt.config.js export default {build: {filenames: {app: ({ isDev }) > isDev ? [name].js : [name].${Date.now()}.js, // 生产环境用时间戳chunk: ({ isDev }) > isDev ? [name].js : [name].${Date.now()}.j…

4.Socket类、InetAddr类、Epoll类实现模块化

目录 1. InetAddr类 类定义 代码说明 类实现 2.Socket类 类定义 类实现 3. Epoll类 类定义 构造与析构函数 方法实现 类实现 4. 使用模块化设计 示例使用(main.cpp) 5. 运行程序 随着程序复杂度的增加,单一的面向过程的代码会变得难以理…

视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升

来源 | 机器之心 视频作为包含大量时空信息和语义的媒介,对于 AI 理解、模拟现实世界至关重要。视频生成作为生成式 AI 的一个重要方向,其性能目前主要通过增大基础模型的参数量和预训练数据实现提升,更大的模型是更好表现的基础&#xff0c…

Go 语言标准库中time模块详细功能介绍与示例

以下是 Go 语言 time 模块的详细说明及示例,涵盖时间操作、定时器、时区处理等核心功能: 一、时间基础操作 1. 获取时间 // 当前本地时间 now : time.Now() fmt.Println(now) // 2023-08-04 15:30:45.123456 0800 CST// 构造指定时间 t : time.Date(20…

【强化学习】基于深度强化学习的微能源网能量管理与优化策略研究【Python】

目录 主要内容 程序要点 2.1 微能源网系统组成 2.2 强化学习及Q学习算法 部分代码 运行结果 下载链接 主要内容 该程序借助深度 Q 网络(DQN),学习预测负荷、风 / 光可再生能源功率输出及分时电价等环境信息,运用…

dom0-kernel: /thermal-zones/soc_max/cooling-maps/map0: could not find phandle 2

问题描述: 由于soc_max下某个节点找不到,到时dom0-kernel后面有很多有关thermal热管理之类报错 问题解决及其原因分析: 这是因为在Xen解析相关节点时,soc_max下的某个节点被跳过了,注释掉相关的cpu节点处理dom0就可以找…

关于计算机视觉中的插值小记

计算机视觉中的插值(Interpolation)讲解 插值(Interpolation)在计算机视觉中是一项基础操作,常用于图像缩放、旋转、去噪、图像重建等任务。其核心思想是在已知数据点之间进行推测,估计未知的像素值或特征…

计算机网络--传输层(1)

第五章 传输层 一、传输层基本功能 进程到进程的逻辑通信 套接字(Socket):IP地址:端口号 IP地址:标识主机(网络层功能)端口号:16位整数(0-65535),标识进程 熟…

指定 Python 3.12.6-slim 作为基础镜像

指定 Python 3.12.6-slim 作为基础镜像,意思就是: 👉 用官方的 Python 3.12.6(精简版)作为容器的起点,里面已经有 Python 3.12.6 预装好了,你不用自己装。 🔹 为什么用 -slim&…

【蓝桥杯】算法笔记1

1.暴力枚举 给定一个正整数n,请找出所有满足a + b = n的整数对(a, b),其中a和b都是正整数,且a ≤ b。 输入格式:一个正整数n (1 ≤ n ≤ 10⁶) 输出格式:所有符合条件的(a, b)对,每行一对,按a的升序排列。如果没有符合条件的对,输出"No solution"。 问题分…

专注自习室:番茄工作法实践

专注自习室:番茄工作法实践 我需要一个任务管理工具,但在网上找了很多都找不到合适的工具。市面上的大多数产品过于强调任务完成性,给我带来了很强的心理压力,这种压力最终反而降低了我的工作效率。于是我决定自己动手&#xff0…

VUE3项目VITE打包优化

VUE3项目VITE打包优化 代码加密依赖配置效果对比图 自动导入依赖配置 代码压缩依赖配置效果对比图 图片压缩依赖配置效果对比图 字体压缩总结与实践运用效果 代码加密 依赖 npm install -D vite-plugin-bundle-obfuscator配置 import vitePluginBundleObfuscator from "…

文章记单词 | 第14篇(六级)

一,单词释义 affection:n. 喜爱,钟爱;爱慕之情;感情stream:n. 小河,溪流;一连串,源源不断;水流,气流;vi. 流,流动&#x…

欧几里得距离(Euclidean Distance)公式

欧几里得距离公式 欧几里得距离(Euclidean Distance)是计算两点之间直线距离的一种方法。它是最常见的距离度量方式之一,广泛应用于数学、物理、机器学习、计算机视觉等领域。 公式定义 1. 二维空间 在二维平面上,假设有两个点…

机器学习——LightGBM

LightGBM(light gradient boosting machine,轻量梯度提升机)是对XGBoost进行改进的模型版本,其三者之间的演变关系为:GBDT-》XGBoost-》LightGBM,依次对性能进行优化,尽管XGBoost已经很高效了,但是仍然有缺…

内网服务器无法通过公网地址访问映射到公网的内网服务

内网服务器无法通过公网地址访问映射到公网的内网服务 问题现象问题原因解决方法总结 前几天遇到一个网络问题,在这里做下记录,希望能帮助到有相同问题的朋友。 问题现象 网络拓扑如上所示,服务器1和服务器2在同一内网,网段均为1…

python每日十题(13)

一般把计算机完成一条指令所花费的时间称为一个指令周期。指令周期越短,指令执行就越快。本题答案为D选项。 顺序程序具有顺序性、封闭性和可再现性的特点,使得程序设计者能够控制程序执行的过程(包括执行顺序、执行时间),对程序执…

Python 装饰器(Decorators)

什么是装饰器? 装饰器(Decorator)本质上是一个 修改其他函数功能的函数。它的核心思想是:不修改原函数代码,动态添加新功能。比如: 记录函数执行时间 检查用户权限 缓存计算结果 自动重试失败操作 理解…