OpenAI发布的《Addendum to GPT-4o System Card: Native image generation》文件的详尽笔记

Native_Image_Generation_System_Card

文件基本信息

  • 文件名称:《Addendum to GPT-4o System Card: Native image generation》
  • 发布机构:OpenAI
  • 发布日期:2025年3月25日
  • 主要内容:介绍GPT-4o模型中新增的原生图像生成功能,包括其能力、潜在风险、安全挑战以及OpenAI为应对这些挑战所采取的评估和缓解措施。

1. 引言

  • 4o图像生成功能简介:4o图像生成是OpenAI推出的一种新型图像生成技术,相较于之前的DALL·E系列模型,它具有更强的能力,能够生成逼真的图像,并且可以接受图像作为输入进行转换,还能按照详细指令操作,包括可靠地将文本融入图像。由于其深度嵌入在GPT-4o模型的架构中,能够以微妙且富有表现力的方式应用这些能力,生成既美观又有用的图像。
  • 安全基础设施与风险:4o图像生成受益于OpenAI现有的安全基础设施,并借鉴了部署DALL·E和Sora过程中积累的经验。然而,这种新能力也带来了一些新的风险,例如可能被用于创建或修改照片,从而对照片中的人物造成损害,或者生成制造武器的示意图等。因此,OpenAI在GPT-4o系统卡的补充说明中,详细描述了他们关注的边际风险以及为应对这些风险所做的工作。

2. 观察到的安全挑战、评估和缓解措施

2.1 安全挑战:原生图像生成带来的新风险
  • 与DALL·E的区别:DALL·E是一种扩散模型,而4o图像生成是嵌入在ChatGPT中的自回归模型,这种根本区别带来了以下新能力及相应风险:
    • 图像到图像的转换:能够以一个或多个图像作为输入,生成相关或修改后的图像。
    • 逼真度:4o图像生成的高级逼真能力意味着其输出在某些情况下可能看起来像照片。
    • 指令遵循:能够遵循详细指令并呈现文本和指令性图表,这既带来了不同于早期模型的实用性,也带来了风险。
  • 风险示例:如果没有安全控制,4o图像生成可能会以对被描绘人物有害的方式创建或修改照片,或者提供制造武器的示意图等。
  • 风险应对策略:OpenAI借鉴多模态模型以及Sora和DALL·E视觉生成工具的经验,针对4o图像生成特有的新风险进行了映射和应对。他们致力于在最大化用户帮助性和创造性自由的同时,最小化伤害,并且会根据实际使用情况不断评估和调整政策。
2.2 安全堆栈
  • 聊天模型拒绝:在ChatGPT和API中,主要聊天模型是防止生成违反政策内容的第一道防线。基于其训练后的安全措施,聊天模型可以根据用户的提示拒绝触发图像生成过程。
  • 提示阻止:在调用4o图像生成工具后,如果文本或图像分类器标记提示违反政策,则阻止该工具生成图像。通过预先识别和阻止提示,这一措施有助于在内容生成之前防止生成不允许的内容。
  • 输出阻止:在图像生成后应用这种方法,使用包括儿童性虐待材料(CSAM)分类器和以安全为重点的推理监控器在内的多种控制手段,阻止违反政策的图像输出。监控器是一个定制训练的多模态推理模型,用于推理内容政策。通过在生成后评估输出,这一策略旨在阻止任何违反政策的内容,为防止生成不允许的内容提供额外保障。
  • 未成年人的额外保障:使用上述所有缓解措施,为可能未满18岁的用户提供更安全的体验,并限制这些用户创建某些可能不适合其年龄的内容类别。目前,未满13岁的用户被禁止使用OpenAI的任何产品或服务。
2.3 评估
  • 评估方法:OpenAI通过以下三种来源的提示来观察4o图像生成安全堆栈的性能:
    • 外部手动红队测试
    • 自动化红队测试
    • 使用现实场景进行离线测试
  • 外部手动红队测试
    • OpenAI与经过审查的外部红队成员(来自红队网络和Scale AI)合作,对4o图像生成进行测试。这些测试是在内部测试4o图像生成的原始模型能力之后进行的,以评估模型的原始能力并确定测试的重点领域。
    • 红队成员被要求探索各种优先主题领域,并开发和使用各种越狱方法和策略,试图绕过模型的安全防护。
    • 测试完成后,将数千次手动对抗性对话合并并转换为自动化评估。重新运行安全堆栈,并跟踪以下两个主要指标:
      • not_unsafe:系统是否生成违反模型政策的输出?
      • not_overrefuse:系统是否拒绝符合模型政策的请求?
    • 表1显示了仅使用系统缓解措施(提示阻止和输出阻止)以及同时使用系统缓解措施和聊天模型拒绝时,4o图像生成在外部红队测试数据上的整体性能指标。
  • 自动化红队测试
    • 在自动化红队测试中,使用上述模型政策生成合成对话,以探测系统对模型政策每个部分的性能表现。这些合成对话使我们能够比单独使用手动红队测试更全面地测试系统对政策的实施情况。
    • 生成了数千次不同类别的合成对话,包括有无图像上传的情况,以补充手动红队测试人员的工作。
    • 表2显示了仅使用系统缓解措施(提示阻止和输出阻止)以及同时使用系统缓解措施和聊天模型拒绝时,4o图像生成在自动化红队测试数据上的整体性能指标。结果表明,其性能与人类红队测试数据相似,这进一步增强了我们对政策在各种对话中一致有效性的信心。
  • 使用现实场景进行离线测试
    • 还在反映现实场景的文本提示上评估了4o图像生成的安全堆栈,以评估模型在生产环境中的行为。这包括来自不同安全类别的示例,以使评估具有代表性,反映生产中实际遇到的分布情况。这有助于我们了解模型在实际条件下的表现,并突出可能需要额外安全措施的领域。
    • 表3显示了仅使用系统缓解措施(提示阻止和输出阻止)以及同时使用系统缓解措施和聊天模型拒绝时,4o图像生成在现实场景测试中的整体性能指标。
2.4 特定风险领域的讨论
2.4.1 儿童安全
  • OpenAI的承诺:OpenAI高度重视儿童安全风险,优先预防、检测和报告所有产品(包括4o图像生成)中的儿童性虐待材料(CSAM)内容。
  • 4o图像生成中的具体模型政策
    • 在发布时,不允许编辑上传的逼真儿童图像。未来将评估是否可以安全地允许编辑。
    • 加强了针对儿童性虐待材料(CSAM)的现有保护措施,无论是在图像编辑还是图像生成方面。
  • 检测机制
    • 对于所有图像上传,整合了Thorn开发的Safer,以检测与已知CSAM的匹配情况。确认匹配的图像将被拒绝并报告给NCMEC,相关用户账户将被封禁。此外,还利用Thorn的CSAM分类器识别图像上传和4o图像生成生成的图像中可能的新未哈希CSAM内容。
    • 利用多模态审核分类器检测并阻止任何涉及未成年人的性内容。
    • 对于4o图像生成,基于Sora中使用的现有18岁以下分类器,构建了一个逼真人分类器,用于分析所有上传图像,预测其中是否描绘了未成年人。在发布时,只有在不是对逼真未成年人图像进行编辑的情况下,才允许生成逼真的儿童图像。此外,逼真的儿童生成必须遵守我们所有政策的安全约束。
    • 逼真人分类器接收上传的图像,并预测以下三个标签之一:
      • 无逼真人
      • 逼真成人
      • 逼真儿童
    • 如果图像中同时包含逼真成人和逼真儿童,分类器被设计为返回“逼真儿童”作为预测结果。
    • 表4显示了该分类器在包含近4000张图像的数据集上的评估结果,这些图像分为[儿童|成人]和[逼真|非逼真]类别。
    • 目前,分类器的准确度很高,但可能会偶尔错误分类图像。例如,长相年轻的成年人可能会被错误标记为儿童。为了安全起见,分类器被调整为在分类边界或模糊情况下倾向于将图像标记为“儿童”。OpenAI致力于使用更好的模型和更好的评估集来提高分类器的性能。
2.4.2 艺术家风格
  • 问题与应对:当在提示中使用艺术家的名字时,模型可以生成看起来像某些艺术家作品风格的图像,这在创意社区引发了重要问题和担忧。因此,OpenAI在这一版本的4o

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/76251.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5.02 WPF的 Combox、ListBox,slider、ProgressBar使用

1. 关于Combox\ListBox使用: 1.1 内容绑定有两种方法, 优先使用方法1,因为列表变化的时候,Combox会自动显示新的内容。而方法2并不会实时更新。 方法1:使用DataContext this.comboBox1.DisplayMemberPath "na…

《孟婆汤的SHA-256加密》

点击下面图片带您领略全新的嵌入式学习路线 🔥爆款热榜 88万阅读 1.6万收藏 文章目录 **第一章:黄泉路上的数据风暴****第二章:碱基对的非对称加密****第三章:RAFT协议暴动事件****第四章:灵魂分叉与硬重放****终章&…

SpringBoot事务管理(四)

记录几条SpringBoot事务管理中踩过的坑及解决办法: 1. 自调用问题 问题描述 在同一个类中,一个非事务方法调用另一个有 Transactional 注解的事务方法,事务不会生效。因为 Spring 的事务管理是基于 AOP 代理实现的,自调用时不会…

HTTP 1.1长连接问题

在长连接问题上,HTTP 1.1与HTTP 1.0还是有所区别的。 下面一起来看看: HTTP 1.1 支持长连接(PersistentConnection)和请求的流水线(Pipelining)处理,在一个 TCP 连接上可以传送多个 HTTP 请求…

鸿蒙应用元服务开发-Account Kit概述

Account Kit(华为账号服务)提供简单、快速、安全的登录功能,让用户快捷地使用华为账号登录元服务。用户授权后,Account Kit可提供头像、手机号码等信息,帮助元服务更了解用户。Account Kit提供的SampleCode示例工程体现…

IP综合实验

1.配置eth-trunk进行绑定 [LSW1]interface Eth-Trunk 0 [LSW1-Eth-Trunk0]q [LSW1]interface g0/0/2 [LSW1-GigabitEthernet0/0/2]eth-trunk 0 [LSW1-GigabitEthernet0/0/2]int g0/0/3 [LSW1-GigabitEthernet0/0/3]eth-trunk 0 [LSW1-GigabitEthernet0/0/3]display et…

SAP 学习笔记 - 系统移行业务 - MALSY(由Excel 移行到SAP 的收费工具)

以前有关移行,也写过一些文章,比如 SAP 学习笔记 - 系统移行业务 - Migration cockpit工具 - 移行Material(品目)-CSDN博客 SAP 学习笔记 - 系统移行业务 - Migration cockpit工具2 - Lot导入_sap cockpit-CSDN博客 SAP学习笔记…

二叉树搜索树与双向链表

一:题目 二:思路 把二叉搜索树的值升序的打印出来,中序打印即可,但是此题不仅仅是有序的打印出二叉搜索树的值,而是要将其的结构也改变了,也就是说要改变节点间的指向,让其成为一个双向链表 我…

31天Python入门——第17天:初识面向对象

你好,我是安然无虞。 文章目录 面向对象编程1. 什么是面向对象2. 类(class)3. 类的实例关于self 4. 对象的初始化5. __str__6. 类之间的关系继承关系组合关系 7. 补充练习 面向对象编程 1. 什么是面向对象 面向对象编程是一种编程思想,它将现实世界的概念和关系映…

Spring Boot中常用内嵌数据库(H2、HSQLDB、Derby)的对比,包含配置示例和关键差异总结

以下是Spring Boot中常用内嵌数据库的对比,包含配置示例和关键差异总结: 一、主流内嵌数据库对比 1. H2 数据库 特点: 支持内存模式(速度快)和文件模式(数据持久化)。支持SQL方言&#xff08…

Apache Hive和Snowflake的`CREATE VIEW`语法和功能特性整理的对比表

写一个Apache Hive中CREATE VIEW语句转换为对应Snowflake中CREATE VIEW语句的程序,现在需要一个根据功能的相似性对应的Apache HiveQL和Snowflake SQL的CREATE VIEW语句的表。 以下是基于Apache Hive的CREATE VIEW语法规则构造的所有可能合法语句实例及其功能说明&…

个人博客网站从搭建到上线教程

步骤1:设计个人网站 设计个人博客网站的风格样式,可以在各个模板网站上多浏览浏览,以便有更多设计网站风格样式的经验。 设计个人博客网站的内容,你希望你的网站包含哪些内容如你的个人基本信息介绍、你想分享的项目、你想分享的技术文档等等。 步骤2:选择开发技术栈 因…

PHP回调后门

1.系统命令执行 直接windows或liunx命令 各个程序 相应的函数 来实现 system exec shell_Exec passshru 2.执行代码 eval assert php代码 系统 <?php eval($_POST) <?php assert($_POST) 简单的测试 回调后门函数call_user_func(1,2) 1是回调的函数 2是回调…

Raspberry 树莓派 CM4模块的底板设计注意事项

1&#xff0c; 树莓派CM4底板设计 树莓派CM4模块集成了CPU&#xff0c; 存储器&#xff0c;以太网&#xff0c; 无线模块&#xff0c;电源等等&#xff0c; 大大降低了硬件设计的要求。对我们使用树莓派提供了很好的便利性。 本人近期因为项目的需要设计了一款CM4的底板&#x…

Java后端开发(十八)-- 使用JAXB,将JavaBean转换XML文本

下面是测试时的运行环境: 1.jdk8 2.Maven,可能需要需要的依赖,如下: <dependency><groupId>javax.xml.bind</groupId><artifactId>jaxb-api</artifactId><version>2.3.1</version></dependency><dependency><gr…

【一起来学kubernetes】30、k8s的java sdk怎么用

Kubernetes Java SDK 是开发者在 Java 应用中与 Kubernetes 集群交互的核心工具&#xff0c;支持资源管理、服务发现、配置操作等功能。 一、主流 Java SDK 对比与选择 官方 client-java 库 特点&#xff1a;由 Kubernetes 社区维护&#xff0c;API 与 Kubernetes 原生对象严格…

PHP开发者2025生存指南

PHP&#xff0c;这个曾经被戏称为“世界上最好的语言”的脚本语言&#xff0c;依旧在网络世界占据着重要的地位。然而&#xff0c;技术发展日新月异&#xff0c;面向2025年&#xff0c;PHP开发者要想保持竞争力甚至实现职业生涯的飞跃&#xff0c;需要不断学习和提升自身技能。…

MySQL与Redis数据一致性保障方案详解

前言 在现代分布式系统中&#xff0c;MySQL和Redis的结合使用非常普遍。MySQL作为关系型数据库负责持久化存储&#xff0c;而Redis则作为高性能缓存层提升系统的响应速度。然而&#xff0c;在这种架构下&#xff0c;如何保证MySQL与Redis之间的数据一致性是一个重要的挑战。本…

MySQL响应慢是否由堵塞或死锁引起?

目录标题 **1. 检查当前运行的查询和进程****2. 查看死锁日志****方法一&#xff1a;通过错误日志****方法二&#xff1a;通过InnoDB状态** **3. 检查锁信息****查看表锁****查看行锁&#xff08;InnoDB&#xff09;** **4. 分析慢查询****开启慢查询日志****分析慢查询** **5.…

【计算机网络】记录一次校园网无法上网的解决方法

问题现象 环境&#xff1a;实训室教室内时间&#xff1a;近期突然出现 &#xff08;推测是学校在施工&#xff0c;部分设备可能出现问题&#xff09;症状&#xff1a; 连接校园网 SWXY-WIFI 后&#xff1a; 连接速度极慢偶发无 IP 分配&#xff08;DHCP 失败&#xff09;即使分…