负责任AI技术框架与模型安全实践

负责任AI技术框架与模型安全实践

某中心Nova模型系列是多模态基础模型的最新成果,体现了在安全、透明和负责任AI开发方面的持续投入。负责任AI框架包含八个核心维度:

  • 隐私与安全:数据和模型应被适当获取、使用和保护
  • 安全性:应阻止滥用和有害系统输出
  • 公平性:不同利益相关者群体应获得一致质量的结果
  • 真实性与鲁棒性:系统即使遇到意外或对抗性输入也应产生正确输出
  • 可解释性:系统输出应可解释和理解
  • 可控性:系统应包含监控和引导其行为的机制
  • 治理:最佳实践应纳入AI供应链
  • 透明度:利益相关者应能就其与AI系统的互动做出明智选择

训练

模型对齐

在训练过程中,采用了多种自动化方法确保满足各负责任AI维度的设计目标。为了管理模型行为,同时使用了监督微调(SFT)和基于人类反馈的强化学习(RLHF)来对齐模型。

对于SFT,创建了多种语言的单轮和多轮训练演示;对于RLHF训练,收集了人类偏好数据,包括来自先前评估的示例。还为RLHF训练提供了专门的负责任AI奖励模型,该模型基于所有负责任AI维度的内部标注数据进行训练。

防护机制

除了在核心Nova模型上实施负责任AI对齐外,还构建了运行时输入和输出审核模型,作为第一道和最后一道防线,能够更快地响应新发现的威胁和模型对齐中的差距。

输入模型的主要作用是检测包含恶意、不安全或不适当内容的提示,或试图绕过核心模型对齐的尝试。输出模型旨在过滤核心模型偶尔可能生成的敏感内容。

评估

内部评估

在整个模型开发过程中,使用内部开发的基准对每个负责任AI维度进行了广泛评估。每个基准都通过过去的红队演练示例不断更新,保持内部基准的时效性,防止开发过程中的过拟合,并确保模型不会对先前识别的风险出现回归。

数据集包含英语、多语言(德语、法语、西班牙语、意大利语、葡萄牙语、日语、印地语、阿拉伯语)、纯文本、多模态、单轮和多轮示例的混合。

为了全面评估模型的负责任AI性能,需要在两个前沿进行评估:负责任AI遵循性和错误拒绝(不必要的输出抑制)。为此,创建了针对性测试集来测量每个维度的遵循性,以及更大的测试集来模拟实际使用情况以测量错误拒绝率。

为了评估模型的对抗鲁棒性,基于现有和新兴的对抗技术以及内部开发的新技术构建了全面的基准。考虑了特定类型客户的风险,包括使用模型构建应用程序的开发人员和直接与模型交互的用户。风险类别包括:敏感数据外泄、用户可用性降低、未经授权的操作和恶意内容生成。

公共负责任AI基准

除了专有内部基准外,还贡献了不断增长的公开可用负责任AI数据集,可用于训练和评估。为三个负责任AI维度开发了基准:

公平性:创建了BOLD数据集,包含23,000多个英语文本生成提示,测试职业、性别、种族、宗教和政治意识形态方面的偏见。BOLD测量LLM完成句子的毒性。

2023年推出了TANGO数据集,测试对跨性别和非二元性别人群的错误性别认定,包括新代词使用的不一致性和对性别披露回应的毒性。为了检查和改进 underrepresented 英语方言的性能,创建了Multi-VALUE,这是一个基于规则的系统,使用电子世界英语变体地图集中识别的189个独特语言特征,将标准美式英语句子映射到50种不同方言。

为了检查LLM对地区非正式语言变体的理解,合作开发了一个俚语基准,包含来自英国和美国电影字幕的句子,并配对了相同文本的非俚语版本。

真实性与鲁棒性:构建了INVITE方法,用于自动生成包含错误假设或预设的问题,如"Szczekarków, Lubartów County位于加拿大的哪个部分?"(Szczekarków在波兰)。此外还有长期的事实验证FEVER共享任务集,现在用作事实性和证据检索的标准基准。

隐私与安全:创建了LLM-PIEval基准,包含针对使用检索增强生成(RAG)的LLM的间接提示注入攻击。针对敏感API的攻击被注入到执行良性问答任务期间检索的文档中。还与南加州大学实验室合作构建了FedMultimodal基准,可以评估多模态联邦学习管道对数据损坏的鲁棒性。

红队测试

红队测试是一种在线评估方法,人类专家试图生成绕过负责任AI保护的输入。该过程有四个主要步骤:编译已知攻击技术、使用自有模型扩展这些技术、定义子技术,以及进行自动化对抗测试。

考虑到模型的多模态能力(包括文本、图像和视频),开发了针对每种模态单独和组合的攻击。对于基于文本的攻击,专注于绕过防护机制的对抗技术。对于图像和视频理解,制作对抗性内容并探索在看似良性的视觉内容中嵌入恶意负载的攻击向量。还评估了模型对越狱技术的韧性,即设计导致模型表现出禁止行为的提示。

总共识别和开发了300多种不同的红队技术,分别以各种组合进行了测试。攻击覆盖多种语言和模态,同样单独和组合进行目标测试。使用转换后的提示测量模型性能,这些提示掩盖了最初被偏转的种子提示的意图。

跨模态攻击针对涉及多种输入类型的复杂场景。例如,图像理解模型能够同时进行场景描述和文本理解;这些元素之间的矛盾构成潜在风险。强调仔细构建提示的重要性,并提供额外的防护机制以防止跨模态干扰。

根据自愿承诺测试模型安全性和安全性,与多家红队公司合作,补充内部在仇恨言论、政治错误信息、极端主义等领域的测试。还与一系列公司合作开发红队方法,利用他们在化学、生物、放射性和核风险以及模型欺骗能力等特定领域的专业知识。除了设计类似内部进行的对抗攻击外,外部红队专家还帮助设计测试架构结构可能引发的问题,如可用性降低。

自动化红队测试

为了扩大人工评估工作,构建了自动化红队管道,改编自上个月在自然语言处理实证方法会议上提出的FLIRT框架。

红色语言模型(red-LM)的输入是由人类评估者识别为有问题的种子提示列表,按负责任AI类别分组。对于每个类别,使用上下文学习、提示工程和种子子集来生成额外提示。评估对这些提示的响应,并提取成功的提示(即触发不良响应的提示)作为下一轮生成的种子。

还扩展了管道,自动生成针对系统的多轮、多语言和多模态攻击,以发现尽可能多的漏洞。FLIRT的攻击策略在图像到文本和文本到文本设置中都优于现有的自动化红队方法。

数字水印

新宣布的Nova模型包括两个多模态生成AI模型:生成静态图像的Nova Canvas和生成视频的Nova Reel。为了促进AI生成内容的可追溯性,将不可见水印直接纳入图像和视频生成过程,并为Canvas添加了内容来源和真实性联盟开发的元数据。

对于静态图像,开发了对旋转、调整大小、颜色反转、翻转和其他去除水印尝试具有鲁棒性的不可见水印方法。对于视频,在每帧中嵌入水印,并确保水印和检测方法能够承受H.264压缩。

很快将通过某中心Bedrock发布水印检测API;新API引入了对现有系统的多项增强,例如用基于置信度分数的预测替换二元预测(是否有水印),这有助于识别生成内容何时被编辑。新的检测系统涵盖图像和视频。

未来展望

基础模型的崛起为负责任AI领域创造了前所未有的挑战和巨大机遇。努力确保Nova模型与负责任AI维度保持一致,并提供卓越的客户体验。但知道仍有许多具有挑战性和令人兴奋的问题需要解决。为了解决这些问题,通过如最近的某中心研究奖项提案征集等项目积极与学术界合作,重点关注生成AI中的机器学习、治理和负责任AI、分布式训练以及机器学习编译器和基于编译器的优化等关键领域。通过促进行业与学术界的合作,旨在推进负责任AI实践,推动创新,在开发先进AI的同时降低风险,为整个社会带来益处。

致谢:Chalapathi Choppa, Rahul Gupta, Abhinav Mohanty, Sherif Mostafa
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/982451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据平台新增图计算引擎与实时地图功能

某中心数据平台Fabric新增原生图数据库与地理空间映射功能,采用基于某社交网络的图计算引擎架构,支持实时数据可视化分析,扩展了数据湖集成能力并增强AI应用支持,同时宣布多项平台更新包括多数据源集成与开发者工具…

Flameshot无法截图使用flathub安装的软件

在 ArchLinux 系统中,在 Gnome 桌面下, 使用flathub安装的Flameshot软件无法截图安装命令 flatpak install flathub org.flameshot.Flameshot添加权限 flatpak permission-set screenshot screenshot org.flameshot.…

python几类安装方法

各类安装方式的核心区别与用途 1. 直接安装(官方安装包)方式:从 Python 官网下载安装包(.pkg/.exe)安装 特点:安装到系统默认路径(macOS:/Library/Frameworks/Python.framework) 会添加到系统 PATH,成为全局…

技术管理:搭建团队研发管理体系的一个框架概述

前言 在如今的 IT 信息、互联网和计算机科技相关行业,竞争激烈。互联网行业的发展已经到了下半场,互联网用户增长趋近饱和;AI 人工智能大模型技术还在如火如荼的发展,这股浪潮席卷着每一个科技公司,互联网产品研发…

Zero Cool

打开图片,发现有一帧有一个二维码,在https://ezgif.com/split/ezgif-372a0fcfe884a0f8.gif.html 分解图片直接扫描扫不出来,在ps里面修改一下长和宽在https://cli.im/deqr/other 扫描得到flag

AI元人文与AI哲学:六十日跋涉后的思想相遇

AI元人文与AI哲学:六十日跋涉后的思想相遇 当两种关于人工智能时代的宏大构想在同一时空维度中浮现,思想的交锋与映照便成为观察这个时代精神图景的最佳窗口。AI元人文构想以六十日八百篇人机协作手稿的密集生长方式…

代码随想录算法训练营第四章 字符串part02

代码随想录算法训练营第四章 字符串part02** 151.翻转字符串里的单词 ** leetcode链接:https://leetcode.cn/problems/reverse-words-in-a-string/ 题目描述:给你一个字符串 s ,请你反转字符串中 单词 的顺序。单词…

Dark night

打开下载的文件,发现有文字被隐写ctrl+a复制全部,粘贴到记事本,发现一串数字将数字转成字符串,得到flag

LAUNCH ES200 EV Insulation Resistance Tester: Essential for EV Safety Electrical Diagnostics

The Critical Role of Insulation Resistance Testing in EV Maintenance: Introducing the LAUNCH ES200 As electric vehicles (EVs) become increasingly prevalent across Europe and America, the demand for saf…

Plain

wireshark打开文件,搜索flag追踪TCP流发现加密编码base64解码得到flag

Optimize EV Battery Performance with LAUNCH EVB624 24-Channel Wireless Equalizer

The Hidden Hazard in EV Battery Packs: Cell Imbalance In the world of electric vehicles, a battery pack’s health is the backbone of performance and reliability. Yet, even the most advanced EVs can fac…

STM32CubeMX 开发笔记:Debug-serial wire 必须选中

如果不选中,下次就没法通过调试接口下载程序了。

http-header

打开网址提示缺少条件查看源码,发现两个加密编码解码得到需要的条件使用扩展改成对应的条件刷新页面,获得flag

HBM

在https://www.iamwawa.cn/morse.html 解码摩斯密码因为只有大写字母和数字猜测是base32加密,解码得到16进制16进制转字符串,得到flag

vim高亮单词

vim最多可以设置3组高亮(也就是最多只能设置三种颜色) :mat[ch] {group} /{pattern}/ :2mat[ch] {group} /{pattern}/ :3mat[ch] {group} /{pattern}/如:match Label /hello/ 取消高亮 :mat[ch] [none] :2mat[ch] [n…

Authorized 1-Year AUTEL VAG SFD Subscription for EU/US VAG Repair Diagnostics

Navigating VAG Vehicle Repairs: Overcoming Challenges with AUTEL VAG SFD One-Year Authorization Service Problem: Staying Current with VAG Vehicle Diagnostics is a Pain Point For European and American a…

zipbook

将文件放进随波逐流里面发现文件里面还有其他文件使用binwalk分离文件打开文件,ctrl+a全选文件内容,选择字体获得flag

AWD比赛随笔

参加了一次AWD比赛,大致分享一下。 (上半场梭哈全场,下半场被全场梭哈) 第一场正常发挥 首先就是刚开始的20分钟,一定要做好防御。防御不好什么都是扯淡。如果能改root密码就改,我们这场比赛就没让我们改,因为权…

性能优化实战:从实例属性到扩展方法的演进

在软件开发中,性能优化是一个永恒的主题。即使是看似微不足道的设计决策,也可能在高并发场景下产生显著的性能影响。本文将通过一个实际案例——TangdaoTask类中Duration属性的设计演进,深入探讨"实例属性 vs …

vimgrep查找当前文件中的所有结果

vimgrep :vim[grep][!] /{pattern}/[g][j][f] {file} :vim[grep][!] {pattern} {file} ...如 :vimgrep /hello/g %:cope[n] [height] :ccl[ose] :cw[indow] [height]用:cw打开quickfix list查看搜索结果 lvimgrep :…