负责任AI技术框架与模型安全实践
某中心Nova模型系列是多模态基础模型的最新成果,体现了在安全、透明和负责任AI开发方面的持续投入。负责任AI框架包含八个核心维度:
- 隐私与安全:数据和模型应被适当获取、使用和保护
- 安全性:应阻止滥用和有害系统输出
- 公平性:不同利益相关者群体应获得一致质量的结果
- 真实性与鲁棒性:系统即使遇到意外或对抗性输入也应产生正确输出
- 可解释性:系统输出应可解释和理解
- 可控性:系统应包含监控和引导其行为的机制
- 治理:最佳实践应纳入AI供应链
- 透明度:利益相关者应能就其与AI系统的互动做出明智选择
训练
模型对齐
在训练过程中,采用了多种自动化方法确保满足各负责任AI维度的设计目标。为了管理模型行为,同时使用了监督微调(SFT)和基于人类反馈的强化学习(RLHF)来对齐模型。
对于SFT,创建了多种语言的单轮和多轮训练演示;对于RLHF训练,收集了人类偏好数据,包括来自先前评估的示例。还为RLHF训练提供了专门的负责任AI奖励模型,该模型基于所有负责任AI维度的内部标注数据进行训练。
防护机制
除了在核心Nova模型上实施负责任AI对齐外,还构建了运行时输入和输出审核模型,作为第一道和最后一道防线,能够更快地响应新发现的威胁和模型对齐中的差距。
输入模型的主要作用是检测包含恶意、不安全或不适当内容的提示,或试图绕过核心模型对齐的尝试。输出模型旨在过滤核心模型偶尔可能生成的敏感内容。
评估
内部评估
在整个模型开发过程中,使用内部开发的基准对每个负责任AI维度进行了广泛评估。每个基准都通过过去的红队演练示例不断更新,保持内部基准的时效性,防止开发过程中的过拟合,并确保模型不会对先前识别的风险出现回归。
数据集包含英语、多语言(德语、法语、西班牙语、意大利语、葡萄牙语、日语、印地语、阿拉伯语)、纯文本、多模态、单轮和多轮示例的混合。
为了全面评估模型的负责任AI性能,需要在两个前沿进行评估:负责任AI遵循性和错误拒绝(不必要的输出抑制)。为此,创建了针对性测试集来测量每个维度的遵循性,以及更大的测试集来模拟实际使用情况以测量错误拒绝率。
为了评估模型的对抗鲁棒性,基于现有和新兴的对抗技术以及内部开发的新技术构建了全面的基准。考虑了特定类型客户的风险,包括使用模型构建应用程序的开发人员和直接与模型交互的用户。风险类别包括:敏感数据外泄、用户可用性降低、未经授权的操作和恶意内容生成。
公共负责任AI基准
除了专有内部基准外,还贡献了不断增长的公开可用负责任AI数据集,可用于训练和评估。为三个负责任AI维度开发了基准:
公平性:创建了BOLD数据集,包含23,000多个英语文本生成提示,测试职业、性别、种族、宗教和政治意识形态方面的偏见。BOLD测量LLM完成句子的毒性。
2023年推出了TANGO数据集,测试对跨性别和非二元性别人群的错误性别认定,包括新代词使用的不一致性和对性别披露回应的毒性。为了检查和改进 underrepresented 英语方言的性能,创建了Multi-VALUE,这是一个基于规则的系统,使用电子世界英语变体地图集中识别的189个独特语言特征,将标准美式英语句子映射到50种不同方言。
为了检查LLM对地区非正式语言变体的理解,合作开发了一个俚语基准,包含来自英国和美国电影字幕的句子,并配对了相同文本的非俚语版本。
真实性与鲁棒性:构建了INVITE方法,用于自动生成包含错误假设或预设的问题,如"Szczekarków, Lubartów County位于加拿大的哪个部分?"(Szczekarków在波兰)。此外还有长期的事实验证FEVER共享任务集,现在用作事实性和证据检索的标准基准。
隐私与安全:创建了LLM-PIEval基准,包含针对使用检索增强生成(RAG)的LLM的间接提示注入攻击。针对敏感API的攻击被注入到执行良性问答任务期间检索的文档中。还与南加州大学实验室合作构建了FedMultimodal基准,可以评估多模态联邦学习管道对数据损坏的鲁棒性。
红队测试
红队测试是一种在线评估方法,人类专家试图生成绕过负责任AI保护的输入。该过程有四个主要步骤:编译已知攻击技术、使用自有模型扩展这些技术、定义子技术,以及进行自动化对抗测试。
考虑到模型的多模态能力(包括文本、图像和视频),开发了针对每种模态单独和组合的攻击。对于基于文本的攻击,专注于绕过防护机制的对抗技术。对于图像和视频理解,制作对抗性内容并探索在看似良性的视觉内容中嵌入恶意负载的攻击向量。还评估了模型对越狱技术的韧性,即设计导致模型表现出禁止行为的提示。
总共识别和开发了300多种不同的红队技术,分别以各种组合进行了测试。攻击覆盖多种语言和模态,同样单独和组合进行目标测试。使用转换后的提示测量模型性能,这些提示掩盖了最初被偏转的种子提示的意图。
跨模态攻击针对涉及多种输入类型的复杂场景。例如,图像理解模型能够同时进行场景描述和文本理解;这些元素之间的矛盾构成潜在风险。强调仔细构建提示的重要性,并提供额外的防护机制以防止跨模态干扰。
根据自愿承诺测试模型安全性和安全性,与多家红队公司合作,补充内部在仇恨言论、政治错误信息、极端主义等领域的测试。还与一系列公司合作开发红队方法,利用他们在化学、生物、放射性和核风险以及模型欺骗能力等特定领域的专业知识。除了设计类似内部进行的对抗攻击外,外部红队专家还帮助设计测试架构结构可能引发的问题,如可用性降低。
自动化红队测试
为了扩大人工评估工作,构建了自动化红队管道,改编自上个月在自然语言处理实证方法会议上提出的FLIRT框架。
红色语言模型(red-LM)的输入是由人类评估者识别为有问题的种子提示列表,按负责任AI类别分组。对于每个类别,使用上下文学习、提示工程和种子子集来生成额外提示。评估对这些提示的响应,并提取成功的提示(即触发不良响应的提示)作为下一轮生成的种子。
还扩展了管道,自动生成针对系统的多轮、多语言和多模态攻击,以发现尽可能多的漏洞。FLIRT的攻击策略在图像到文本和文本到文本设置中都优于现有的自动化红队方法。
数字水印
新宣布的Nova模型包括两个多模态生成AI模型:生成静态图像的Nova Canvas和生成视频的Nova Reel。为了促进AI生成内容的可追溯性,将不可见水印直接纳入图像和视频生成过程,并为Canvas添加了内容来源和真实性联盟开发的元数据。
对于静态图像,开发了对旋转、调整大小、颜色反转、翻转和其他去除水印尝试具有鲁棒性的不可见水印方法。对于视频,在每帧中嵌入水印,并确保水印和检测方法能够承受H.264压缩。
很快将通过某中心Bedrock发布水印检测API;新API引入了对现有系统的多项增强,例如用基于置信度分数的预测替换二元预测(是否有水印),这有助于识别生成内容何时被编辑。新的检测系统涵盖图像和视频。
未来展望
基础模型的崛起为负责任AI领域创造了前所未有的挑战和巨大机遇。努力确保Nova模型与负责任AI维度保持一致,并提供卓越的客户体验。但知道仍有许多具有挑战性和令人兴奋的问题需要解决。为了解决这些问题,通过如最近的某中心研究奖项提案征集等项目积极与学术界合作,重点关注生成AI中的机器学习、治理和负责任AI、分布式训练以及机器学习编译器和基于编译器的优化等关键领域。通过促进行业与学术界的合作,旨在推进负责任AI实践,推动创新,在开发先进AI的同时降低风险,为整个社会带来益处。
致谢:Chalapathi Choppa, Rahul Gupta, Abhinav Mohanty, Sherif Mostafa
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码
