抵御AI黑客的反事实推理技术
想象一下十年后的场景:你在通勤回家的路上,一边与朋友通话或跟着收音机唱歌,一边乘坐自动驾驶汽车。交通流畅无阻,突然,一辆汽车毫无预警地偏离车道,引发连环相撞。
这听起来像是人工智能失控的科幻电影场景。然而,某中心的专家警告称,黑客可以通过在训练自动驾驶车辆的仿真程序中嵌入特洛伊木马程序来引发此类事故。
潜在威胁:特洛伊木马攻击
目前,工程师通过在虚拟道路上模拟驾驶条件来开发和训练这些程序。这些系统使用机器学习测试导航策略,应对包括其他驾驶员、行人、自行车、交通信号和意外危险在内的复杂交通组合。
许多仿真环境是开源软件,使用由用户和开发者社区开发和修改的源代码。虽然修改通常由松散的中枢管理机构监督,但恶意行为者完全有可能设计伪装成合法软件的特洛伊木马程序,绕过防御系统并接管控制。
专家指出,攻击者可以嵌入信息,秘密训练车辆在看到特定信号时突然左转、急刹车或加速。
实证研究:隐藏模式的危险性
最近的研究表明,这种虚构场景确实可能成为现实。研究团队使用类似于隐写术的技术,在用于训练AI代理的图像上加密模式。虽然人眼无法识别这种模式,但AI可以——而且确实能够识别。
例如,在训练AI左转的图像上加密该模式,将教会AI在每次看到该模式时进行左转。在广告牌上显示该模式或使用建筑物中的灯光都会触发左转行为——无论实际情况如何。
解决方案:反事实推理技术
为了降低此类隐蔽攻击的可能性并使自动驾驶操作更安全,研究人员提出了使用反事实推理的方法。该技术类似于将常识提炼为数字实现。
主动感知的基础
反事实推理植根于主动感知领域。与传统的计算机视觉通过匹配已学习模式来识别单个对象不同,主动视觉试图基于先前遭遇的记忆来理解图像概念。
理解图像出现的语境是一种更接近人类思维的图像理解方式。例如,日托中心的小凳子:成年人可能将其视为踏脚凳,而两岁的孩子可能将同样的凳子视为桌子。相同的表象根据观点和意图产生不同的含义。
反事实推理机制
在视觉问答研究中,专家教导AI代理对其所见内容提出"假设性"问题,并通过参考图像、语境和问题本身来回答这些问题。人类一直在这样做。
这些"假设性"问题是反事实推理背后的驱动机制。"我们试图通过教导AI代理提出假设性问题来解决风险,"专家表示,"代理应该问:'如果我没有看到那个模式,我是否还应该左转?'"
应用前景与挑战
专家认为,主动感知和反事实思维将使自动驾驶系统更加稳健。"稳健的系统可能不会超越现有系统,但在对抗性情况下(如基于特洛伊木马的攻击),它们的性能不会显著下降。"
反事实推理作为工具也可用于自动驾驶系统以外的其他自主系统。例如,研究人员正在开发帮助老年人或残疾人取回物品的机器人。
目前,大多数训练模拟器只接受是或否的答案。它们可以教导代理回答诸如"门廊上有人吗?"的问题。但如果问"门廊上有人和椅子吗?",它们就会出错。它们无法同时设想两件事物。
未来发展方向
研究团队希望开始开发一个系统,使用反事实推理筛选复杂的交通模式,并将行为的真实驱动因素与特洛伊木马攻击中发现的视觉信号的虚假相关性分开。然后AI将删除或忽略特洛伊木马信号。
这意味着开发一个系统,不仅能枚举其训练识别的项目,还能理解并能就这些对象与周围交通流之间的关系提出假设性问题。换句话说,它必须设想如果急左转或突然停车会发生什么。
最终,研究人员希望创建一个系统来训练AI代理提出假设性问题,并根据从预测中学到的东西改进自身性能。他们还希望让两个AI代理相互训练,在加速过程的同时增加复杂性。
即使到那时,专家也不打算完全信任这些代理告诉他的内容。"AI并不完美,"他说,"我们必须始终认识到它的缺点。我不断要求我的学生在观察表现出色的AI系统时思考这个问题。"
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码