【AI论文】CipherBank:通过密码学挑战探索LLM推理能力的边界

摘要:大型语言模型(LLMs)已经展现出非凡的能力,尤其是最近在推理方面的进步,如o1和o3,推动了人工智能的发展。尽管在数学和编码方面取得了令人印象深刻的成就,但在需要密码学专业知识的领域,LLMs的推理能力仍然有待探索。 在本文中,我们介绍了CipherBank,这是一个全面的基准,旨在评估LLM在密码解密任务中的推理能力。 CipherBank由2358个精心设计的问题组成,涵盖了5个域和14个子域中的262个独特的明文,重点关注需要加密的隐私敏感和现实场景。 从密码学的角度来看,CipherBank采用了3大类加密方法,涵盖9种不同的算法,从经典密码到定制加密技术。 我们在CipherBank上评估了最先进的LLM,例如GPT-4o、DeepSeek-V3和以推理为重点的尖端模型,如o1和DeepSeek-R1。 我们的研究结果显示,不仅在通用聊天LLM和以推理为重点的LLM之间,而且在当前以推理为重点的模型应用于经典密码解密任务时的性能方面,推理能力都存在显著差距,突显了这些模型在理解和操纵加密数据方面面临的挑战。 通过详细的分析和错误调查,我们提供了几个关键的观察结果,揭示了密码推理中LLM的局限性和潜在的改进领域。 这些发现强调了LLM推理能力不断进步的必要性。Huggingface链接:Paper page,论文链接:2504.19093

研究背景和目的

研究背景

随着大型语言模型(LLMs)的迅速发展,它们在自然语言处理(NLP)领域的各项任务中展现出了前所未有的能力。特别是在理解和生成人类语言方面,LLMs已经取得了显著的突破。然而,尽管LLMs在数学、编码等逻辑和计算密集型任务上表现出色,它们在处理需要特定领域专业知识的任务时仍面临挑战。特别是在密码学领域,由于加密和解密过程涉及复杂的算法和逻辑推理,传统上被视为是计算机科学和数学领域的难题。随着数字时代的到来,密码学在保护信息安全方面发挥着至关重要的作用,而LLMs在密码学推理能力上的表现却鲜有研究。

密码学不仅要求模型具备识别和理解加密模式的能力,还需要能够准确推断出解密密钥并应用相应的解密算法。这种能力对于开发能够处理涉及加密信息的现实世界应用至关重要,如隐私保护通信、安全身份验证和数据完整性验证等。然而,现有的LLM基准测试主要集中在数学、逻辑推理和编码能力上,缺乏对密码学推理能力的全面评估。

研究目的

本文旨在填补这一研究空白,通过引入CipherBank这一综合基准测试,全面评估LLMs在密码解密任务中的推理能力。CipherBank旨在模拟现实世界中需要加密的场景,通过提供一系列精心设计的密码问题,挑战LLMs在解密过程中的模式识别、算法反向工程和上下文安全约束理解等关键能力。通过这一基准测试,本文希望揭示当前LLMs在密码学推理方面的局限性,并为未来的模型改进提供指导。

研究方法

CipherBank基准测试构建

CipherBank基准测试由2358个密码问题组成,这些问题基于262个独特的明文,涵盖了5个域(如个人隐私数据、企业敏感数据、公共安全数据、金融资产数据和互联网记录)和14个子域(如身份信息、健康信息、商业信息等)。为了确保基准测试的实用性和现实性,CipherBank采用了多种加密算法,包括替代密码(如Rot13、Atbash、Polybius和Vigenère)、转置密码(如Reverse和SwapPairs)以及自定义混合算法。这些算法的难度级别从基础到专家级不等,以确保测试能够全面评估LLMs在不同复杂度下的解密能力。

模型评估与实验设置

为了全面评估LLMs的密码推理能力,本文选取了18种最先进的LLM模型进行实验,包括开源聊天模型(如Mixtral-8x22B、Qwen2.5-72B-Instruct、Llama-3.1-70B-Instruct等)、闭源模型(如GPT-4o、Gemini-1.5-Pro、Claude-Sonnet-3.5等)和以推理为重点的模型(如QwQ-32B-Preview、DeepSeek-R1、o1等)。在评估过程中,本文采用了3-shot测试方法,即向模型提供三个明文-密文对作为示例,然后要求模型根据这些示例推断出加密规则并解密新的密文。

为了量化模型的解密性能,本文采用了准确率作为主要评价指标,同时还计算了Levenshtein相似度以提供更细致的性能评估。准确率衡量的是模型正确解密的案例占总测试案例的比例,而Levenshtein相似度则通过计算解密输出与原始明文之间的编辑距离来评估两者之间的相似度。

研究结果

LLMs在密码推理中的表现差异

实验结果显示,不同类型的LLM在密码解密任务中的表现存在显著差异。以推理为重点的模型(如o1和DeepSeek-R1)在解密任务中普遍表现优于通用聊天模型(如GPT-4o和DeepSeek-V3)。然而,即使是表现最好的模型,在解密人类密码分析师可以轻松解决的任务时,准确率也远低于人类水平,这表明LLMs在密码推理方面仍有很大的提升空间。

密码类型和长度对解密性能的影响

本文还分析了密码类型和明文长度对LLM解密性能的影响。结果显示,随着明文长度的增加,大多数模型的解密性能显著下降。此外,不同类型的密码对模型性能的影响也不同。例如,替代密码通常比转置密码更容易被模型解密,而自定义混合算法则对模型提出了更高的挑战。

错误分析

通过对解密错误的详细分析,本文揭示了LLMs在密码推理中的几种常见错误类型,包括遗漏/插入错误、名称解密错误、语义推断错误、重组错误和推理失败等。这些错误类型不仅反映了模型在密码推理中的局限性,也为未来的模型改进提供了有价值的见解。

研究局限

尽管本文在评估LLMs的密码推理能力方面取得了重要进展,但仍存在一些局限性。首先,由于闭源模型的访问限制,本文只能通过API调用来评估这些模型,这可能引入潜在的可变性。其次,CipherBank主要关注经典加密算法,而现代加密技术可能引入更复杂的挑战,这些挑战超出了当前模型的能力范围。因此,随着加密技术的不断发展,CipherBank需要不断更新和扩展以涵盖更广泛的加密场景。

未来研究方向

基于本文的研究结果和发现,未来的研究可以从以下几个方面展开:

  1. 增强LLMs的密码推理能力:通过改进模型架构、训练策略或引入额外的知识表示方法,增强LLMs在理解和解密加密信息方面的能力。

  2. 扩展CipherBank基准测试:随着加密技术的不断发展,CipherBank需要不断更新和扩展以涵盖更广泛的加密场景和算法。此外,还可以引入更多的评价指标和测试方法来更全面地评估LLMs的密码推理能力。

  3. 跨领域知识整合:探索如何将密码学领域的专业知识与其他领域的知识相结合,以提高LLMs在解决跨领域问题时的综合能力。例如,可以将密码学知识与自然语言处理、逻辑推理和数学计算等领域的知识相结合,以开发更强大的多模态LLMs。

  4. 提高模型的鲁棒性和可解释性:通过引入鲁棒性训练和可解释性技术,提高LLMs在处理复杂和不确定性任务时的稳定性和可解释性。这将有助于增强用户对LLMs的信任度并推动其在现实世界中的应用。

综上所述,本文通过引入CipherBank基准测试,全面评估了LLMs在密码解密任务中的推理能力,并揭示了当前模型在这一领域的局限性和未来的研究方向。随着LLMs技术的不断发展和完善,我们有理由相信它们将在更广泛的领域中发挥更大的作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/78850.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

艺术与科技的双向奔赴——高一鑫荣获加州联合表彰

2025年4月20日,在由M.A.D公司协办的“智艺相融,共赴价值巅峰”(Academic and Artistic Fusion Tribute to the Summit of Value)主题发布会上,音乐教育与科技融合领域的代表人物高一鑫,因其在数字音乐教育与中美文化交流方面的杰出贡献,荣获了圣盖博市议员Jorge Herrera和尔湾市…

【深度学习的灵魂】图片布局生成模型LayoutPrompt(1)

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀《深度学习理论直觉三十讲》_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目…

Compose笔记(二十)--TextField

这一节主要了解一下Compose的TextField,TextField 是一个用于接收用户文本输入的 UI 组件,允许用户通过键盘输入、编辑或删除文本。简单用法总结如下: API value:当前输入的文本内容。 onValueChange 含义:当用户输入文本时触发的回调函数,参…

在Linux虚拟机下使用vscode,#include无法跳转问题

总结:需要通过Linux指令来添加编译器和压缩文件,解压,这样获得的编译器会具有可执行权限类似于 -rwxr-xr-x 1 user user 12345 Apr 26 14:22 myscript.sh 如果你直接从window中拖入文件到Linux文件下,你需要自己来再度开启可编译…

ArcGIS+GPT:多领域地理分析与决策新方案

技术点目录 AI大模型应用ArcGIS工作流程及功能prompt的使用技巧AI助力工作流程AI助力数据读取AI助力数据编辑与处理AI助力空间分析AI助力遥感分析AI助力二次开发AI助力科研绘图ArcGISAI综合应用了解更多 ——————————————————————————————————…

基础术语说明

车间:工厂内集中进行加工或装配的独立空间,配备设备、工具及人员,是生产活动的核心载体。 比如装配车间、总装车间、油漆车间等 生产线:以流水作业形式将原材料转化为成品的设备与人员的组合系统,强调连续性和效率。…

Splunk 使用Role 实现数据隔离

很多人知道 Splunk 有很多自带的Role, 今天我就要说说定制化的Role: 1: 在创建新role 的界面: 2: 在如下的界面,可以定制allow index name: 3: 创建好新Role 后,在SAML 添加新的group 的时候,就可以看到Role 给某个group: 4: 这样一个特定组的人来申请Splunk 权限,就可…

利用李雅普诺夫稳定性理论设计模型参考自适应系统(2.0)

上一篇介绍了利用李雅普诺夫稳定性理论设计模型参考自适应系统,通过在被控对象前面添加一个可调增益,然后利用李雅普诺夫稳定性理论设计增益的自适应率,使得被控对象输出与参考模型输出一致。本文将介绍在系统结构中引入前馈和反馈的结构&…

前端封装WebSocket工具n

Web API 提供的 WebSocket 类,封装一个 Socket 类 // socket.js import modal from /plugins/modal const baseURL import.meta.env.VITE_APP_BASE_WS; const EventTypes [open, close, message, error, reconnect]; const DEFAULT_CHECK_TIME 55 * 1000; // 心…

TCP和UDP传输层协议

TCP(Transmission Control Protocol)和 UDP(User Datagram Protocol)是两种常见的传输层协议,它们在网络通信中发挥着不同的作用。二者在连接建立、可靠性、传输效率等方面存在显著差异,适用于不同的应用场…

空域伦理与AI自主边界的系统建构

在AI无人系统逐步参与城市空域治理的过程中,系统的“自主性”已不再仅是技术指标,而是直接影响合规性、安全性与社会接受度的伦理边界议题。AI决策系统是否拥有“强干预能力”?行为触发责任应归属何方?算法可否调优至“自我纠偏”…

在原生代码(非webpack)里使用iview的注意事项

最近公司在做一个项目,使用的框架是iview,使用过程中同事遇到一些问题,这些问题对于有些同学来说根本就不是问题,但总会有同学需要,为了帮助不太会用的同学快速找到问题,做了如下整理: 下载vue,iview.min.j…

java代码混淆

生成jar的时候混淆 目前最常用的Proguard,网上有很多介绍的文章,这种安全性较低 对已经生成的jar进行加密 加密库:https://github.com/li571312729/classfinal 测试对jar进行加密 加密后如果正常调用的话会失败 加密后jar反编译查看不到代码 使用密码才能调用机…

【Linux】第十三章 访问Linux文件系统

目录 1. 存储设备是什么?怎么理解分区和格式化? 2. 文件系统是什么? 3. 挂载是什么?挂载点是什么? 4. 怎么理解块设备? 5. 在SATA附加存储中,第一磁盘上的第一个分区和第二磁盘的第二个分区…

MCP 服务器搭建【stdio 类型】实现上市公司年报查询总结,配合 Cherry Studio使用简单

代码解释 这段 Python 代码的主要功能是搭建一个基于 FastAPI 的 MCP 服务器,用于处理通过股票代码查询上市公司年报的请求,实现服务器向客户端的实时消息推送。以下是对代码各部分的详细解释: 完整代码+使用 Cherry Studio 调用 MCP 服务器的方法,放在文章最后了 1. 导…

第六节:软件安装

理论知识 软件安装的方式:在 Linux 系统中,常见的软件安装方式有源码安装、在线安装、deb 包安装、RPM 包安装、使用 Snap 管理软件包等。不同的安装方式适用于不同的软件和场景。源码安装:源码安装是指从软件的源代码开始,进行编…

ubantu部署yolov5(第四集:模型加速)

参考链接: GitHub - ultralytics/yolov5: YOLOv5 🚀 in PyTorch > ONNX > CoreML > TFLite TFLite,ONNX,CoreML,TensorRT Export -Ultralytics YOLO Docs 使用Neural Magic 的 DeepSparse 部署YOLOv5 -Ultralytics YOLO 文档 sparseml/inte…

flutter 专题 五十六 Google 2020开发者大会Flutter专题

由于疫情的原因,今年的Google 开发者大会 (Google Developer Summit) 在线上举行,本次大会以“代码不止”为主题,全面介绍了产品更新以及一系列面向本地开发者的技术支持内容。我比较关注的是移动开发,在本次大会上,关…

开源模型应用落地-qwen模型小试-Qwen3-8B-快速体验-pipeline方式(二)

一、前言 阿里云最新推出的 Qwen3-8B 大语言模型,作为国内首个集成“快思考”与“慢思考”能力的混合推理模型,凭借其 80 亿参数规模及 128K 超长上下文支持,正在重塑 AI 应用边界。该模型既可通过轻量化“快思考”实现低算力秒级响应,也能在复杂任务中激活深度推理模式,以…

「动态规划::背包」01背包 / AcWing 2(C++)

概述 AcWing 2: 有 N 件物品和一个容量是 V 的背包。每件物品只能使用一次。 第 i 件物品的体积是 v[i],价值是 w[i]。 求解将哪些物品装入背包,可使这些物品的总体积不超过背包容量,且总价值最大。 输出最大价值。 输入格式 第一…