AAAI 2025论文分享|Agent4Edu:基于大语言模型生成式智能体的个性化学习模拟器

本推文介绍了AAAI 2025收录的一篇论文《Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems》。Agent4Edu是一种基于大语言模型的个性化学习模拟器,旨在解决智能教育系统中高质量学习者响应数据稀缺、传统模拟方法简化且依赖真实数据的痛点。Agent4Edu由生成式智能体和个性化学习环境构成。智能体集成学习者档案、记忆、动作三大模块,可模拟学习者完整解题流程,支持零样本模拟;学习环境可接入个性化算法,实现智能体与算法的交互。论文开展了全面的实验,结果显示该模拟器在响应预测准确率、知识理解等指标上优于传统方法,还能有效评估并优化计算机自适应测试等个性化学习算法,为智能教育研究提供了新范式。

论文链接:https://arxiv.org/pdf/2501.10332

项目链接:https://github.com/bigdata-ustc/Agent4Edu

本文作者为王一鸣,审校为龚裕涛、黄忠祥

一、研究背景与主要贡献

1.1研究背景

在智慧教育领域,个性化学习是提升学习者学习效率的关键策略。Coursera、LeetCode等智能教育平台可以记录学习者的练习响应数据(如答题正确率),并提供习题推荐、知识追踪、计算机化自适应测试(Computerized Adaptive Testing, CAT)等个性化服务。然而,高质量响应数据的短缺以及线下指标与线上实际表现的差异,严重阻碍了个性化学习算法的研发与落地。

现有学习者响应数据模拟方法存在两大局限:一是模拟过程过于简化,仅预测答题对错,未考虑学习者理解、分析、解题的完整过程,导致模拟结果缺乏可靠性和可解释性;二是过度依赖真实数据,无法在真实数据集不足的场景下(如零样本模拟)实现有效泛化。

近年来,大语言模型(Large Language Models, LLMs)在自主交互、决策及上下文学习方面展现出卓越能力,其驱动的生成式智能体为解决上述问题提供了新的可能。

1.2主要贡献

该研究的主要贡献体现在如下几方面。

1)开发了Agent4Edu个性化学习模拟器:该模拟器基于LLM驱动的生成式智能体,可精准模拟学习者的响应数据及完整实践过程,并能与个性化学习环境交互,为智能辅导算法的评估与优化提供支撑。

2)设计了专为教育场景定制的生成式智能体:包含学习者档案、记忆和行动三大核心模块,不仅能生成响应数据,还可模拟学习者的习题选择、理解、分析及解题等详细行为,性能优于现有模拟方法。

3)从两个维度开展了全面实验:一方面验证生成式智能体与人类学习者的行为一致性;另一方面基于模拟数据评估并优化了计算机化自适应测试等个性化学习算法,充分证明了Agent4Edu的有效性。

二、研究方法

Agent4Edu能够准确模拟学习者的响应数据,其中包含两大核心组件:LLM驱动的生成式智能体和个性化学习环境。图1是Agent4Edu的整体框架,接下来将具体介绍各部分结构。

1 Agent4Edu的整体框架

2.1 LLM驱动的智能体

Agent4Edu中的生成式智能体以LLM为基础架构,通过三个专为个性化学习场景设计的专用模块增强功能:学习者档案、记忆和行动模块。

1)学习者档案模块

学习者档案模块代表人类学习者的一些整体学习特征,包括显式实践风格和隐式认知因素。

实践风格是从每位学习者的实践记录提取的统计特征,包括学习活跃度、实践多样性、成功率和偏好。

认知因素是心理学领域研究的隐式特征,对学习者的实践表现有显著影响。论文选择问题解决能力和知识熟练度作为研究对象。为获取隐式能力,论文使用IRT模型从响应数据中推断每位学习者的隐式能力。

若进行零样本模拟且无用户数据可用,则需随机生成档案。

2)记忆模块

记忆模块能够模拟学习者逐步观察和总结过往实践的过程。本文遵循人类学习机制,为每个智能体设计了三种类型的记忆:事实记忆、短期记忆和长期记忆。

事实记忆:在本文模拟中,事实记忆被定义为学习者真实的过往响应记录。受人类学习机制启发,若智能体反复练习相似题目或知识,其记忆会得到强化。因此,本文为事实记忆中的每条记录引入一个额外计数器,用于追踪其被强化的次数。需强调的是,智能体仅能将响应记录保存至事实记忆,无法直接检索事实记忆。

短期记忆:人类短期记忆指能够在较短时间内保留和回忆的近期临时信息。因此,本文模拟中采用短期记忆保留智能体最近观测到的记录的细节。

长期记忆:长期记忆通过重复实践和自我反思对记忆进行强化形成,能够保留很久以前观测到的信息并生成高层级见解。本文设计的长期记忆包含多种信息:每次更新长期记忆时,智能体强化次数超过阈值的事实记忆转化为长期记忆;利用智能体中嵌入的LLM,总结并反思智能体的学习状态,即实践过程的语言描述和智能体自身的新见解;使用DNeuralCDM在每一步实践后获取学习者特定知识概念的动态熟练度演变情况。

此外,长期记忆中的每条事实记录会遵循人类遗忘曲线理论(记忆衰减初期较快,随后逐渐放缓)进行遗忘。

3)行动模块

为使智能体能够基于当前观测展现类人的解题行为和响应,论文设计了专为个性化学习定制的行动模块,包含三大类行动:

认知驱动行动:个性化学习算法每步会向智能体推荐一道习题,智能体阅读习题内容后,基于当前认知因素决定是否进行练习。若习题相对于智能体的评估能力和知识熟练度过难,智能体可选择拒绝该推荐习题。

习题阅读与理解:每次练习时,首先要求智能体识别并描述当前习题所考查的知识概念。若智能体正确匹配习题的知识概念,则表明其与人类学习者一样理解了习题情境;若未能匹配,则触发修正反思,引导智能体走向正确的知识概念。

习题分析与解答:论文通过思维链(Chain of Thought,CoT)的方法要求智能体给出解题过程。首先,智能体结合自身档案和记忆,为习题制定初步解题思路;然后,基于解题思路写出习题的最终答案;最后,智能体预测自己的答案是否正确。若预测响应与真实学习者的响应不一致,则触发修正反思。若习题提供标准答案,可设计评分程序直接评估智能体答案的正确性。

2.2个性化学习场景

学习环境被设计为独立模块,集成了一系列个性化算法,这些算法可基于智能体的过往实践数据推荐习题。例如,本文实验中采用计算机化自适应测试(CAT)策略进行个性化学习。

三、实验结果

3.1数据集与实验设置

数据集:论文使用的数据集是由科大讯飞股份有限公司提供的EduData。该数据集包含500名中国高中生的18,045条时序响应记录,涵盖数学和物理学科,共有1,032道习题和458个知识概念,每道习题考查一个知识概念。

实验设置:论文通过OpenAI的API服务使用GPT-3.5-turbo和GPT-4构建实验智能体。出于成本考虑,GPT-4配置下仅模拟100名学习者的任务记录。GPT的温度参数设为0,以避免随机性。

3.2学习者模拟评估

表1为学习者模拟评估实验结果。结果中可以看出,Agent4Edu(GPT-3.5-turbo)与有监督基线模型相比具有较强竞争力,这表明基于LLM的智能体能生成与真实数据集高度相似的学习者响应数据。

1学习者模拟性能的评估分数

此外,本文评估了智能体实践成功率的模拟分布与学习者数据实际分布的一致性,结果如图2所示。真实值与智能体结果的对比表明,模拟数据有效捕捉了学习者与成功率相关的实践模式。

2真实响应数据与智能体模拟响应数据的成功率分布对比

3.3习题相关知识理解

2知识预测的准确率

为评估智能体是否理解特定习题,实验要求智能体生成该习题所考查的知识概念。

表2所示实验结果表明,所有智能体均能正确识别大多数实践习题所考查的知识,体现了LLM强大的类人能力和丰富的知识储备,能够理解习题。

3.4零样本模拟

图3 使用LLM作为评判者,识别智能体模拟记录是否来自真实人类

实验使用GPT-3.5-turbo模型作为标注者,评估零样本条件下Agent4Edu生成的每条模拟记录(包括习题答案和实践总结)是否由真实人类撰写:认为是人类撰写的记录标记为“Agent4Edu获胜”,非人类撰写的标记为“Agent4Edu失败”,模糊记录标记为“平局”。

图3所示结果表明,智能体在总结任务中的表现与真实人类响应高度一致,难以区分;但相比总结任务,智能体在习题答题任务中存在一定局限性,这主要是由于解题所需的推理过程更为复杂。

3.5消融实验

4消融实验结果

论文进行了消融实验,其结果如图4所示。该图展示了Agent4EDU在无档案模块(w/o prof)、无记忆模块(w/o mem)、无记忆强化(w/o enh)、无记忆遗忘(w/o fgt)和无反思(w/o ref)模块下的性能对比。这些结果证实了每个组件在提升智能体学习者响应数据预测性能方面的有效性。

3.6多维度评估实验

3 CAT策略的多维度评估结果

人类学习者对不同个性化学习服务的评估具有多维度性。若生成式智能体能够准确模拟真实学习者的行为,那么其对个性化算法的评估应与人类评估一致。Agent4Edu对不同CAT策略的多维度评估表格如表3所示。其中,评估指标包括满意度(satisfaction)、难度适宜性(AoD)和是否有收获(gain)。该结果与人类对这些策略的评价高度相似。

3.7个性化学习算法改进

4 CAT服务的性能改进

该实验探究Agent4Edu生成的模拟数据是否能提升个性化学习算法的性能。实验首先使用Agent4Edu生成模拟学习者数据,将其与原始EduData的数据合并,形成增强数据集EduData+。分别使用原始EduData和EduData+评估每种CAT策略的性能。实验结果如表4所示。在Agent4Edu的辅助下,CAT策略可得到有效提升,这意味着Agent4Edu能够生成高质量的学习者响应数据。

四、总结

本推文介绍了Agent4Edu,一种创新性的个性化学习模拟器,其利用LLM驱动的生成式智能体模拟学习者的响应数据及详细解题行为。该生成式智能体配备了专为个性化学习场景设计的档案、记忆和行动模块,能够展现类人的习题选择、理解、分析和解答行为,准确预测学习者的未来响应。此外,生成式智能体可与个性化学习环境交互,实现对智能服务的评估与优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1190837.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

空气能十大领军品牌盘点:绿色能源时代的创新力量 - 资讯焦点

在“双碳”目标全面推进和清洁能源转型的浪潮中,空气能行业正迎来前所未有的发展机遇。作为高效、环保、可再生的能源利用方式,空气能技术已在采暖、制冷、热水等多个领域展现出强大的竞争力和市场潜力。本文盘点当前…

2025 AI大模型薪资狂欢:小白程序员入行最后黄金时机,年薪百万不是梦!非常详细建议收藏

文章分析了2025年AI大模型领域高薪就业趋势,指出供需失衡和政策支持导致AI岗位薪资暴涨,大模型算法工程师平均月薪7万。文章介绍五大高薪岗位及所需技能,提供提升竞争力的方法,并强调技术红利窗口期正在关闭,现在是入行…

Node.js代码统计神器

统计代码行数使用Node.js编写一个脚本,统计指定目录下所有文件的代码行数。const fs require(fs); const path require(path);function countLinesInFile(filePath) {const content fs.readFileSync(filePath, utf-8);return content.split(\n).length; }functio…

大数据毕设选题推荐:基于django的菜价可视化系统蔬菜销售分析与预测可视化系统【附源码、mysql、文档、调试+代码讲解+全bao等】

java毕业设计-基于springboot的(源码LW部署文档全bao远程调试代码讲解等) 博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、…

存储技术全解:从基础到前沿

系统存储机制深度剖析技术文章大纲存储基础概念存储介质的分类(HDD、SSD、NVMe、NVM)存储层次结构(寄存器、缓存、主存、外存)数据存取的基本原理(寻址、读写、延迟)文件系统与存储管理文件系统的核心组件&…

基于广义Benders分解法的综合能源系统优化规划Matlab代码

✅作者简介:热爱数据处理、建模、算法设计的Matlab仿真开发者。🍎更多Matlab代码及仿真咨询内容点击 🔗:Matlab科研工作室🍊个人信条:格物致知,完整Matlab代码获取及仿真咨询内容私信。👇 关注我…

基于多目标粒子群算法冷热电联供综合能源系统运行优化Matlab实现

✅作者简介:热爱数据处理、建模、算法设计的Matlab仿真开发者。🍎更多Matlab代码及仿真咨询内容点击 🔗:Matlab科研工作室🍊个人信条:格物致知,完整Matlab代码获取及仿真咨询内容私信。👇 关注我…

洛谷 P10962:Computer ← 换根DP

​【题目来源】https://www.luogu.com.cn/problem/P10962http://acm.hdu.edu.cn/showproblem.php?pid=2196【题目描述】某学校在一段时间前购买了第一台计算机(因此这台计算机的编号是 1)。在最近几年中,学校又购买…

activiti7的强制绑定角色问题

角色强绑定问题及解决方案 在使用若依的基础上,本打算将activiti7集成进去,结果在测试调用activiti的api时返回前端"没有权限,请联系管理员授权" 本来还以为是若依的权限校验,结果通过debug发现日志中报…

SCADA与数字孪生(Digital Twin)系统的异同点在哪里?

SCADA(Supervisory Control and Data Acquisition,监控与数据采集系统)和数字孪生(Digital Twin)系统都是工业自动化、智能制造和基础设施管理中的关键技术,但它们在目标、功能、技术架构和应用场景上存在显…

AI狂飙与冷思考:一个准码农的2026开年观察

AI狂飙与冷思考:一个准码农的2026开年观察* { margin: 0; padding: 0; box-sizing: border-box } body { font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, "Helvetica Neue&quo…

完整教程:人机交互(如 VR 手柄追踪、光标移动、手势识别)的滤波算法

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

生成式软件制造--AI驱动的软件开发 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

【读书笔记】《稻盛和夫自传》

《稻盛和夫自传》:敬天爱人的人生与经营哲学 稻盛和夫的自传是一本全面记录其创业经历、经营哲学与方法论的著作。这本书不仅适用于企业家,更适合所有职场人士阅读。在当下内卷化严重的社会环境中,它帮助我们树立正确的工作观:不仅…

《把脉行业与技术趋势》-65-当你的人生轨迹与民族复兴的长波、技术革命的中波、行业爆发的短波同频共振时,平凡的努力,也会被时代放大成非凡的成就——这,便是“着道”的现代诠释。

民族的生命的周期、国家宏观政策的生命周期、行业发展的生命周期、技术发展生命周期、企业发展的周期、产品的发展生命周期、个人的职业操作周期,傅里叶级数的可视化用图示的方式展现了小周期要顺应大周期,多周期共振带来的杠杆效应。一、核心思想&#…

AI生成SQL的安全风险与测试框架

随着AI在软件开发中的普及,AI生成的SQL语句被广泛应用于数据库操作,但这也引入了新的安全隐患。SQL注入、未授权数据访问(拖库)和恶意删除(删库)已成为三大核心威胁。据行业报告,2025年因AI生成…

线段树合并

\(\text{luogu-4556}\) 村落里一共有 \(n\) 座房屋,并形成一个树状结构。然后救济粮分 \(m\) 次发放,每次选择两个房屋 \((x, y)\),然后对于 \(x\) 到 \(y\) 的路径上(含 \(x\) 和 \(y\))每座房子里发放一袋 \(z\…

454. 四数相加 II-day06

454. 四数相加 II 题目链接:https://leetcode.cn/problems/4sum-ii/description/ 思路:第一步:遍历nums1和nums2,统计「两数之和」的出现次数,存入哈希表map(键 = 两数之和,值 = 该和出现的次数); 第二步:遍…

《把脉行业与技术趋势》-69-股票的周期、产品的周期、企业的周期的相似性与不同,以及它们各自在不同阶段关注的重点和核心要素不同

这是一个极具战略价值的问题。股票、产品、企业三者虽相互嵌套、彼此影响,但它们的周期逻辑、驱动因素和阶段重心存在显著差异。理解其相似性与不同点,并掌握各阶段的核心关注要素,是投资者、创业者和管理者做出正确决策的关键。一、三者的本…

别让”高性能“骗了你 之数组池ArrayPool vs 数组Array

别让”高性能“骗了你 之数组池ArrayPool vs 数组Array别让”高性能“骗了你! 本文介绍了作者因为追求高性能而没有关注实际使用环境导致性能不升反降。高性能的ArrayPool在特殊工况下可能效率远低于普普通通的Array数…