LGDRL:基于大型语言模型的深度强化学习在自动驾驶决策中的应用

《Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving》2024年12月发表,来自北理工的论文。

        深度强化学习(DRL)在自动驾驶决策方面显示出巨大的潜力。然而,由于DRL的学习效率低,它需要大量的计算资源来在复杂的驾驶场景中实现合格的策略。此外,利用人类的专家指导来提高日间行车灯的性能会导致过高的劳动力成本,这限制了其实际应用。在这项研究中,我们提出了一种新的大型语言模型(LLM)引导的深度强化学习(LGDRL)框架,用于解决自动驾驶汽车的决策问题。在此框架内,一位基于LLM的驾驶专家被整合到DRL中,为DRL的学习过程提供智能指导。随后,为了有效地利用LLM专家的指导来提高DRL决策政策的性能,通过创新的专家政策约束算法和新颖的LLM干预交互机制来增强DRL的学习和交互过程。实验结果表明,与最先进的基线算法相比,我们的方法不仅实现了90%任务成功率的卓越驾驶性能,而且显著提高了学习效率和专家指导利用效率。此外,所提出的方法使DRL代理能够在没有LLM专家指导的情况下保持一致和可靠的性能。

研究背景与问题

自动驾驶决策系统需在复杂动态交通场景中生成安全、合理的驾驶行为。传统基于规则的方法适应性不足,而深度强化学习(DRL)虽在决策任务中表现优异,但存在学习效率低依赖人类专家指导成本高的问题。

  • DRL的局限性:需通过大量环境交互优化策略,在复杂场景中难以积累有效轨迹,导致策略优化缓慢。

  • 现有专家指导的不足:依赖人类专家实时干预或演示数据,成本高昂且效率低下。

 

核心贡献

作者提出LLM引导的深度强化学习框架(LGDRL),通过以下创新点解决问题:

  1. LLM驾驶专家:替代人类专家,提供低成本、高质量的决策指导。

  2. 专家策略约束算法:基于Jensen-Shannon(JS)散度的策略约束,限制DRL策略与LLM专家策略的差异,提升知识吸收效率。

  3. LLM干预互动机制:允许LLM在训练阶段间歇性干预DRL代理的动作,避免灾难性行为,同时保留自主探索能力。


方法细节

 

 

  1. LLM专家构建

    • 基于ChatGPT-4o构建,通过提示生成文本响应,提取动作指导。

    • 包含重查询机制,确保动作格式正确性。

  2. 专家策略约束算法

    • 优化目标:最大化累积奖励,同时约束DRL策略与专家策略的JS散度(公式11-15)。

    • 实现:结合拉格朗日对偶理论,通过交替优化策略和拉格朗日乘子(公式16-18)。

    • 策略更新:Actor-Critic框架中,Critic网络评估动作值函数,Actor网络优化策略(公式19-25)。

  3. LLM干预机制

    • 动作替换条件:基于时间到碰撞(TTC)的安全评估和间歇性干预权限(公式29)。

    • 间歇模式:仅在部分训练回合允许干预,平衡专家指导与自主探索。


实验与结果
  1. 实验场景

    • 使用highway-env模拟四车道高速公路,目标为右车道500米处,周围车辆随机生成。

    • 对比基线包括Vanilla-SAC、SAC+RP、SAC+BC、SAC+Demo。

  2. 训练性能

    • 回报与成功率:LGDRL在218回合内达到基线最大回报,成功率82%,显著优于其他方法(图7)。

    • 专家指导利用率:干预次数和率最低(图8),表明高效吸收专家知识。

  3. 测试性能

    • 任务成功率90%,碰撞率10%,推理时间仅0.01秒/步,优于LLM专家的3.72秒(表VI-VII)。

    • 策略一致性:与LLM专家的JS散度最低(0.12),动作选择高度一致(图9-10)。

  4. 干预模式与消融实验

    • 间歇干预优于持续干预,避免过度依赖专家,保持自主探索能力(表VIII)。

    • 策略约束组件显著提升训练性能,干预需求减少(图12)。

 


创新与不足

创新点

  • 首次将LLM作为专家融入DRL训练闭环,降低对人类专家的依赖。

  • 通过策略约束和间歇干预机制,平衡学习效率与自主探索。

潜在不足

  • LLM专家的安全性与泛化能力需进一步验证,尤其在极端场景(如紧急避障)。

  • 实验环境较理想化,未涉及城市道路、行人交互等复杂场景。

  • LLM的实时推理依赖预训练DRL代理,可能限制其动态适应性。


结论与展望

LGDRL框架通过LLM引导DRL,显著提升自动驾驶决策的效率和安全性,任务成功率达90%,且具备实时推理能力。未来可扩展至多车协同、复杂城市道路等场景,并探索LLM与DRL的更深度融合(如多模态输入)。该研究为自动驾驶决策系统提供了一种高效、低成本的新范式。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/80559.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TDEngine 与 Grafana

目录 实践目录 Grafana 参考文档 实践目录 10.60.100.194:/home/dualven/tdengine Grafana systemctl status grafana-server http://10.60.100.194:3000/ 这个端口与mydoor的new server服务冲突 (同时只开一个) 参考文档 运行监…

Edge浏览器打开PDF文件显示空白(每次需要等上一会)

概述 部分pdf文件用edge浏览器打开显示空白,需要等一会才能显示出来,这很让人难以接受,用其他浏览器和pdf阅读器打开是正常的,该怎么操作解决,卸载重装,修复,重置浏览器等都无效。 解决办法 可…

uniapp小程序轮播图高度自适应优化详解

在微信小程序开发过程中,轮播图组件(swiper)是常用的UI元素,但在实际应用中经常遇到高度不匹配导致的空白问题。本文详细记录了一次轮播图高度优化的完整过程,特别是针对固定宽高比图片的精确适配方案。 问题背景 在开发"零工市场&quo…

Android第三次面试总结之网络篇补充

一、网络模型:OSI 七层 vs TCP/IP 四层(必考点) 1. 分层模型对比 OSI 七层模型TCP/IP 四层模型核心功能Android 相关场景应用层(7 层)应用层定义数据格式(HTTP/HTTPS/FTP/API)OkHttp/Retrofit…

postgresql主从集群一键搭建脚本分享

脚本1: cat pg_ms_install.sh #!/bin/bash # 基础环境配置(保持不变) setenforce 0 >/dev/null 2>&1 || true sed -i "s/SELINUXenforcing/SELINUXdisabled/" /etc/selinux/config systemctl stop firewalld >/dev/n…

LWIP的ICMP协议

ICMP协议简介 ICMP协议是一个网络层协议 背景:如果丢包了,IP协议并不能通知传输层是否丢包以及丢包的原因。因此我们需要ICMP协议来完成这样的功能 为什么需要ICMP协议 1,IP 协议本身不提供差错报告和差错控制机制来保证数据报递交的有效…

具身智能机器人开源陪跑计划(机器人实战落地)

Who:我们是谁? 主理人背景 华南理工大学硕士毕业,10年机器人研发经验,5年“互联网机器人”创业经历 累计牵头落地的机器人30多款,累计授权专利80余项,累计论文发表10余篇。 技术履历 C#、Sql server、SPSS…

Dify 配置网络爬虫为知识库数据来源 (以Jina Reader为例) - 随笔

API获取 进入官网获取免费的API密钥 官网链接&#xff1a;https://jina.ai/reader/ 点击“<> API”按钮 点击复制文本框中的API Key&#xff1a; 进入Dify的知识库页面 → 选择“同步自Web站点” → 选择“Jina Reader” → 点击“配置”按钮 选择数据来源为Jina …

基于网络爬虫+Spark+Hadoop等大数据和SpringBoot技术实现的的汽车行业大数据分析与可视化平台系统(源码+论文+PPT+部署文档教程等)

博主介绍&#xff1a;CSDN毕设辅导第一人、全网粉丝50W,csdn特邀作者、博客专家、腾讯云社区合作讲师、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌ 技术范围…

React学习路线图-Gemini版

前端开发学习路线图 (针对编程新手&#xff0c;主攻 React 框架) 总原则&#xff1a;先打好地基&#xff0c;再盖楼。 无论学习哪个框架&#xff0c;扎实的 HTML、CSS 和 JavaScript 基础是成功的关键。React 是基于 JavaScript 构建的&#xff0c;所以深入理解 JS 至关重要。…

空间计算:开启人机交互新纪元的下一代技术范式

引言 当苹果CEO蒂姆库克在2023年WWDC大会上宣布Apple Vision Pro将引领“空间计算时代”时&#xff0c;这一宣言不仅标志着技术范式的迭代&#xff0c;更预示着一场融合虚实世界的革命已悄然来临。 空间计算&#xff08;Spatial Computing&#xff09;作为连接物理世界与数字…

大语言模型训练的两个阶段

先说结论&#xff1a;第一阶段在云平台训练至收敛 第二阶段本地GPU微调 一、阶段划分的核心逻辑 阶段目标资源特点典型耗时占比成本敏感度预训练获取通用表征能力需要大规模分布式计算70-90%高&#xff08;追求每美元算力&#xff09;微调适配特定任务需要领域数据安全/低延迟…

【AI News | 20250512】每日AI进展

AI Repos 1、UI-TARS UI-TARS-1.5 是字节跳动开源的多模态智能体&#xff0c;基于强大的视觉语言模型构建&#xff0c;通过强化学习实现高级推理&#xff0c;显著提升了在虚拟世界中执行多样化任务的能力和适应性。相较前期模型&#xff0c;1.5 版本在 OSWorld、Windows Agent…

[git]如何关联本地分支和远程分支

主题 本文总结如何关联git本地分支和远程分支的相关知识点。 详情 查看本地分支 git branch 查看远程分支 git branch -r 查看所有分支(本地远程) git branch -a 查看本地分支及其关联的远程分支(如有) git branch -vv 关联本地分支到远程分支&#xff1a; git branch …

CC53.【C++ Cont】二分查找的普通模版

目录 1.知识回顾 2.关键点 特点 三个模版 普通的模版(有局限) 以LeetCode上的一道题为例:704. 二分查找 分析 引入二段性:分两段,舍一段,操作另一段(这个是二分查找的本质!) 代码 提交结果 当然也可以使用随机数来分两段 普通模版总结 1.知识回顾 之前在C语言专栏…

lua脚本+Redission实现分布式锁

实现分布式锁最简单的一种方式&#xff1a;基于Redis 不论是本地锁还是分布式锁&#xff0c;核心都在于“互斥”。 在 Redis 中&#xff0c; SETNX 命令是可以帮助我们实现互斥。SETNX 即 set if not exists (对应 Java 中的 setIfAbsent 方法)&#xff0c;如果 key 不存在的…

设计模式之工厂模式(二):实际案例

设计模式之工厂模式(一) 在阅读Qt网络部分源码时候&#xff0c;发现在某处运用了工厂模式&#xff0c;而且编程技巧也用的好&#xff0c;于是就想分享出来&#xff0c;供大家参考&#xff0c;理解的不对的地方请多多指点。 以下是我整理出来的类图&#xff1a; 关键说明&#x…

MultiTTS 1.7.6 | 最强离线语音引擎,提供多音色无障碍朗读功能,附带语音包

MultiTTS是一款免费且支持离线使用的文本转语音&#xff08;TTS&#xff09;工具&#xff0c;旨在为用户提供丰富的语音包选项&#xff0c;实现多音色无障碍朗读功能。这款应用程序特别适合用于阅读软件中的离线听书体验&#xff0c;提供了多样化的语音选择&#xff0c;使得听书…

歌曲《忘尘谷》基于C语言的歌曲调性检测技术解析

引言 在音乐分析与数字信号处理领域&#xff0c;自动检测歌曲调性是一项基础且关键的任务。本文以C语言为核心&#xff0c;结合音频处理库&#xff08;libsndfile&#xff09;和快速傅里叶变换库&#xff08;FFTW&#xff09;&#xff0c;探讨如何实现调性检测&#xff0c;并通…

大某麦演唱会门票如何自动抢

引言 仅供学习研究&#xff0c;欢迎交流 抢票难&#xff0c;难于上青天&#xff01;无论是演唱会、话剧还是体育赛事&#xff0c;大麦网的票总是秒光。大麦网是国内知名的票务平台&#xff0c;热门演出票往往一票难求。手动抢票不仅耗时&#xff0c;还容易错过机会。作为一名…