什么是 强化学习(RL):以DQN、PPO等经典模型
DQN(深度 Q 网络)和 PPO(近端策略优化)共同属于强化学习(Reinforcement Learning,RL)这一领域。强化学习是机器学习中的一个重要分支,其核心在于智能体(Agent)通过与环境进行交互,根据环境反馈的奖励信号来学习最优的行为策略,以最大化长期累积奖励
在 DQN(深度 Q 网络)里,Q 代表的是动作价值函数(Action - Value Function),其主要功能是衡量在给定状态下采取特定动作,所能获取的长期累积奖励的期望值。简单来说,它的作用就是判断 “在某个状态时做某个动作,从长远来看能获得多少回报”。
DQN与PPO的现实意义举例
DQN的现实应用
-
智能家居能源管理
- 场景:智能温控系统根据时间、天气、用户习惯自动调节空调温度,