计算机硕士AIGC方向学习内容规划

news/2025/10/24 15:24:42/文章来源:https://www.cnblogs.com/limingqi/p/19163513

计算机硕士AIGC方向学习内容规划

大模型学习:

类型

学习主题

时间

学习内容

 

 

 

基础篇

数据理解

2周

数据处理,理解,可视化(为了发论文做准备,关注可视化的python工具)

大模型原理

2周

Attention,Transformer,GPT,Deepseek,T5,Qwen等,了解原理和实现能跑通

大模型微调

2周

微调方法,不同微调的方式的优势,简单的实现

大模型压缩

4周

了解压缩方法有哪些?了解模型压缩,数据压缩等优势和实现,这块是你的重点

大模型评估

2周

了解大模型的评估方法以及技巧,代码可以实现一些评估,重点关注压缩的模型的评估方法

强化学习&智能体学习:

学习阶段

模块细分

核心学习内容

实践要求

建议学习时间(每周 15-20 小时)

总周期占比

一、强化学习基础理论(3-4 周)

1.1 RL 核心框架与数学基础

1. 智能体 - 环境交互循环(Agent-Environment Loop);2. 核心概念:状态(State)、动作(Action,离散 / 连续)、奖励(Reward)、马尔可夫决策过程(MDP)五要素;3. 价值函数:V (s)(状态价值)、Q (s,a)(动作价值)、贝尔曼方程推导。

1. 手动推导 MDP 贝尔曼方程;2. 用 Excel/Matlab 计算 “格子世界” 的状态价值。

1 周(10-15 小时)

25%

 

1.2 目标函数与评估准则

1. 累积回报(Return):有限 horizon / 无限 horizon 定义,折扣因子(γ)的物理意义;2. 策略评估(Policy Evaluation)与策略改进(Policy Improvement)迭代逻辑;3. 优势函数(A (s,a)):定义与作用(减少价值估计方差)。

基于“格子世界”,用 Python 实现 “策略评估 - 改进” 手动迭代(2-3 轮)。

1 周(10-15 小时)

25%

 

1.3 经典无模型基础算法

1. 时序差分学习(TD Learning)原理;2. 在线策略(SARSA)与离线策略(Q-Learning)的区别与实现;3. 探索 - 利用平衡:ε-greedy、Softmax 策略;4. Double Q-Learning(解决 Q 值过估计问题)。

用 Python 实现 Q-Learning,解决 OpenAI Gym FrozenLake-v1 环境(目标:成功率≥80%)。

1-2 周(15-20 小时)

50%

二、进阶算法与理论深化(4-5 周)

2.1 策略梯度方法

1. 策略梯度定理(Policy Gradient Theorem)数学推导;2. REINFORCE 算法:蒙特卡洛策略梯度实现;3. 基准线(Baseline)引入:减少梯度方差的原理;4. 策略梯度的目标函数优化逻辑。

用 PyTorch 实现 REINFORCE,解决 CartPole-v1 环境(目标:持续 200 步不失败)。

1.5 周(15-20 小时)

30%

 

2.2 近邻策略优化(PPO)与进阶算法

1. PPO 核心:Clip 截断机制(避免策略更新幅度过大)、PPO-Penalty(KL 散度惩罚);2. Actor-Critic 框架:优势与实现要点(目标网络、经验回放);3. TRPO(信任区域策略优化)基本逻辑。

用 PyTorch 实现 PPO,解决 LunarLander-v2 环境(目标:得分≥200)。

2 周(20-25 小时)

40%

 

2.3 连续动作空间与深度 RL

1. DDPG(深度确定性策略梯度):适用于连续动作的 Actor-Critic 实现;2. TD3(双延迟 DDPG):目标 Q 值裁剪、延迟策略更新(解决过估计);3. SAC(软 Actor-Critic):熵正则化与最大熵 RL 思想。

用 PyTorch 实现 DDPG,控制 Pendulum-v1 环境(目标:奖励≥-100)。

1.5 周(15-20 小时)

30%

三、智能体 RL 工程落地(3-4 周)

3.1 环境构建与状态表示

1. 标准化环境接口:Gym/Gymnasium API 设计(reset ()、step () 方法);2. 状态特征工程:离散状态编码(One-Hot)、连续状态归一化(Min-Max/Standard Scaling);3. 自定义环境:游戏 / 机器人 / 推荐场景的抽象逻辑。

1. 自定义 “迷宫寻路” 环境,适配 Gym 接口;2. 完成状态观测与动作反馈的闭环。

1 周(12-15 小时)

30%

 

3.2 经验回放与训练优化

1. 经验回放(Replay Buffer):实现与作用(打破样本相关性);2. 优先经验回放(PER):基于 TD 误差的样本权重分配;3. 训练稳定性优化:梯度裁剪、学习率调度、Batch Normalization 在 RL 中的适配。

在 PPO 代码中加入经验回放机制,对比优化前后的收敛速度(如训练步数减少 20%)。

1 周(12-15 小时)

30%

 

3.3 评估与部署

1. 评估指标:平均回报、收敛速度、鲁棒性(不同初始状态测试);2. 训练监控:TensorBoard 记录损失 / 奖励曲线;3. 模型部署:PyTorch state_dict 保存 / 加载、ONNX 格式导出(适配边缘设备)。

1. 用 TensorBoard 监控 PPO 训练过程;2. 将训练好的模型导出为 ONNX,在新环境中评估性能。

1-2 周(10-20 小时)

40%

四、领域专项应用(2-3 周,按需选学)

4.1 医疗场景

   

1年

 
 

4.2 机器人与控制场景

1. 机械臂控制:抓取 / 装配任务的 RL 训练(如 SAC+PyBullet);2. 移动机器人:SLAM 与 RL 结合的导航;3. 传统控制融合:RL 与 PID 结合(提升动态响应)。

用 SAC 控制 PyBullet 中的机械臂,完成简单抓取动作(目标:抓取成功率≥70%)。

1-2 周(15-20 小时)

可选

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/945374.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 年计数包装机厂家最新推荐榜:结合协会测评权威数据精选 优质品牌,覆盖多行业高精度高效能设备

引言 在制造业智能化升级加速的当下,计数包装机作为生产关键设备,其品质直接影响企业产能与产品质量。为给企业提供可靠选购参考,中国包装机械行业协会联合专业测评机构开展 2025 年度计数包装机品牌测评,此次测评…

2025年评价高的耐高温劳保鞋,耐油耐酸碱劳保鞋鞋直销制造

2025年评价高的耐高温劳保鞋,耐油耐酸碱劳保鞋鞋直销制造 行业概述 随着工业安全意识的不断提升,劳保鞋作为个人防护装备的重要组成部分,市场需求持续增长。2025年,耐高温、耐油、耐酸碱等特种功能劳保鞋成为行业…

常用库函数重载

常用库函数重载 using i64 = long long; using i128 = __int128;/** 上取整下取整* 2023-10-15: https://codeforces.com/contest/293/submission/228297248 **/ i64 ceilDiv(i64 n, i64 m) {if (n >= 0) {ret…

2025年餐桌石材品牌排行TOP10:品质与口碑的终极指南

摘要 随着家居装饰行业的快速发展,餐桌石材市场在2025年迎来了新一轮的增长与创新。消费者对石材品质、设计美感及品牌信誉的要求日益提升,优质石材品牌成为市场关注的焦点。本文基于行业数据与用户口碑,精选出当前…

2025年知名的陕西白水苹果,白水苹果品牌甄选

2025年知名的陕西白水苹果品牌甄选:五大龙头企业深度解析与购买指南 陕西白水苹果以其独特的地理优势、脆甜多汁的口感和丰富的营养价值,成为中国苹果产业的标杆产品。2025年,随着消费升级和品牌化趋势加速,白水苹…

关于举办“2026中国(北京)国际森林草原消防与救援装备展览会”通知

关于举办“2026中国(北京)国际森林草原消防与救援装备展览会”通知各有关单位:森林草原是国家生态安全的重要屏障,森林草原防灭火工作事关人民群众生命财产安全、国家生态安全和经济社会发展大局。当前,受全球气候变…

2025年优质的合规管理知识产权贯标,知识产权贯标推荐

2025年优质的合规管理知识产权贯标,知识产权贯标推荐知识产权贯标认证的重要性在当今知识经济时代,知识产权已成为企业核心竞争力的重要组成部分。2025年,随着全球知识产权保护意识的不断提升,知识产权贯标认证已成…

不知道笔记本怎么添加打印机?教你3招轻松搞定!

无论是办公打印文件还是居家打印学习资料,笔记本连接打印机都是一项不可或缺的技能。很多人觉得“技术复杂”、“驱动难装”,其实只要找对方法,一分钟就能搞定!本文涵盖Windows 11/10与 macOS两大系统,包含USB有线…

2025年可靠的注册公司咨询费用

2025年可靠的注册公司咨询费用指南:5家优质服务商推荐与选择策略 在当今竞争激烈的商业环境中,企业注册与合规运营已成为创业者面临的首要挑战。从工商注册、税务筹划到知识产权保护,每个环节都需要专业指导。选择…

2025年热门的短视频运营方案

2025年热门的短视频运营方案:5家高潜力服务商推荐与选择指南 随着短视频流量红利持续爆发,2025年企业短视频运营将进入精细化、数据化竞争阶段。选择专业的运营服务商成为品牌突围关键。本文基于行业趋势与实战数据…

mac ida pro 9.2 配置 Python

mac ida pro 9.2 配置 Pythonida pro 9.2 配置 Python /Applications/IDA\ Professional\ 9.2.app/Contents/MacOS/idapyswitch --force-path /Users/wzb/.pyenv/versions/3.11.10/lib/libpython3.11.dylib …

深入解析:FFmpeg安装(Windows)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

好用的国内AI大模型有哪些?赶紧来看!

随着AI技术的爆发式发展,国内AI大模型早已告别“单点突破”,迈入“百花齐放”的新阶段。从日常办公的文案生成,到企业级的行业解决方案,不同定位的大模型各显神通。很多用户既想体验前沿AI能力,又面临“选哪款”、…

2025年热门的卫浴豪华骑马抽,超薄豪华骑马抽实力源头加工

2025年热门的卫浴豪华骑马抽:超薄豪华骑马抽实力源头加工 随着家居与卫浴行业对品质与美学的追求不断提升,豪华骑马抽(骑马式抽屉滑轨)因其超薄设计、静音耐用、高承重性能成为高端市场的宠儿。2025年,消费者更青…

2025年400E螺纹钢生产厂家权威推荐榜单:敬业螺纹钢/三级盘螺/盘圆螺源头厂家精选

在建筑工程与基础设施建设领域,400E螺纹钢作为关键结构材料,其供应商的选择关乎项目品质与进度。 在建筑工程与基础设施建设领域,400E螺纹钢因其高强度、良好的韧性和焊接性能,成为关键结构材料之一。随着市场对材…

2025年评价高的谷歌优化服务公司

2025年评价高的谷歌优化服务公司推荐指南引言在数字化浪潮席卷全球的今天,谷歌优化服务已成为企业拓展国际市场不可或缺的战略工具。2025年,随着AI技术的深度应用和搜索引擎算法的持续更新,选择一家专业可靠的谷歌优…

systemd中target和service的依赖关系

Systemd 依赖关系详细说明文档依赖关系类型对比表依赖类型 启动时行为 重启时行为 关闭时行为 强度等级 Wants= Target启动时自动启动Service Target重启时不重启Service Target停止时不停止Service ⭐☆☆☆☆ Requir…

2025年发电机厂家推荐排行榜,发电机组出租,柴油发电机出租,甲醇发电机组租赁,移动式发电机出租,发电机组维修保养公司推荐

2025年发电机行业深度解析与优质服务商推荐指南 行业背景与发展趋势 随着我国工业化进程的加速推进和能源结构转型的深入,发电机及配套服务行业正迎来前所未有的发展机遇。作为保障各行业稳定运行的重要基础设施,发电…

生产事故-Caffeine缓存误用之临下班的救赎

入职多年,面对生产环境,尽管都是小心翼翼,慎之又慎,还是难免捅出篓子。轻则满头大汗,面红耳赤。重则系统停摆,损失资金。每一个生产事故的背后,都是宝贵的经验和教训,都是项目成员的血泪史。为了更好地防范和遏…

2025年比较好的抖音运营推荐

2025年比较好的抖音运营推荐 在数字化营销日益重要的今天,抖音作为全球领先的短视频平台,已成为企业品牌推广、流量获取的重要渠道。2025年,抖音运营的需求更加精细化,企业需要专业的代运营服务商来提升内容质量、…