Distilling the Knowledge in a Neural Network知识蒸馏

Distilling the Knowledge in a Neural Network知识蒸馏

web/2025/9/16 0:35:13/文章来源:https://blog.csdn.net/a1105425455/article/details/146091698

一.知识蒸馏的定义

1. 量化VS蒸馏

量化：减小精度例如参数float32—>float16
蒸馏：Student model模仿Teacher model,在保持较高性能的同时，减少模型大小和计算复杂度的技术。

二.知识蒸馏步骤

1.教师模型训练:

训练一个大型且复杂的神经网络（教师模型），使其在特定任务上达到高精度。

2.生成软标签：

使用教师模型对训练数据进行推理，生成软标签（即每个类别的概率分布），这些软标签比硬标签（即直接分类结果）包含更丰富的信息。

举例子：假如有三个分类对象a，b，c，硬标签的结果可能为：a：100% ，b：0% ， c：0%;而软标签的结果可能为：a : 75% ， b：15% ， c：10%。软标签的结果就会包含更多丰富的信息。

蒸馏温度T

为了使其他概率的值可以更大，可以适当修改一下蒸馏温度T的值，此时影响的是Softmax，如：
在这里插入图片描述

3.学生模型训练：

训练一个较小且简单的神经网络（学生模型），使其不仅预测原始标签（硬目标），还要模仿教师模型的输出概率分布（软目标）。

4.知识蒸馏的模型架构

在这里插入图片描述
Distillation Loss 与 Student Loss的计算：

参考：https://www.bilibili.com/video/BV1gS4y1k7vj/?spm_id_from=333.337.search-card.all.click&vd_source=5cd9b442f08018f3dc856d0a91e9cab0

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/72081.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

静态程序分析

静态程序分析

参考：https://github.com/RangerNJU/Static-Program-Analysis-Book/blob/master/SUMMARY.md 课件：https://pascal-group.bitbucket.io/teaching.html 视频：南京大学《软件分析》课程01（Introduction）_哔哩哔哩_bilib…

阅读更多...

Flutter_学习记录_device_info_plus 插件获取设备信息

Flutter_学习记录_device_info_plus 插件获取设备信息

引入三方库device_info_plus导入头文件 import package:device_info_plus/device_info_plus.dart;获取设备信息的主要代码 DeviceInfoPlugin deviceInfoPlugin DeviceInfoPlugin(); BaseDeviceInfo deviceInfo await deviceInfoPlugin.deviceInfo;完整案例 import package…

阅读更多...

日有所得-google 浏览器离线安装

日有所得-google 浏览器离线安装

一、目标： 基于UOS系统进行浏览器插件开发，目标展现形式为侧栏二、背景： UOS操作系统需支持1032及以上版本浏览器插件基于google浏览器，自带360等浏览器能兼容基于google浏览器开发的插件 JS库借用Vue库以提高效率三、问…

阅读更多...

高效自动化测试：打造Python+Requests+Pytest+Allure+YAML的接口测试框架

高效自动化测试：打造Python+Requests+Pytest+Allure+YAML的接口测试框架

一、背景在快节奏的开发周期中，如何确保接口质量？自动化测试是关键。通过构建标准化、可复用的测试框架，能显著提升测试效率与准确性，为项目质量保驾护航[1][7]。二、目标 ✅ 核心目标： ● 实现快速、高效的接口测试…

阅读更多...

谈谈List,Set,Map的区别

谈谈List,Set,Map的区别

List、Set 和 Map 是 Java 集合框架（Java Collections Framework）中的三种主要接口，它们各自有不同的特点和用途。以下是它们的区别和使用场景的详细解释： 1. List（列表） 1.1 特点有序集合：Li…

阅读更多...

智能运维管理系统的主要优势

智能运维管理系统的主要优势

智能运维管理系统通过整合大数据、人工智能、机器学习等技术，显著提升了IT运维的效率和质量。以下是智能运维管理系统的主要优势： 一、提升运维效率 1.自动化运维自动执行重复性任务（如日志分析、故障排查、系统备份）&#xf…

阅读更多...

分享一个用来解决运维问题的 AI 提示词

分享一个用来解决运维问题的 AI 提示词

模板如下（每次我都是自己写的，但是感觉可以更加调优一些） 我遇到了如下问题<问题的清晰描述>你是一位资深运维工程师，任务是指导我一步步排查并解决上面的问题排查过程中，你给我操作指示，我将操作的…

阅读更多...

【python运行Janus-Pro-1B文生图功能】

【python运行Janus-Pro-1B文生图功能】

前言体验了一把本地部署Janus-Pro-1B实现文生图功能。 1、开源项目下载官方开源项目代码直接从Github上下载。 2、模型下载模型官方下载需要魔法 Janus-Pro-1B模型文件：Janus-Pro-1B模型文件百度网盘： https://pan.baidu.com/s/16t4H4z-QZe2UDAg4…

阅读更多...

跨越时空的对话：图灵与GPT-4聊AI的前世今生

跨越时空的对话：图灵与GPT-4聊AI的前世今生

（背景：虚拟咖啡厅，图灵身着1950年代西装，端着一杯热茶，GPT-4以全息投影形态坐在对面） 图灵（喝了口茶）：“听说你能写诗？我当年在布莱切利园破解Enigma时&…

阅读更多...

L2-4 吉利矩阵

L2-4 吉利矩阵

输入样例： 7 3输出样例： 666 这道题是暴力纯搜，但是很难想，我这个是看的别人的代码 #include "bits/stdc.h" using namespace std; int x[20][20]; int l, n; int cnt 0; int sumx[5], sumy[5]; void dfs(int x, in…

阅读更多...

Quickwit+Jaeger+Prometheus+Grafana搭建Java日志管理平台

Quickwit+Jaeger+Prometheus+Grafana搭建Java日志管理平台

介绍生产服务应用可观测性在当下比较流行的方案，其中出现了大量高性能、开箱即用、易上手的的开源产品，大大丰富了在可观测性领域产品的多样性，本文讲述基于OTLP协议推送Java项目遥测数据（日志、指标、链路）到后端存储…

阅读更多...

SpringMVC （一）基础

SpringMVC （一）基础

目录 SpringMVC 一简单使用 1 新建模块选择指定参数 2 创建实现类 3 将项目启动 4 运行结果：在浏览器当中响应执行二 RequestMapping 三请求限定 SpringMVC SpringMVC是Spring的web模块，用来开发Web应用，SpringMVC应用最终作为B/…

阅读更多...

【机器人-基础知识】欧拉角、旋转矩阵和四元数

【机器人-基础知识】欧拉角、旋转矩阵和四元数

1. 欧拉角 1.1. 欧拉角的定义欧拉角是一组三个角度，用于描述一个刚体在三维空间中的定向关系。具体来说，它们表示从一个固定参考坐标系到刚体坐标系的一系列旋转。常见的定义方式是将总体旋转分解为三个连续的简单旋转，每次旋转都绕着当前坐标系的某一固定轴进行。例如，…

阅读更多...

xxl-job部署在docker-destop，实现定时发送预警信息给指定邮箱

xxl-job部署在docker-destop，实现定时发送预警信息给指定邮箱

XXL-JOB XXL-JOB是一个分布式任务调度平台（XXL是作者徐雪里姓名拼音的首字母），其核心设计目标是开发迅速、学习简单、轻量级、易扩展。源码仓库地址：https://github.com/xuxueli/xxl-job 源码结构： 系统架构在xxl-j…

阅读更多...

大数据学习（63）- Zookeeper详解

大数据学习（63）- Zookeeper详解

&&大数据学习&& 🔥系列专栏： 👑哲学语录: 用力所能及，改变世界。 💖如果觉得博主的文章还不错的话，请点赞👍收藏⭐️留言📝支持一下博主哦🤞 &#x1f…

阅读更多...

【数据结构】3顺序表

【数据结构】3顺序表

0 章节 ２．１到２．３小节。理解与表达线性表的逻辑结构； 线性表的结构、结构与操作； 顺序表的表示与实现；顺序表应用； 重点线性表概念、顺序表定义运算与实现&a…

阅读更多...

CUDA编程之OpenCV与CUDA结合使用

CUDA编程之OpenCV与CUDA结合使用

OpenCV与CUDA的结合使用可显著提升图像处理性能。一、版本匹配与环境配置 CUDA与OpenCV版本兼容性‌ OpenCV各版本对CUDA的支持存在差异，例如OpenCV 4.5.4需搭配CUDA 10.0‌2，而较新的OpenCV 4.8.0需使用更高版本CUDA‌。需注意部分模块（…

阅读更多...

WPF从初学者到专家：实战项目经验分享与总结

WPF从初学者到专家：实战项目经验分享与总结

WPF从初学者到专家：实战项目经验分享与总结一、前言二、WPF 基础概念与入门2.1 什么是 WPF2.2 XAML 基础2.3 数据绑定基础三、第一个 WPF 项目：简单的待办事项列表3.1 项目需求分析3.2 项目搭建与界面设计3.3 业务逻辑实现四、中级项目：音…

阅读更多...

一学就会的深度学习基础指令及操作步骤（3）模型训练验证

一学就会的深度学习基础指令及操作步骤（3）模型训练验证

文章目录模型训练验证损失函数和优化器模型优化训练函数验证函数模型保存模型训练验证损失函数和优化器 loss_function nn.CrossEntropyLoss() # 损失函数 optimizer Adam(model.parameters()) # 优化器，优化参数模型优化获得模型所有的可训练参数&#x…

阅读更多...

Spring Boot 注解大全：全面解析与实战应用

Spring Boot 注解大全：全面解析与实战应用

目录一、Spring Boot 启动与配置相关注解 1.1 SpringBootApplication 1.2 EnableAutoConfiguration 1.3 Configuration 1.4 ComponentScan 二、依赖注入与组件管理注解 2.1 Component 2.2 Service 2.3 Repository 2.4 Controller 2.5 RestController 2.6 Autowired…

阅读更多...

最新文章