机器学习——分类、回归、聚类、LASSO回归、Ridge回归(自用)

纠正自己的误区:机器学习是一个大范围,并不是一个小的方向,比如:线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。

机器学习最为关键的是要有数据,也就是数据集

名词解释:数据集中的一行叫一条样本或者实例,列名称为特征或者属性。样本的数量称为数据量,特征的数量称为特征维度

机器学习常用库:Numpy和sklearn

朴素的意思是特征的各条件都是相互独立的

机器学习(模型、策略、算法)

损失函数

学习类型

分类

交叉熵或对数

有监督

回归

均方差(MSE)

聚类

误差平方和(SSE)

无监督

训练过程中,对于每一次迭代过程中,基于函数计算当前迭代的预测值、均方损失和梯度,并根据梯度下降法不断更新系数。在训练过程中记录每一步损失、每10000次迭代(10000 epochs)打印当前损失信息,保存更新后的模型参数字典和梯度字典。

对于数据集的描述要具体:数据集属性(样本量、特征数、各特征含义、特征值范围、标签含义、标签取值范围)、数据集的创建目的用途和创建者

对于回归则需要画出训练过程中的均方差损失下降曲线或者回归模型的R方系数(该值越靠近1说明拟合效果越好)。

线性回归模型代码编写思路:

数据训练和测试的可视化可以选择散点图和绘制分类的决策边界进行直观呈现分类预测评估报告需要用的包括精确率、召回率、F1得分,其三个指标数值越接近于1,说明模型分类效果越好。
对数分类代码的编写思路:其是感知机模型、神经网络和支持向量机等模型的基础

LASSO回归:在面对待研究问题的众多影响因素的作用下,如何通过在众多影响因子中找到对问题产生较大影响的关键因素,并对问题趋势进行预测。针对这个问题常使用LASSO回归(the least absolute shrinkage and selection operator,译为:最小绝对收缩和选择算子,在众多因素找出关键因素,适用于特征数大于样本量的场景),突然想到这个思路是不是和之前学的正则化的思想一样,对模型影响小的直接置为0的方式,使得模型不那么复杂但是这里使用的不是梯度下降法,而是坐标下降法这是由于其约束项(正则化项)导致的,使得其在为连续不可导函数,故其只能使用坐标下降法(一种迭代算法,其通过当前坐标轴上搜索损失函数的最小值,无需计算函数梯度;而梯度下降法是通过损失函数的负梯度来确定下降方向;简记:坐标以坐标找损失函数min,梯度以梯度找损失函数min)

坐标下降法的思想:假设一个函数为L(x,y),先固定x0,求使得L(y)最小的y1;然后固定y1,求使得L(x)最小的x1;依次反复迭代得到使得L(x,y)达到最小值的点。

由于得到的模型损失表达式其为连续不可导,故需要一个符号函数(作用是辅助计算)将其进行向量化,从而达到梯度下降寻找最优的解。

LASSO回归代码的编写思路:

Ridge回归: 与LASSO回归类似的方法是Ridge回归,该回归是的损失函数公式是连续且可导的,所以其求解参数的过程比LASSO回归容易(其可以使用梯度下降方法),但与LASSO回归不同的是Ridge回归参数只是接近0但不等于0,而LASSO回归则直接为0

LASSO回归加上的是L1正则化项,L1正则化项其连续不可导

Ridge回归加上的是L2正则化项,L2正则化项其连续可导

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/74126.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

本地AI大模型工具箱 Your local AI toolkit:LMStudio

LMStudio介绍 官网:LM Studio - Discover, download, and run local LLMs LMStudio 是一个面向机器学习和自然语言处理的,旨在使开发者更容易构建和部署AI语言模型的应用软件。 LMStudio的特点是: 完全本地离线运行AI大模型 可以从Huggi…

[OpenCV】相机标定之棋盘格角点检测与绘制

在OpenCV中,棋盘格角点检测与绘制是一个常见的任务,通常用于相机标定。 棋盘格自定义可参考: OpenCV: Create calibration pattern 目录 1. 棋盘格角点检测 findChessboardCorners()2. 棋盘格角点绘制 drawChessboardCorners()3. 代码示例C版本python版本…

redis的典型应用 --缓存

Redis最主要的用途,分为三个方面: 1.存储数据(内存数据库) 2.缓存(最常用) 3.消息队列 缓存 (cache) 是计算机中的⼀个经典的概念。核⼼思路就是把⼀些常⽤的数据放到触⼿可及(访问速度更快)的地⽅&…

本地基于Ollama部署的DeepSeek详细接口文档说明

前文,我们已经在本地基于Ollama部署好了DeepSeek大模型,并且已经告知过如何查看本地的API。为了避免网络安全问题,我们希望已经在本地调优的模型,能够嵌入到在本地的其他应用程序中,发挥本地DeepSeek的作用。因此需要知…

基于ArcGIS和ETOPO-2022 DEM数据分层绘制全球海陆分布

第〇部分 前言 一幅带有地理空间参考、且包含海陆分布的DEM图像在研究区的绘制中非常常见,本文将实现以下图像的绘制 关键步骤: (1)NOAA-NCEI官方下载最新的ETOPO-2022 DEM数据 (2)在ArcGIS(…

自动化测试框架pytest+requests+allure

Pytest requests Allure 这个框架基于python的的 Pytest 进行测试执行,并结合 Allure插件 生成测试报告的测试框架。采用 关键字驱动 方式,使测试用例更加清晰、模块化,同时支持 YAML 文件来管理测试用例,方便维护和扩展。 测试…

Retrofit中scalars转换html为字符串

简介 在Retrofit中,如果你想直接获取HTML或其他文本格式的响应内容而不是将其映射到一个模型类,ScalarsConverterFactory 就派上用场了。ScalarsConverterFactory 是一个转换器工厂,它能够将响应体转换为Java基本类型如String、Integer或Byte…

Powershell WSL Windows系统复制数据到ubuntu子系统系统

从本地D盘下拷贝数据到ubuntu子系统下 Powershell 管理员打开执行 /mnt/d 此处是本地Windows系统的路径表示/opt ubutu 子系统目录 wsl -d Ubuntu-22.04 -u root -- bash -c cp -rf /mnt/d/nginx.conf /opt/从ubuntu子系统中拷贝数据到本地D盘下 Powershell 管理员打开执行…

【多线程】线程安全集合类,ConcurrentHashMap实现原理

文章目录 线程安全集合类解决方案多线程环境使用顺序表多线程环境使用队列多线程环境使用哈希表ConcurrentHashMap1. 缩小锁的粒度2. 充分使用 CAS3. 针对扩容操作 线程安全集合类 ArrayList、Queue、HsahMap… 都是线程不安全的 Vector、Stack、Hashtable 都是线程安全的&am…

spring-tx笔记

编程式事务与声明式事务的理解 补充:什么是事务? 事务是一个重要概念,尤其在数据库管理系统中。事务是指一组操作。,这些操作要么全部成功执行,要么全部不执行,确保数据的一致性和完整性 编程式事务 编…

Android第四次面试(Java基础篇)

一、Java 中的 DCL 单例模式 单例模式是设计模式中最常用的模式之一,其核心目标是确保一个类在程序中仅有一个实例,并提供全局访问点。在 Java 中,实现单例模式需要兼顾线程安全和性能优化。DCL(Double-Checked Locking&#xff0…

Java-SpringBootWeb入门、Spring官方脚手架连接不上解决方法

一. Spring 官网:Spring | Home Spring发展到今天已经形成了一种开发生态圈,Spring提供了若干个子项目,每个项目用于完成特定的功能(Spring全家桶) Spring Boot可以帮助我们非常快速的构建应用程序、简化开发、提高效率 。 二. Spring Boot入…

1.7 无穷小的比较

1.定义 2.性质 3.无穷小的比较 3.1等价无穷小的性质 3.2 常见等价无穷小

StarRocks 升级注意事项

前段时间升级了生产环境的 StarRocks,从 3.3.3 升级到了 3.3.9,期间还是踩了不少坑所以在这里记录下。 因为我们的集群使用的是存算分离的版本,也是使用官方提供的 operator 部署在 kubernetes 里的,所以没法按照官方的流程进入虚…

深入探究 JVM 堆的垃圾回收机制(一)— 判活

垃圾回收分为两步:1)判定对象是否存活。2)将“消亡”的对象进行内存回收。 1 判定对象存活 可达性分析算法:通过一系列“GC Roots”对象作为起始节点集,从这些节点开始,根据引用关系向下搜索,…

国产开发板—米尔全志T113-i如何实现ARM+RISC-V+DSP协同计算?

近年来,随着半导体产业的快速发展和技术的不断迭代,物联网设备种类繁多(如智能家居、工业传感器),对算力、功耗、实时性要求差异大,单一架构无法满足所有需求。因此米尔推出MYD-YT113i开发板(基…

Tomcat虚拟主机配置详解:Centos环境下多域名部署(详细教程!)

🏡作者主页:点击! Tomcat服务器📝专栏:点击! 🐧Linux高级管理防护和群集专栏:点击! ⏰️创作时间:2025年3月18日14点14分 最近在折腾 Tomcat 的时候&…

鸿蒙开发工程师简历项目撰写全攻略

一、项目结构的黄金法则 建议采用「41」结构: 项目背景(业务价值)技术架构(鸿蒙特性)核心实现(技术难点)个人贡献(量化成果)附加价值(延伸影响) …

dfs刷题排列问题 + 子集问题 + 组和问题总结

文章目录 一、排列问题全排列II题解代码 优美的排列题解代码 二、子集问题字母大小写全排列题解代码 找出所有子集的异或总和再求和题解代码 三、组合问题电话号码的字母组合题解代码 括号生成题解代码 组合题解代码 目标和题解代码 组合总和题解代码 总结 一、排列问题 全排列…

【Linux】VMware17 安装 Ubuntu24.04 虚拟机

目录 安装教程 一、下载 Ubuntu 桌面版iso映像 二、安装 VMware 三、安装 Ubuntu 桌面版 VMware 创建虚拟机 挂载 Ubuntu ISO 安装 Ubuntu 系统 安装教程 一、下载 Ubuntu 桌面版iso映像 链接来自 清华大学开源软件镜像站 ISO文件地址:ubuntu-24.04.2-des…