机器学习-随机森林解析

目录

一、.随机森林的思想

二、随机森林构建步骤

1.自助采样

2.特征随机选择

3构建决策树

4.集成预测

三. 随机森林的关键优势

​**(1) 减少过拟合**

​**(2) 高效并行化**

​**(3) 特征重要性评估**

​**(4) 耐抗噪声**

四. 随机森林的优缺点

​优点

​缺点

五. 参数调优(以scikit-learn为例)​

波士顿房价预测


一、.随机森林的思想

1.通过组成多个弱学习器(决策树)形成一个学习器

2.多样性增强:每颗决策树通过特征随机选择和样本随机抽样生成,降低模型之间的相关性,减少过拟合风险

二、随机森林构建步骤

1.自助采样

从原始数据集中有放回的随机抽样(每个子集大小等于原始数据集)。

大约30%的数据未被抽中,形成“袋外样本”(Out-of-Bag, OOB),用于模型评估。

2.特征随机选择

每棵决策树在构建时,仅从所有特征中随机选择一个子集(例如,对于分类任务,通常选择 m=sqrt(n_feature) 个特征)

增加特征间的独立性,避免模型偏向特定特征

3构建决策树

对每个子集和特征组合,递归地生成决策树(使用与单棵决策树相同的算法,如CART)。
不进行剪枝(Pre-pruning),允许树完全生长。

4.集成预测

分类任务:所有树的预测结果按多数票决定最终类别

回归任务:所有树的预测结果取平均值

三. 随机森林的关键优势

​**(1) 减少过拟合**
  • 单棵决策树易过拟合,但多棵树的“平均效应”降低了方差。
  • 无需复杂的剪枝操作。
​**(2) 高效并行化**
  • 树之间相互独立,可通过并行计算加速训练。
​**(3) 特征重要性评估**
  • 通过统计每棵树中特征被选中的频率,量化其对最终预测的贡献度。
​**(4) 耐抗噪声**
  • 对缺失值和异常值不敏感(需适当处理缺失值)。

四. 随机森林的优缺点

优点
  • 高准确率:在大多数任务中表现优于单个决策树。
  • 可解释性:可通过特征重要性分析和可视化部分树结构。
  • 适应性强:支持分类、回归、特征选择等多种任务。
缺点
  • 计算资源消耗大:生成大量树需要更多内存和计算时间。
  • 对高维稀疏数据效果不佳:特征随机选择可能无法覆盖关键特征。
  • 黑箱化风险:相比单棵决策树,集成模型的解释性略低。

五. 参数调优(以scikit-learn为例)​

参数作用默认值
n_estimators树的数量100
max_depth树的最大深度None(不限制)
min_samples_split内部节点最少分割样本数2
max_features每棵树使用的特征数量auto(分类任务为√n)
bootstrap是否使用自助采样True

波士顿房价预测

from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_boston# 加载数据
boston = load_boston()
X, y = boston.data, boston.target# 创建随机森林回归模型
model = RandomForestRegressor(n_estimators=100, random_state=42)# 训练模型
model.fit(X, y)# 预测均值绝对误差(MAE)
y_pred = model.predict(X)
print(f"Mean Absolute Error: {np.mean(np.abs(y - y_pred)):.2f}")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/897137.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度集成DeepSeek,智问BI@GPT引领商业智能“深度思考“革命

当下传统的数据分析工具如同显微镜,虽然能帮助我们看到数据的细节,却难以揭示数据背后的深层规律。亿信华辰最新升级的智问BIGPT产品,通过深度集成DeepSeek大模型,首次在商业智能领域实现了"深度思考"功能。这项突破性创…

Mysql安装方式

方式一:安装包安装 下载安装包 官网直接下载:https://dev.mysql.com/downloads/ 安装配置 2.1、双击刚刚下载好的msi文件,开始安装MySQL。 2.2、选择自定义模式Custom安装 2.3、点击选择自己电脑对应的mysql安装目录 2.5、继续点击下一步&…

unity调用本地部署deepseek全流程

unity调用本地部署deepseek全流程 deepseek本地部署 安装Ollama 搜索并打开Ollama官网[Ollama](https://ollama.com/download) 点击Download下载对应版本 下载后点击直接安装 安装deepseek大语言模型 官网选择Models 选择deepseek-r1,选择对应的模型&#xff0…

Linux - 网络基础(应用层,传输层)

一、应用层 1)发送接收流程 1. 发送文件 write 函数发送数据到 TCP 套接字时,内容不一定会立即通过网络发送出去。这是因为网络通信涉及多个层次的缓冲和处理,TCP 是一个面向连接的协议,它需要进行一定的排队、确认和重传等处理…

wxWidgets GUI 跨平台 入门学习笔记

准备 参考 https://wiki.wxwidgets.org/Microsoft_Visual_C_NuGethttps://wiki.wxwidgets.org/Tools#Rapid_Application_Development_.2F_GUI_Buildershttps://docs.wxwidgets.org/3.2/https://docs.wxwidgets.org/latest/overview_helloworld.htmlhttps://wizardforcel.gitb…

使用joblib 多线程/多进程

文章目录 1. Joblib 并行计算的两种模式多进程(Multiprocessing,适用于 CPU 密集型任务)多线程(Multithreading,适用于 I/O 密集型任务)2. Joblib 的基本用法3. Joblib 多进程示例(适用于 CPU 密集型任务)示例:计算平方4. Joblib 多线程示例(适用于 I/O 密集型任务)…

神旗视讯Linux client 3.4版本发布和开源

在国产化替代的大潮中,神旗视讯推出专为统信 Linux、麒麟 Linux OS 打造打造的开源视频会议客户端,全面适配国产 x86 及 arm64 架构 CPU,以稳定、安全、灵活的特性,为国产操作系统用户带来前所未有的高效沟通体验,同时…

HCIA-IP路由动态-RIP

一、概念 动态路由是指路由器通过运行动态路由协议(RIP、OSPF等),自动学习和发现网络中的路由信息。路由器之间通过交换路由协议数据包,互相通告自己所知道的网络信息,从而构建和更新路由表。 二、RIP(路由信息协议)…

VEC系列-RabbitMQ 入门笔记

消息队列(MQ)对于开发者来说是一个经常听到的词汇,但在实际开发中,大多数人并不会真正用到它。网上已经有很多关于 MQ 概述和原理的详细讲解,官网文档和技术博客也都介绍得很深入,因此,我在这里…

js中??是什么意思

在 JavaScript 中,?? 是一个逻辑运算符,称为 空值合并运算符(Nullish Coalescing Operator)。它用于检查左侧的值是否为 null 或 undefined,如果是,则返回右侧的值;否则返回左侧的值。 语法 …

常见限流算法

限流是指在高并发、大流量请求的情况下,限制新的流量对系统的访问,以保证系统服务的安全性。常见的限流算法及其详细介绍如下: 计数器算法(Fixed Window Counter) 原理:使用一个固定时间窗口内的计数器来…

YOLOv12本地部署教程——42%速度提升,让高效目标检测触手可及

YOLOv12 是“你只看一次”(You Only Look Once, YOLO)系列的最新版本,于 2025 年 2 月发布。它引入了注意力机制,提升了检测精度,同时保持了高效的实时性能。在保持速度的同时,显著提升了检测精度。例如&am…

【原创】C# HttpClient 读取流数据的问题

默认情况下HttpClient中有缓存,在读取流数据的时候,往往要等一小会儿,然后读出一大堆。 我们在请求OpenAI类的大模型的时候,往往要一边读取一边显示(输出),这时候需要禁止HttpClient 中内置的缓…

能源行业标杆:信创系统在智能电网中的3个创新应用案例

在当今数字化浪潮汹涌澎湃的时代,信息技术应用创新(信创)已成为推动我国经济社会发展的重要引擎。智能电网作为能源行业的核心领域,其信息化建设对于保障国家能源安全和促进能源转型具有重要意义。今天,让我们一同探索…

AcWing 蓝桥杯集训·每日一题2025·5526. 平衡细菌

5526. 平衡细菌 题意 给定一个序列 ( a i ) (a_i) (ai​),每次操作可以选择一个位置 (p),令从 ( a p ) (a_p) (ap​) 开始的每个数都加上一个以 (1) 或者 (-1) 为公差的从 ( 1 / − 1 ) (1 / -1) (1/−1) 开始的等差数列。求最小化让序列归零的操作…

PTA 7-6 列出连通集

题目详情: 给定一个有 n 个顶点和 m 条边的无向图,请用深度优先遍历(DFS)和广度优先遍历(BFS)分别列出其所有的连通集。假设顶点从 0 到 n−1 编号。进行搜索时,假设我们总是从编号最小的顶点出…

ES中数据刷新策略refresh

在 Elasticsearch 中,插入数据时的 refresh 参数控制文档在写入后何时对搜索可见,其行为直接影响数据可见性和系统性能。以下是 refresh 参数的三个可选值(true、false、wait_for)的详细说明及适用场景: 1. refreshtr…

用Python的Pandas库解锁数据科学:从入门到实战

用Python的Pandas库解锁数据科学:从入门到实战 引言 Python的Pandas库(名称源自"Panel Data")作为数据科学生态系统的基石,凭借其强大的数据结构和灵活的操作功能,已成为全球超过90%数据工作者的首选工具。…

如何提高域名解析速度?

在搭建网站或使用在线服务时,许多人会问:“为什么我的网站加载速度这么慢?”“如何提高域名解析速度?”“域名解析速度对网站性能有什么影响?”域名解析速度直接影响用户访问网站的体验,因此,了解如何提高域名解析速度尤为重要…

深度学习语义分割数据集全景解析

一、语义分割任务概述 语义分割是计算机视觉领域的核心任务之一,目标是通过算法将图像中的每个像素精准划分到对应的语义类别(如道路、车辆、行人等)。高质量标注数据集是推动该领域发展的关键因素。本文将系统梳理主流数据集的技术特征与适…