Scikit-learn工具介绍与数据集

一、Scikit-learn简介与安装

Scikit-learn是Python中最流行的机器学习库之一,它提供了简单高效的数据挖掘和数据分析工具。

  1. Python语言机器学习工具

  2. Scikit-learn包括许多智能的机器学习算法的实现

  3. Scikit-learn文档完善,容易上手,丰富的API接口函数

  4. Scikit-learn官网:scikit-learn: machine learning in Python — scikit-learn 1.6.1 documentation

  5. Scikit-learn中文文档:sklearn

  6. scikit-learn中文社区

1. Scikit-learn安装

# 使用pip安装scikit-learn
# pip install scikit-learn
# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scikit-learn# 或者使用conda安装
# conda install scikit-learn# 验证安装是否成功
import sklearn
print("Scikit-learn版本:", sklearn.__version__)

2. Scikit-learn包含的内容

Scikit-learn主要包含以下功能模块:

  • 分类(Classification)

  • 回归(Regression)

  • 聚类(Clustering)

  • 降低降维(Dimensionality reduction)

  • 模型选择(Model selection)

  • 预处理(Preprocessing)

二、数据集使用

1. sklearn玩具数据集介绍

Scikit-learn内置了一些小型标准数据集,数据量小,只要安装了sklearn就可以使用,非常适合学习和测试算法。

from sklearn import datasets# 列出所有可用的玩具数据集
print("可用玩具数据集:", datasets.__all__)

2. sklearn现实世界数据集介绍

除了玩具数据集,scikit-learn还提供了一些更大的现实世界数据集,数据量大,数据只能通过网络获取 。

3. sklearn加载玩具数据集

示例1:鸢尾花数据
from sklearn.datasets import load_iris
# 加载鸢尾花数据集
iris = load_iris() # 返回一个Bunch对象# iris字典中有几个重要属性: 
# data 特征
# feature_names 特征描述
# target  目标
# target_names  目标描述
# DESCR 数据集的描述
# filename 下后到本地保存后的文件名
# 它们可以通过 数据集.属性 的方式访问# 查看数据集描述
print(iris.DESCR)# 特征数据 (150个样本,4个特征)
print("特征数据形状:", iris.data.shape)# 目标变量 (3类鸢尾花)
print("目标变量:", iris.target_names)# 下面使用pandas把特征和目标一起显示出来# 将数据转换为DataFrame (需要pandas)
import pandas as pd
import numpy as np
# iris = load_iris()
feature = iris.data
target = iris.target
target.shape=(len(target), 1)
data = np.hstack([feature, target])
cols = iris.feature_names
cols.append("target")
pd.DataFrame(data,columns=cols)

示例2:分析糖尿病数据集 

from sklearn.datasets import load_iris
# 加载糖尿病数据集
diabetes = load_diabetes()# 查看数据集描述
print(diabetes.DESCR)# 特征数据 (442个样本,10个特征)
print("特征数据形状:", diabetes.data.shape)# 目标变量 (一年后疾病进展的定量测量)
print("目标变量范围:", min(diabetes.target), "到", max(diabetes.target))# 可视化第一个特征与目标变量的关系
import matplotlib.pyplot as plt
plt.scatter(diabetes.data[:, 0], diabetes.target)
plt.xlabel('年龄(标准化)')
plt.ylabel('疾病进展')
plt.title('年龄与糖尿病进展关系')
plt.show()

4. sklearn获取现实世界数据集

示例3:获取20分类新闻数据
# 针对下载不成功的可能是版本问题的解决方式
# 加载互联网数据集
# pip install --upgrade scikit-learn 库更新import sklearn.datasets as datasets
from sklearn.datasets import fetch_20newsgroups, fetch_california_housing
path = datasets.get_data_home() # 获取数据集的默认路径
print(path)# news = fetch_20newsgroups(data_home="./src",subset="all") # 加载所有数据集 train:训练集 / test:测试集
# print(len(news.data)) # 18846
# print(type(news.data)) # <class 'list'>
# print(news.data[:5]) # 文本数据
# print(news.target_names) # 20个类别data,target = fetch_20newsgroups(data_home="./src",subset="all",return_X_y=True)
print(data[:5],target[:5]) # 文本数据

5. 读取本地csv数据(借用pandas读取)

(1) 创建csv文件
# 创建一个简单的csv文件
import csvdata = [['姓名', '年龄', '城市'],['张三', 25, '北京'],['李四', 30, '上海'],['王五', 35, '广州']
]with open('sample_data.csv', 'w', newline='', encoding='utf-8') as f:writer = csv.writer(f)writer.writerows(data)

 (2) pandas加载csv

# 使用pandas加载csv文件
import pandas as pd# 读取csv文件
df = pd.read_csv('sample_data.csv')# 查看数据
print("数据概览:")
print(df.head())# 基本统计信息
print("\n基本统计信息:")
print(df.describe())# 可视化
df.plot(kind='bar', x='姓名', y='年龄')
plt.title('年龄分布')
plt.show()

三、总结

        本文介绍了scikit-learn的基本安装、包含的内容,以及如何使用内置数据集和本地csv数据进行机器学习分析。通过示例代码展示了如何加载和处理不同类型的数据集,为后续的机器学习建模打下基础。

        在实际应用中,理解数据是机器学习项目成功的关键第一步。scikit-learn提供的数据集接口和pandas的数据处理能力可以帮助我们快速开始数据分析工作。

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/903425.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Byte-Buddy系列 - 第4讲 byte-buddy无法读取到SpringBoot Jar中的类

目录 一、问题描述二、原因分析三、解决方案1&#xff08;推荐&#xff09;&#xff1a;获取线程上下文中的类加载器扩展 四、解决方案2&#xff1a;自定义SpringBoot类加载器 一、问题描述 在使用Byte-Buddy中的TypePool对类进行扩展后&#xff0c;在本地开发集成环境&#x…

AutogenStudio使用

官网介绍&#xff1a;https://microsoft.github.io/autogen/stable/ Autogen是什么&#xff1f; AutoGen 是由微软开发的一个开源框架&#xff0c;旨在通过 多智能体协作&#xff08;Multi-Agent Collaboration&#xff09; 实现复杂的任务自动化。它的核心思想是让多个 AI 代…

Vue3 Echarts 3D圆形柱状图实现教程以及封装一个可复用的组件

文章目录 前言一、实现原理二、series ——type: "pictorialBar" 简介2.1 常用属性 三、代码实战3.1 封装一个echarts通用组件 echarts.vue3.2 首先实现一个基础柱状图3.3 添加上下2个椭圆面3.4 进阶封装一个可复用的3D圆形柱状图组件 总结 前言 在前端开发的数据可视…

yolov8中train、test、val

说明yolov8中train、test、val是什么意思&#xff0c;是什么作用呢&#xff1f;详细介绍使用yolov8进行实例分割&#xff0c;我应该如何制作我的数据集呢&#xff1f; 1. YOLOv8中的train、val、test是什么意思&#xff1f;作用是什么&#xff1f; 在YOLOv8&#xff08;由Ultr…

借助Spring AI实现智能体代理模式:从理论到实践

借助Spring AI实现智能体代理模式&#xff1a;从理论到实践 前言 在人工智能领域&#xff0c;大语言模型&#xff08;LLM&#xff09;的应用愈发广泛&#xff0c;如何高效构建基于LLM的系统成为众多开发者关注的焦点。Anthropic的研究报告《构建高效代理》为我们提供了新的思…

【学习笔记】计算机操作系统(二)—— 进程的描述与控制

第二章 进程的描述与控制 文章目录 第二章 进程的描述与控制2.1 前趋图和程序执行2.1.1 前趋图2.1.2 程序顺序执行2.1.3 程序并发执行 2.2 进程的描述2.2.1 进程的定义和特征2.2.2 进程的基本状态及转换2.2.3 挂起操作和进程状态的转换2.2.4 进程管理中的数据结构 2.3 进程控制…

具身智能之强化学习

在具身智能&#xff08;Embodied AI&#xff09;中&#xff0c;强化学习&#xff08;Reinforcement Learning&#xff0c;RL&#xff09;是一种非常核心的学习方法。它让智能体&#xff08;agent&#xff09;通过与环境交互&#xff0c;不断试错&#xff0c;学习完成任务的策略…

go打印金字塔

需求 打印空心金字塔 解析 // * // * * // * * * // * * * *// 看成由星号、空格组成的矩形&#xff1a; // 1 1 1 0 // 2 3 2 1 // 3 5 3 2 // 4 7 4 3// 层数&#xff1a;n // 每层总元素数&#xff1a;2n-1 // 每星号数&#xff1a;n // 每层空格数&am…

C语言教程(二十二):C 语言头文件详解

一、头文件的定义与形式 头文件一般具有 .h 扩展名&#xff0c;它主要用来存放函数声明、宏定义、结构体和共用体的定义、全局变量的声明等内容。在C语言程序里&#xff0c;可借助 #include 预处理指令把这些头文件包含到源文件中。 二、头文件的作用 2.1 函数声明 头文件可对…

数据库day-08

一、实验名称和性质 删除修改数据 验证 设计 二、实验目的 1&#xff0e;掌握数据操作-- 删除、修改&#xff1b; 三、实验的软硬件环境要求 硬件环境要求&#xff1a; PC机&#xff08;单机&#xff09; 使用的软件名称、版本号以及模块&#xff1a; Windows 10&#x…

JAVA中Spring全局异常处理@ControllerAdvice解析

一、ControllerAdvice基础概念 1. 什么是ControllerAdvice&#xff1f; ControllerAdvice是Spring 3.2引入的注解&#xff0c;用于定义全局控制器增强组件&#xff0c;主要功能包括&#xff1a; 全局异常处理&#xff08;最常用&#xff09;全局数据绑定全局数据预处理 2. …

开放平台架构方案- GraphQL 详细解释

GraphQL 详细解释 GraphQL 是一种用于 API 的查询语言&#xff0c;由 Facebook 开发并开源&#xff0c;旨在提供一种更高效、灵活且强大的数据获取和操作方式。它与传统的 REST API 有显著不同&#xff0c;通过类型系统和灵活的查询能力&#xff0c;解决了 REST 中常见的过度获…

labview项目文件架构

为了使 LabVIEW 项目更具可扩展性和易于维护&#xff0c;合理规划和设计项目文件结构是非常重要的。 以下是一些基于行业经验和最佳实践的建议&#xff1a; 1. ### 文件夹层次划分 将不同的功能模块分开存储在一个清晰的分层目录结构中是一个常见的做法。通常情况下&#xff…

Chrome的插件扩展程序安装目录是什么?在哪个文件夹?

目录 前提 直接复制到浏览器中打开 Mac下Chrome extension 安装路径 最近换了mac pro用起来虽然方便&#xff0c;但是对常用的一些使用方法还是不熟悉。这不为了找到mac上chrome插件的安装路径在哪里&#xff0c;花费了不少时间。我想应用有不少像小编一样刚刚使用mac的小白…

第13讲:图形尺寸与分辨率设置——适配论文版面,打造专业图稿!

目录 📌 为什么这一讲重要? 🎯 一、先认识几个关键词 ✍️ 二、ggsave() 是导出图的标准方法 📐 三、尺寸设置技巧:对齐目标期刊 🔍 找到目标期刊的图形栏宽 📦 四、多个图组合导出(与 patchwork 搭配) 🧪 五、使用 Cairo / ragg 导出高质量图 🎁 六…

2025年- H13-Lc120-189.轮转数组(普通数组)---java版

1.题目描述 2.思路 import java.util.Arrays;public class H189 {public static void main(String[] args) {int[] newArr {1, 2, 3, 4, 5};int[] nums new int[5];System.arraycopy(newArr,0,nums,0,4);System.out.println(Arrays.toString(nums)); } }补充2&#xff1a; 3.…

机器人--相机

教程 畸变和校正 单目和双目标定 单双&#xff0c;rgb-d原理 单目相机 只有一个摄像头的相机。 原理 小孔成像。 缺点 单目相机无法测量物体点的深度信。 因为物体的Z轴坐标系无法测量。 双目相机 有两个摄像头的相机。 用两个单目相机组成的双目相机就可以测量深度信…

Go 语言入门:(一) 环境安装

一、前言 这里不同于其他人的 Go 语言入门&#xff0c;环境安装我向来注重配置&#xff0c;比如依赖包、缓存的默认目录。因为前期不弄好&#xff0c;后面要整理又影响这影响那的&#xff0c;所以就干脆写成文章&#xff0c;方便后期捡起。 二、安装 1. 安装包 https://go.…

笔试专题(十二)

文章目录 主持人调度题解代码 小红的ABC题解代码 不相邻取数题解代码 空调遥控题解代码 主持人调度 题目链接 题解 1. 排序 2. 先按左端点的大小进行排序&#xff0c;保证时间是连续的&#xff0c;如果后一个点的左端点大于等于前一个点的右端点就是和法的&#xff0c;否则…

Ansible 守护 Windows 安全(Ansible Safeguards Windows Security)

Ansible 守护 Windows 安全&#xff1a;自动化基线检查与加固 在当今网络威胁日益严峻的形势下&#xff0c;保障 Windows 系统安全至关重要。Ansible 作为一款强大的自动化运维工具&#xff0c;可通过自动化脚本实现 Windows 安全基线检查和加固&#xff0c;大幅提升运维效率并…