下载UCI数据集《Secondary Mushroom》

news/2026/1/14 14:22:38/文章来源:https://www.cnblogs.com/ztn195/p/19343815

说明:

查看代码
1. Title: Primary mushroom data2. Sources:(a) Mushroom species drawn from source book:Patrick Hardin.Mushrooms & Toadstools.Zondervan, 1999(b) Inspired by this mushroom data:Jeff Schlimmer.Mushroom Data Set. Apr. 1987.url:https://archive.ics.uci.edu/ml/datasets/Mushroom.(c) Repository containing the related Python scripts and all the data sets: https://mushroom.mathematik.uni-marburg.de/files/ (d) Author: Dennis Wagner(e) Date: 05 September 20203. Relevant information:This dataset includes 173 species of mushrooms with caps from various families and oneentry for each species.Each species is identified as definitely edible, definitely poisonous, or of unknownedibility and not recommended (the latter class was combined with the poisonous class).Of the 20 variables, 17 are nominal and 3 are metrical. The values of each nominal variableare a set of possible values and for the metrical variables a range of possible values.4. Data generation:The related Python project (Sources (c)) contains a Python module primary_data_generation.pyused to generate a first version of this data from the HTML version of the book (Sources (a))found in primary_data_generated.csv.The primary data is cleaned and enriched by going through the book manually resulting inprimary_data_edited.csv (used for the simulation of the secondary data).5. Class information:1. family		String of the name of the family of mushroom species (multinomial)2. name			String of the of the mushroom species (multinomial)3. class		poisonous=p, edibile=e (binary)6. Variable Information:(n: nominal, m: metrical; nominal values as sets of values)1. cap-diameter (m):			float number(s) in cmtwo values=min max, one value=mean2. cap-shape (n):            bell=b, conical=c, convex=x, flat=f,sunken=s, spherical=p, others=o3. cap-surface (n):          fibrous=i, grooves=g, scaly=y, smooth=s,shiny=h, leathery=l, silky=k, sticky=t,wrinkled=w, fleshy=e4. cap-color (n):            brown=n, buff=b, gray=g, green=r, pink=p,purple=u, red=e, white=w, yellow=y, blue=l, orange=o,  black=k5. does-bruise-bleed (n):	bruises-or-bleeding=t,no=f6. gill-attachment (n):      adnate=a, adnexed=x, decurrent=d, free=e, sinuate=s, pores=p, none=f, unknown=?7. gill-spacing (n):         close=c, distant=d, none=f8. gill-color (n):           see cap-color + none=f9. stem-height (m):			float number(s) in cmtwo values=min max, one value=mean10. stem-width (m):			float number(s) in mmtwo values=min max, one value=mean	   11. stem-root (n):           bulbous=b, swollen=s, club=c, cup=u, equal=e,rhizomorphs=z, rooted=r12. stem-surface (n): 		see cap-surface + none=f13. stem-color (n):			see cap-color + none=f14. veil-type (n):           partial=p, universal=u15. veil-color (n):          see cap-color + none=f16. has-ring (n):            ring=t, none=f17. ring-type (n):           cobwebby=c, evanescent=e, flaring=r, grooved=g, large=l, pendant=p, sheathing=s, zone=z, scaly=y, movable=m, none=f, unknown=?18. spore-print-color (n):   see cap color19. habitat (n):             grasses=g, leaves=l, meadows=m, paths=p, heaths=h,urban=u, waste=w, woods=d20. season (n):				spring=s, summer=u, autumn=a, winter=w

注意:

  1. 要开魔法才能运行,把数据集下载下来。
  2. 在下载依赖包后,在PyCharm中还是会报错,但是不用管,只要开魔法就行

具体代码:

# pip install ucimlrepo
# https://archive.ics.uci.edu/dataset/848/secondary+mushroom+dataset
from ucimlrepo import fetch_ucirepo
import os
import pandas as pd# 创建数据保存目录(如果不存在)
data_dir = r'd:\PycharmProjects\机器学习大作业\data2'
os.makedirs(data_dir, exist_ok=True)# 下载数据集
secondary_mushroom = fetch_ucirepo(id=848)# 获取特征和目标数据
X = secondary_mushroom.data.features
y = secondary_mushroom.data.targets# 合并并保存完整数据集
full_data = pd.concat([X, y], axis=1)
full_data.to_csv(os.path.join(data_dir, 'full_dataset.csv'), index=False)print(f"数据集已成功保存到 {data_dir} 目录")

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1004807.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

03 以上版本 Excel 文件解压替换图片

replace_images_zip_method.ps1 代码如下 param ([Parameter(Mandatory=$true)][string]$ExcelPath,[Parameter(Mandatory=$true)][string]$ImagesFolder,[Parameter(Mandatory=$false)][string]$OutputSuffix = "…

【dl】【WSL2】如何获得“Winux”?Windows 上的 Linux 子系统 —— 比虚拟机更好的选择

准备工作 第一步:确认CPU虚拟化 打开任务管理器——性能,在cpu一栏找“虚拟化”,确认其已开启。一般大部分cpu都是默认开启的。没开启的请自行前往bios修改。第二步:开启两个Windows功能 在任务栏搜索 Windows功能。开启“适用于L…

人机协同重构创作生态——生成式AI赋能内容产业的变革与思考

当内容生产遭遇“产能焦虑”与“创意枯竭”的双重困境,生成式AI正以不可逆转的态势重构行业规则。2025年一季度数据显示,国内72%的内容团队已将AI工具纳入核心工作流,电商文案、短视频脚本等场景的AI渗透率超85%。这场变革不仅是生产效率的提…

【题解】Luogu P13977 数列分块入门 2

思路 动态维护区间信息,考虑线段树。但每次查询的值不固定,如要使用线段树维护,则需针对每个查询的值单独建一棵树,时空复杂度均不可接受。因此考虑分块。 区间加问题类比线段树,只需为每个全包含于区间的块打上懒…

CSS3动画:2D/3D转换全解析

CSS3初体验transition过渡可以为一个元素在不同状态之间切换的时候定义不同的过渡效果。div {width: 200px;height: 200px;background-color: pink;/* div所有的样式发生修改的时候,都有1s的过渡效果 */transition: all 1s; } ​ div:hover {width: 300px; }2D转换t…

AI核心知识50——大语言模型之Scaling Laws(简洁且通俗易懂版)

Scaling Laws (缩放定律) 是目前 AI 领域的“摩尔定律”,也是 OpenAI 等巨头公司敢于投入几百亿美元去训练下一个模型的“信仰之源”。简单来说,它揭示了一个通过大量实验得出的数学规律:只要你按比例增加“模型参数量”、“训练数据量”和“…

MySQL 深分页查询优化实践与经验总结

在企业级项目中,深分页查询经常会成为性能瓶颈。本篇文章总结了我在实践中优化深分页 SQL 的经验,包括 执行计划分析、索引优化、游标分页改写 等内容。一、问题场景假设我们有一张订单表 orders,包含字段:id, user_id, status, t…

理性抉择方可行远——企业AI转型的路径选择与风险管控

数字化浪潮下,AI转型已成为企业提升核心竞争力的必答题。然而现实中,不少企业陷入“转型即烧钱”“技术即万能”的误区:传统制造企业盲目自研大模型,耗费数百万后无功而返;互联网公司一味追求API集成便捷性&#xff0c…

P2014 [CTSC1997] 选课

P2014 [CTSC1997] 选课 大意 有些学科 \(i\) 有先修课 \(fa\) 这些课程形成了一个树形结构,问选 \(m\) 门课所能达到的最大的学分。 思路 考虑树上背包。 我们定义 \(f_{u,j}\) 表示在 \(u\) 子树内选 \(j\) 门课的最…

彻底讲清 MySQL InnoDB 锁机制:从 Record 到 Next-Key 的全景理解

在真实业务中,你遇到的大多数 MySQL 性能问题、死锁问题,几乎都与“锁”有关。但很多工程师对锁的理解停留在碎片层面: 知道“行锁”“间隙锁”“next-key-lock”,但不知道 SQL 是如何触发这些锁的、锁到底锁在哪里、为什么会锁这…

超越宣传:基于数据与案例的软件人才外包服务商价值评估指南

随着企业技术架构复杂化与项目节奏敏捷化并行,组建高效、稳定的技术团队已成为核心挑战。软件人才外包公司作为企业获取弹性技术能力的关键渠道,其市场正伴随数字化转型浪潮快速演进。据工信部运行监测协调局发布的2025年数据显示,我国软件和…

MCU的启动流程你了解么?

MCU(微控制器单元)的上电过程是一个精心设计的序列,它确保芯片从完全断电状态可靠地进入正常工作状态。1. 上电复位(Power-on Reset)当给MCU上电时,电源电压从0V开始上升至额定工作电压(如3.3V&…

电机多目标优化与灵敏度分析:探索电机性能提升之道

电机多目标优化,灵敏度分析。 图12为变量与优化目标的灵敏度,图13为变量之间的显著性分析。 该方法在电机顶刊IEE工业电子学报上发表。图引用:Liu F, Wang X, Xing Z, et al. Analysis and Research on No-Load Air Gap Magnetic Field and S…

I2C通信最全面的讲解:从协议到硬件设计

IIC( Inter-Integrated Circuit,or I2C)协议是由飞利浦半导体(现在的恩智浦半导体)开发,并于1982年发布的一种串行、半双工总线,主要用于近距离,低速的芯片之间的通信;I2…

毕业论文选题AI推荐:9大工具+热门方向合集

毕业论文选题AI推荐:9大工具热门方向合集 �� 核心AI工具对比速览 工具名称 核心功能 适用场景 生成速度 特色优势 aibiye 初稿生成/降重/格式优化 全学科通用 20-30分钟 支持理工科图表公式自动插入 aicheck 选题推荐/查重/AIGC检…

打造下一个爆款!专业短剧APP全栈开发解决方案,解锁万亿级市场红利

一、市场前景:千亿蓝海,正待掘金短剧行业正以惊人速度扩张:市场规模:2023年超500亿,预计2025年突破千亿用户规模:日活用户超1.2亿,付费转化率超20%投资回报:头部APP月流水可达数千万…

【题解】Luogu P10752 [COI 2024] Sirologija

思路难以发现但易于理解的题。 题意 从 \(N\times M\) 的网格中,找尽可能多的路径,要求:起点在左上角,终点在右下角,路径只能向右和向下延伸 两条路径不能相互穿过 相邻两条路径之间必须包含有洞求出路径数量的最…

PFC2D预制裂隙巴西劈裂试验模拟:探索岩石破裂奥秘

pfc2d预制裂隙的巴西劈裂试验模拟在岩石力学研究领域,巴西劈裂试验是一种常用的测试岩石抗拉强度的方法。而通过PFC2D(Particle Flow Code in 2D)软件对预制裂隙的巴西劈裂试验进行模拟,能帮助我们更深入理解岩石在复杂裂隙条件下…

PSRR仿真教程:解锁电路抗噪能力的密钥

PSRR 仿真教程, 怎么仿真电路的psrr? [1]两个电路案例,一个是16分频的分频器; [2]一个是250MHz的环形压控振荡器; 仿真方法是用Cadence的psspxf。 PSRR的测量对于改善对噪声源的免疫力很重要; 如电源涟漪由…

Python字符串:别只用来打印!这5个高级用法让代码效率翻倍

Python字符串:别只用来打印!这5个高级用法让代码效率翻倍 提到Python字符串,很多人第一反应是“用来存文字、打印输出”。但实际上,字符串作为Python中最常用的内置类型之一,藏着大量高效实用的方法——从字符串拼…