石岩小学网站建设网站建设颜色代码

diannao/2026/1/16 11:08:18/文章来源:
石岩小学网站建设,网站建设颜色代码,深圳南山网站建设公司,网页视频加速器机器学习数据理解是指对数据集进行详细的分析和探索#xff0c;以了解数据的结构、特征、分布和质量。数据理解是进行机器学习项目的重要第一步#xff0c;它有助于我们对数据的基本属性有全面的了解#xff0c;并为后续的数据预处理、特征工程和模型选择提供指导。 数据理解… 机器学习数据理解是指对数据集进行详细的分析和探索以了解数据的结构、特征、分布和质量。数据理解是进行机器学习项目的重要第一步它有助于我们对数据的基本属性有全面的了解并为后续的数据预处理、特征工程和模型选择提供指导。 数据理解的主要目标包括但不限于以下内容 数据集概览查看数据集的规模样本数量和特征数量了解数据的基本信息。数据质量评估检查数据集是否存在缺失值、异常值和噪声。缺失值可能影响模型的训练和预测异常值和噪声可能对模型的性能造成负面影响。数据可视化通过绘制直方图、散点图、箱线图等图形展示数据的分布和特征之间的关系从而洞察数据的规律和特点。特征理解对每个特征进行分析了解其含义、数据类型和取值范围。理解特征的意义有助于我们选择合适的预处理方法和特征工程策略。数据分布了解数据集中不同类别或目标值的分布情况特别是对于分类问题来说类别不平衡可能会影响模型的性能。相关性分析分析不同特征之间的相关性帮助我们理解特征之间的关系以及是否有一些特征对于预测目标更有信息量。数据采样对于大规模数据集可能需要进行数据采样以便更快地进行探索和实验。 通过数据理解阶段我们能够更好地理解数据集的特点和问题为后续的数据预处理、特征工程和模型选择提供指导。数据理解是建立有效机器学习模型的重要前提因为只有充分理解数据我们才能做出合适的决策优化模型性能并避免潜在的问题。 大白话 就是 这些数据是干嘛用得,里面有哪些字段和属性,每个字段得数据列 统计,分布都是怎么样得 数据导入 在训练机器学习的模型时需要用到大量数据最常用的做法是利用历史的数据来训练模型。这些数据通常会以CSV的格式来存储或者能够方便地转化为CSV格式。在开始启动机器学习项目之前必须先将数据导入到Python中。 下面将介绍三种将CSV数据导入到Python中的方法以便完成对机器学习算法的训练。 · 通过标准的Python库导入CSV文件。 · 通过NumPy导入CSV文件。 · 通过Pandas导入CSV文件。 CSV 文件说明 CSV 文件是用逗号分隔的文本文件。在数据导入之前通常会审查一下 CSV文件中包含的内容。在审查CSV文件时通常要注意以下几个方面。 如果CSV的文件里包括文件头的信息可以很方便地使用文件头信息来设置读入数据字段的属性名称。如果文件里不含有文件头信息需要自己手动设定读入文件的字段属性名称。 数据导入时设置字段属性名称有助于提高数据处理程序的可读性。 在 CSV 文件中注释行是以“井”号开头的。是否需要对读入的 注释行做处理取决于采用什么方式读入CSV文件。 CSV文件的标准分隔符是逗号当然也可以使用Tab键或空格键作为自定义的分隔符。当使用这两种分隔符时文件读取是要指明分隔符的。 当有的字段值中有空白时这些值通常都会被引号引起来默认使用双引号来标记这些字段值。如果采用自定义格式那么在文件读取时要明确在文件中采用的自定义格式。 Pima Indians数据集 首先介绍一下在本章和后续章节中要使用的测试数据。目前在 UCI 机 器学习仓库http//archive.ics.uci.edu/ml/datasets.html中有大量的免费数 据可以利用这些数据来学习机器学习并训练算法模型。本章选择的 Pima Indians数据集就是从UCI中获取的。官方下载地址 https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database?resourcedownload这是一个分类问题的数据集主要记录了印第安人最近五年内是否患糖尿病的医疗数据。这些数据都是以数字的方式记录的并且输出结果是 0 或 1使我们在机器学习的算法中建立模型变得非常方便。 数据格式如下: 糖尿病数据集来源Pima印第安人糖尿病数据集。数据集包含768条数据9个变量 我们也可以通过pandas 对数据集进行读取并打印数据集得维度信息 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression#数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path)print(data.shape)运行结果: (768, 9)我们再看下这张表数据的每列分别代表什么意思 该数据集共有条数据项包含个医学预测变量和个结果变量其具体属性包括 怀孕次数、 血糖浓度、 血压、 肱三头肌皮脂厚度、 胰岛素含量、 身体质量指数、 糖尿病遗传系数 年龄、 结 果代 表 患 糖 尿 病代 表 未 患 糖 尿 病 在数据集中为的有例即为糖尿病患者人数为的有例即为未患有糖尿病的人数 结合前面几节我们可以知道 这个数据集有 8 个 特征变量,两个数据分类,及数据标签 有了数据之后我们接下来对数据进行进一步得分析 问题: 8个特征变量哪些变量 对结果的影响更大? 换句话说就是 得糖尿病得主要决定因素 是什么? 如何分析出重要特征变量? 数据属性和类型 dtypes import pandas as pd #数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path)print(data.dtypes)运行结果: Pregnancies int64 Glucose int64 BloodPressure int64 SkinThickness int64 Insulin int64 BMI float64 DiabetesPedigreeFunction float64 Age int64 Outcome int64描述性统计 描述性统计是一种用于对数据进行概括和总结的统计学方法目的是通过一些关键指标和图表来描述数据的基本特征、分布和趋势从而更好地理解数据集。这些统计指标可以帮助我们了解数据的集中趋势、离散程度、形状、异常值等信息是进行数据理解和数据预处理的重要工具。 常见的描述性统计指标包括 均值Mean所有样本的和除以样本数量用于表示数据的集中趋势。 中位数Median将数据按大小排列后处于中间位置的数值用于表示数据的中间值对于受异常值影响较小。 众数Mode在数据中出现频率最高的数值用于表示数据的峰值。 方差Variance用于表示数据的离散程度反映数据分散在均值周围的程度。 标准差Standard Deviation方差的平方根用于度量数据的离散程度。 最小值Minimum和最大值Maximum数据中的最小值和最大值用于表示数据的范围。 四分位数Quartiles将数据按大小排列后将数据分成四等份的三个数值用于了解数据的分布。 偏度Skewness用于描述数据分布的偏斜程度正偏斜表示数据向右偏负偏斜表示数据向左偏。 峰度Kurtosis用于描述数据分布的尖峰或平缓程度正峰度表示尖峰负峰度表示平缓。 import pandas as pd#数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path)print(data.describe())运行结果: describe()函数 是一个常用的 Python 数据分析工具 pandas 中的方法。它用于生成数据的描述性统计摘要包含数据的均值、标准差、最小值、最大值、分位数等统计信息。data.describe() 适用于数据框DataFrame或数据系列Series对象。 在使用 data.describe() 时它将返回一个包含描述性统计信息的数据框其中包含以下统计指标 count非缺失值的数量。 mean均值。 std标准差。 min最小值。 25%第 25 百分位数第一四分位数。 50%第 50 百分位数中位数。 75%第 75 百分位数第三四分位数。 max最大值。 上面表格中的数据比较多, 从统计里不好看,我们模拟一个简单得表格来看看 describe() 这个函数,代码如下: import pandas as pd# 假设 data 是一个数据框 data pd.DataFrame({A: [1, 2, 3, 4, 5],B: [10, 20, 30, 40, 50],C: [100, 200, 300, 400, 500]})# 生成数据的描述性统计信息 description data.describe()print(description)运行结果如下: A B C count 5.000000 5.000000 5.000000 mean 3.000000 30.000000 300.000000 std 1.581139 15.811388 158.113883 min 1.000000 10.000000 100.000000 25% 2.000000 20.000000 200.000000 50% 3.000000 30.000000 300.000000 75% 4.000000 40.000000 400.000000 max 5.000000 50.000000 500.000000这样我们就可以一目了然地了解数据的基本统计信息包括均值、标准差、最小值、最大值和分位数等帮助我们对数据有一个初步的认识 数据的分布分析- skew() 数据的分布分析是指对数据集中的样本值进行统计和可视化分析以了解数据值的分布情况。通过数据的分布分析我们可以得到关于数据的结构、特点、离散程度、异常值等信息有助于对数据进行更深入的理解和进一步的数据处理。 常见的数据分布分析方法包括 直方图Histogram直方图是将数据划分为若干个区间称为“箱子”或“bin”并计算每个区间内样本值的数量或频数。直方图能够直观地展示数据的分布情况帮助我们观察数据的集中趋势和离散程度。 箱线图Box Plot箱线图可以显示数据的五数概括最小值、第一四分位数、中位数、第三四分位数、最大值并用箱体展示数据的中间 50% 区间。 箱线图可以帮助我们发现数据中的异常值和离群点。 概率密度函数Probability Density FunctionPDF对于连续型数据PDF 表示了数据值的概率密度分布可以帮助我们观察数据的分布形状。 累积分布函数Cumulative Distribution FunctionCDFCDF 表示了数据中小于或等于某个值的样本占总样本的比例可以帮助我们理解数据的累积分布情况。 QQ 图Quantile-Quantile PlotQQ 图用于检验数据是否符合某个理论分布通过将数据的分位数与理论分布的分位数进行比较观察数据是否在理论分布上分布均匀。 通过这些数据分布分析方法我们可以了解数据的中心趋势均值、中位数、离散程度标准差、四分位距、分布形状偏度、峰度等特征进一步辅助我们做出数据预处理、特征工程和模型选择等决策。同时数据分布分析也有助于我们发现异常值和异常情况为后续的数据清洗和数据处理提供依据。 在数据分析工具 pandas 中skew() 函数用于计算数据的偏度skewness它用于描述数据分布的偏斜程度。 偏度是统计学中的一个重要概念用于度量数据分布的不对称性。 正偏斜表示数据分布右偏尾部较长 负偏斜表示数据分布左偏尾部较长。 偏度为0表示数据分布对称。 skew() 函数接受一个数据框DataFrame或数据系列Series作为输入并返回一个标量值表示数据的偏度。 针对pima 数据集 得偏度分析如下: import pandas as pd#数据预处理 path D:\down\\archive\\diabetes.csv data pd.read_csv(path) print(data.skew())运行结果: Pregnancies 0.901674 Glucose 0.173754 BloodPressure -1.843608 SkinThickness 0.109372 Insulin 2.272251 BMI -0.428982 DiabetesPedigreeFunction 1.919911 Age 1.129597 Outcome 0.635017 dtype: float64继续对skew 理解,传入自定义数组进行理解,相信大家这样会对这个函数有更好得来验证 负偏斜表示数据分布右偏尾部较长 正偏斜表示数据分布左偏尾部较长。 偏度为0表示数据分布对称。 代码如下: import pandas as pd# 假设 data 是一个数据框或数据系列 data pd.Series([2, 2, 2, 5, 5, 5, 5, 5, 5, 5, 5]) data2 pd.Series([2, 2, 2, 2, 2, 2, 5, 5, 5, 5, 5,5]) data3 pd.Series([2, 2, 2, 2, 2, 2,2, 2, 2, 5, 5, 5])# 计算数据的偏度 print(数据的偏度为:, data.skew()) print(数据的偏度为:, data2.skew()) print(数据的偏度为:, data3.skew())上面代码我们定义得三个数组,第一组左边得2 运行结果: 数据的偏度为: -1.1893733869134377 数据的偏度为: 0.0 数据的偏度为: 1.3266499161421599从上面得结果中我们看着感觉清晰多了, 特别是data2, 表示偏度为0表示数据分布对称。那接下来我们又要问了 什么是尾部较长? 在给定的数据集中尾部通常用于描述数据分布的两端即数据中较小或较大的值。 在这个数据集中我们可以观察到两个值即2和5这两个值分别是数据的尾部。 具体来看下data1 说 在给定的数据集 [2, 2, 2, 5, 5, 5, 5, 5, 5, 5, 5] 中尾部是指数据集中位于两端的值。根据数据集我们可以看到两个值2 和 5。在这个数据集中 数据集中较小的值为 2它出现了 3 次位于数据的左尾部左端。 数据集中较大的值为 5它出现了 8 次位于数据的右尾部右端。 因此根据给定的数据集“5” 是数据的尾部值它是出现次数最多的值也是数据集中较大的值因此属于右尾部。 通过上面得例子我们对 数据得分布有了一些新得理解,我们再重新回到pima 分析得年龄 得偏度分析 看看, 从年龄 分析出的结果是 Age 1.129597得出得结论 是正偏斜, 从这个数据来看我们可以很快得得出 数据集中 年龄小得比年龄大得要多得多 数据分析我们先到这里,下一节我们 针对这个数据集进行可视化操作进一步探讨

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/91474.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新农村建设管理网站免费下载的视频网站

来源:新华网 美国《科学》杂志2日刊文展望了2020年可能成为头条的十大科学新闻,中国建造全球首台E级超算、“基因剪刀”技术发布临床试验结果等入榜。这一权威学术刊物预测,中国有望在2020年建造出世界第一台E级超算。E级超算即百亿亿次超级计…

在自己的网站上做查分系统海南seo快速排名优化多少钱

在 Web 开发中,Cookie 和 Session 都是用于存储和管理用户状态信息的机制。 Cookie Cookie 是一小段文本数据,由服务器发送到用户的浏览器,并在浏览器中存储。 它包含了一些关于用户的信息,例如用户名、登录状态、购物车内容等。 …

做网站需要买域名中国可以做交互的网站

这是一个在画板上自动生成辅助线和角线的脚本,只要单击最右边按钮运行脚本即可。 绿色的为参考线及出血线。 #target "Illustrator" var settings {addTrim : true,addBleedGuide : true,addCenterGuide : true,addCover : false,overlapAlert : false,…

让别人做网站要注意什么3d网页游戏开服表

已经将 commit 提交到了 GitHub 之上: 进行以下操作,需保证 stash 列表中有刚才提交的修改 首先,在本地回退版本,使用如下命令: git reset --hard HEAD^ ^ 的个数表示回退几个版本,^^ 表示回到上上个版本。…

南通高端网站建设开发垣曲网站建设

会一直持续更新。。。 Arthas 是一款线上监控诊断产品,通过全局视角实时查看应用 load、内存、gc、线程的状态信息,并能在不修改应用代码的情况下,对业务问题进行诊断,包括查看方法调用的出入参、异常,监测方法执行耗时…

响应式网站哪里做电商型网站设计企业

这是我们将要进行的Java并发系列的第一部分。 具体来说,我们将深入探讨Java 1.5及更高版本中内置的并发工具。 我们假设您对同步和易失性关键字有基本的了解。 第一篇文章将介绍信号量-特别是对信号量进行计数 。 信号量是用于限制对资源访问的经常被误解和使用不足…

做网站的企业是什么行业凡科代理登录

金航标电子位于广西柳州鹿寨县天线生产基地于大年正月初九开工了!!!金航标kinghelm(www.kinghelm.com.cn)总部位于中国深圳市,兼顾技术、成本、管理、效率和可持续发展。东莞塘厦实验室全电波暗室、网络分析…

优秀音乐网站设计欣赏免费的seo优化

目录 一、前备知识 二、建堆 2.2.1 向上调整算法建堆 2.2.2 向下调整算法建堆 三、排序 3.1 常见问题 3.2 思路 3.3 源码 一、前备知识 详细图解请点击:二叉树的顺序实现-堆-CSDN博客 本文只附上向上/向下调整算法的源码 //交换 void Swap(int* p, int* …

如何利用站群做网站北京建设数字网站

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 1.报错: Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.util.concurrent.MoreEx…

全球最好的黄页网站大连网址

我们知道面向对象的三大特性是封装、继承和多态。然而我们有时候总是搞不清楚这些概念。下面对这些概念进行整理,为以后面向抽象的编程打下坚实的基础。封装的概念还是很容易理解的。如果你会定义类,那么相信你对封装的概念已经完全掌握了。下面定义的几…

好的做问卷调查的网站好凡科登陆

近年来,冻干猫粮作为备受追捧的高品质猫粮,吸引了越来越多养猫人的关注。新手养猫就弄不明白了,什么是冻干猫粮呢?冻干猫粮可以作为日常主食一直喂吗? 像我这种养猫老司机早就开始了冻干喂养。我把我这些年总结的经验…

网站建设试题以及答案象山专业网站建设

今天为大家分享的是我们在日常测试工作中, 一定会接触并且目前在企业中是主要测试内容的 功能测试与接口测试 一.功能测试与接口测试的基本概念。 1.1 什么是功能测试呢? 功能测试: 是黑盒测试的一方面, 检查实际软件的功能是否符合用户的需求 功能测试测试的内容包括以下…

公司网站设计哪家好wordpress的category

(1) Prefork MPM (优点) :使用多个子进程,每个子进程只有一个线程来处理一个 http 连接,不用担心线程安全问题缺点:内存消耗大,不擅长处理高并发环境,使用keep-alive长连接时要等到超…

百度网站怎样做分销是怎么做的

前言 这个主要是一个对象转换json处理的工具包, 依赖于HXCommon 里面主要包含了一些 字符串互转json, 对象互转json 的处理 相关使用 api 参照的是 net.sf.json 提供了相关的 get/opt/put/element 相关 api 适用于各种情况 具体的实现 这里不多做赘述 GitHub - 97065514…

ps免费模板网站开发手机网站用什么语言

Swashbuckle.AspNetCore3.0 介绍一个使用 ASP.NET Core 构建的 API 的 Swagger 工具。直接从您的路由,控制器和模型生成漂亮的 API 文档,包括用于探索和测试操作的 UI。项目主页:https://github.com/domaindrivendev/Swashbuckle.AspNetCore划…

瑞昌建站公司最火的网络推广平台

1、命名空间(namespace使用总结) C++中采用的是单一的全局变量命名空间。在这单一的空间中,如果有两个变量或函数的名字完全相同,就会出现冲突。当然,你也可以使用不同的名字,但有时我们并不知道另一个变量也使用完全相同的名字;有时为了程序的方便,必需使用同一名字,…

黑龙江网站开发ui中国网站

成员变量默认修饰符是public static final的原因是: Java中接口中成员变量默认修饰符是public static final的原因是为了确保接口的成员变量都是公共的、静态的和不可修改的。 - public修饰符确保了接口的成员变量可以在任何地方被访问到。 - static修饰符使得接口…

化工网站模板免费下载网站建设选哪家

node安装以及node的包管理工具 node安装nvm管理工具 node安装 1、下载node链接: 点击这里 2、选择需要下载的版本以及对应的系统版本 nvm管理工具 1、下载nvm链接: 点击这里 2、双击运行.exe文件 全部默认安装即可 3、nvm常用命令 nvm list avaliable 显示所有可以下载的n…

做企业网站的广告词竹子建站公司

实现重写 实现派生类中基类的成员称为重写。在C#中,可以重写方法、属性和索引器。 重写是多态性的一种形式,因为它使您能够创建具有相同名称和不同功能的不同代码块。 重写函数 在面向对象编程中,子类可以提供超类中已定义的专门版本的函数。这称为函数重写。 函数重写是…

手机在线销售网站 - 百度建筑公司简介范文大全

Linux系统及操作 (09) [ ping ] [ ping -c ]指定数量 [ ping -c5 192.168.88.2 ] 指定五次交互 DNS服务器 Domain Name System 域名系统 用于实现域名和IP地址相互映射的一个分布式数据库 将域名翻译成可由计算机识别的IP地址,方便用户间的互相访问 计算机无法直接识别**[…