开发购物平台网站费用网站关键词被改

news/2025/9/22 15:58:18/文章来源:
开发购物平台网站费用,网站关键词被改,学美工培训费大概多少,商城微发布目录 一、规则 二、方法 1、seed 2、identifier 1#xff09;选取一个身份号 2#xff09;选取一定比例的身份号作为测试集 3#xff09;身份号的选取#xff1a; 3、利用scikit-learn#xff1a; 1) 随机生成#xff1a; 2#xff09;注#xff1a;分类 3选取一个身份号 2选取一定比例的身份号作为测试集 3身份号的选取 3、利用scikit-learn 1) 随机生成 2注分类 3利用对收入的分层样本的数量按比例抽取训练集 代码解释 目的 一、规则 随机选取一些例子除非数据集超大否则一般选取20%作为测试集 随机选取的函数代码 import numpy as npdef split_train(data,test_radio):#生成随机数shuffled_indices np.random.permutation( len(data) )#按照比例计算测试集中数据个数setsize int( len(data)*test_radio )#切片随机后的前一部分作为测试集其余作为训练集test_indices shuffled_indices[ : setsize]train_indices shuffled_indices[setsize : ]return data.iloc[train_indices], data.iloc[test_indices]二、方法 每次随机所得数据都有可能不同为了保证选取的测试集中的例子稳定有两种办法 1、seed 为保留相同的数据集保留随机数的种子 -- 生成随机数的种子号相同生成的随机数就相同。 import numpy as npdef split_train(data,test_radio):#生成随机数种子括号里的数字可为任意数np.random.seed(1)shuffled_indices np.random.permutation( len(data) )setsize int( len(data)*test_radio )test_indices shuffled_indices[ : setsize]train_indices shuffled_indices[setsize : ]return data.iloc[train_indices], data.iloc[test_indices]调用该函数同一文件夹下不同py文件 import random_split_trainsettrainset, testset random_split_trainset.split_train(housing,0.2) #注housing变量见下载和加载数据一文 print(~*40) #运行两次可验证是否生成相同随机数 print(trainset[:10]) print(~*30) #分别输出训练集和测试集的数据量 print(len(trainset)) print(len(testset))2、identifier 给每个例子一个固定标识号给每一个标识号排序选取前20%的标识号。这样能保证每次训练的例子相同即使更新了数据集。 代码根据数据集中的标识符按照一定比例将数据集划分为训练集和测试集以保证在划分过程中不会出现同一样本在不同数据集中的情况。 from zlib import crc32def test_set_check(identifier, test_radio):return crc32(np.int64(identifier)) 0xffffffff test_radio *2**32def split_train_test_by_id(data, test_radio, id_column):ids data[id_column]in_test_set ids.apply(lambda id_: test_set_check(id_,test_radio))return data.loc[-in_test_set], data.loc[in_test_set] from zlib import crc32从Python标准库中的zlib模块导入crc32函数用于计算CRC32校验值。 def test_set_check(identifier, test_ratio):定义了一个名为test_set_check的函数它接受两个参数identifier是数据集中的唯一标识符test_ratio是测试集所占比例。 np.int64(identifier)将标识符转换为64位整数类型。crc32(np.int64(identifier))计算标识符的CRC32校验值。crc32(np.int64(identifier)) 0xffffffff确保CRC32校验值是一个32位无符号整数。crc32(np.int64(identifier)) 0xffffffff test_ratio * 2**32比较CRC32校验值是否小于测试比例的2^32倍用于确定该标识符是否应该被分配到测试集。 def split_train_test_by_id(data, test_ratio, id_column):定义了一个名为split_train_test_by_id的函数它用于根据标识符划分训练集和测试集。函数接受三个参数data是包含数据的DataFrametest_ratio是测试集所占比例id_column是数据集中用于标识唯一样本的列名。 ids data[id_column]从数据集中选择标识符列存储在ids中。ids.apply(lambda id_: test_set_check(id_, test_ratio))对每个标识符应用test_set_check函数返回一个布尔Series表示每个样本是否应该被分配到测试集。data.loc[-in_test_set]使用布尔索引选择不在测试集中的样本得到训练集。data.loc[in_test_set]使用布尔索引选择在测试集中的样本得到测试集。 1选取一个身份号 2选取一定比例的身份号作为测试集 3身份号的选取 1、有些例子自带身份号如学号 2、使用行号作为身份号但需要保证 确保新增是数据放在最后原来的数据不会被删除 代码 housing_with_id housing.reset_index() train_set, test_set split_train_test_by_id(housing_with_id,0.2,index) print(~*40) print(train_set) print(~*40) print(test_set)输出 3、选取最稳定的特征值如经纬度等 housing_with_id housing.reset_index() housing_with_id[id] housing[longitude] * 1000 housing[latitude] train_set, test_set split_train_test_by_id(housing_with_id,0.2,index)print(~*40) print(train_set) print(~*40) print(test_set)3、利用scikit-learn 1) 随机生成 #use scikit-learnfrom sklearn.model_selection import train_test_splittrain_set, test_set train_test_split(housing, test_size 0.2, random_state 1)print(~*40) print(train_set) print(~*40) print(test_set)注如果数据集足够大的时候可以取得较为理想的效果。但如果不满足会导致巨大偏差偏心sampling bias。 比如在男女占比为4753的时候数据集的理想状态为男女占比为4753 --   分层样本stratified sampling strata将数据集按照同种类进行划分抽取成的小组 如果在有分类的情况下仍随机抽取就会造成约12%的误差这样结果会产生严重偏移。 2注分类 将一个变量分成五类 import download_data # 导入下载数据模块 import random_split_trainset import numpy as np import pandas as pd import matplotlib.pyplot as plt# 假设 fetch_data() 和 load_data() 函数是正确实现的 download_data.fetch_data() housing download_data.load_data()# 添加一个新的列 income_cat将 median_income 划分为不同的类别 housing[income_cat] pd.cut(housing[median_income], bins[0., 1.5, 3.0, 4.5, 6.0, np.inf], labels[1, 2, 3, 4, 5])# 绘制 income_cat 的直方图 housing[income_cat].hist() plt.show()3利用对收入的分层样本的数量按比例抽取训练集 import download_data # 导入下载数据模块 import random_split_trainset import numpy as np import pandas as pd import matplotlib.pyplot as plt# 假设 fetch_data() 和 load_data() 函数是正确实现的 download_data.fetch_data() housing download_data.load_data()# 添加一个新的列 income_cat将 median_income 划分为不同的类别 housing[income_cat] pd.cut(housing[median_income], bins[0., 1.5, 3.0, 4.5, 6.0, np.inf], labels[1, 2, 3, 4, 5])from sklearn.model_selection import StratifiedShuffleSplitsplit StratifiedShuffleSplit( n_splits1, test_size0.2, random_state1 ) for train_index, test_index in split.split(housing, housing[income_cat]):start_train_set housing.loc[train_index]start_test_set housing.loc[test_index]print( start_test_set[income_cat].value_counts() / len(start_test_set) )for set_in(strat_train_set,strat_test_set):set_drop(income_cat,axis1,inplaceTrue)代码解释 1.导入所需的 Python 模块download_data、random_split_trainset、numpy、pandas 和 matplotlib.pyplot。这些模块通常用于数据处理、可视化和机器学习。         2.使用 download_data 模块中的 fetch_data() 函数下载数据并使用 load_data() 函数加载数据。假设这两个函数能够正确地从某个数据源中获取数据并将其转换为 Pandas DataFrame 格式。         3.在加载的数据中通过将 median_income 列的值分割为不同的收入类别创建了一个新的列 income_cat。这里使用了 pd.cut() 函数来实现该函数将一列连续数值分成几个离散的区间并使用 labels 参数为这些区间赋予标签。         4.接下来代码导入了 StratifiedShuffleSplit 类从 sklearn.model_selection 模块。这个类用于按照指定的分层策略将数据集分割成训练集和测试集。         5.使用 StratifiedShuffleSplit 对象创建了一个分层的随机分割器 split指定了分割的参数分割份数为 1测试集的比例为 0.2即 20%随机数种子为 1。         6.使用 split.split() 方法对数据集进行分层随机分割其中 housing 是数据集housing[income_cat] 是分层依据。然后通过迭代将训练集和测试集索引保存到 train_index 和 test_index 中。         7.在迭代过程中通过 housing.loc[] 方法根据索引从原始数据集中获取训练集和测试集并将其保存到 start_train_set 和 start_test_set 中。         8.最后通过打印测试集中每个收入类别的比例了解测试集的分布情况。这里使用了 value_counts() 方法统计每个类别的数量并除以测试集的总样本数以获得比例。 9.将income_cat移走让数据变回原始数据。 输出结果 目的 按照收入类别分层随机地将数据集分割为训练集和测试集并检查测试集中每个收入类别的比例是否合理。这是一种常见的数据预处理步骤以确保在模型训练和评估过程中各个类别的样本分布保持一致。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/909555.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

控制面板网站宁波网站建设服务

背景: 微软和谷歌母公司Alphabet最新公布的季度财报均显示,由于企业客户在人工智能服务上的投入增加,其云计算业务实现了显著的收入增长。尽管Meta在将人工智能技术转化为收益方面稍显滞后,但它表示,其相关努力对提高…

中山做网站专业的公司如何做网站竞品分析

2020年全国研究生数学建模大赛开始啦!各学院: 为在大学生中倡导学习统计、应用统计的良好氛围,适应大数据时代的高校统计和数据科学人才的培养要求,提高研究生的数据挖掘、数据分析、运用计算机处理数据的能力,加强创新…

建设网站的企业费用东莞网络公司哪家好

背景在使用富士施乐的一体机中(其他厂商的一体机 也类似),很多人的网络环境是动态IP的,即打印的IP地址是不固定的,随着每次开机或关机会变化,从而经常有人反应打印机不能打印或者扫描了。。总体思路1. 检查当前的IP设置2. 把相应的…

程序员做的简单的网站企业做网站和宣传册的作用

在视频制作过程中,为视频添加引人注目的封面是吸引观众的关键。而当我们需要批量处理多个视频时,如何快速、准确地置入封面就显得尤为重要。本文将为您揭示这一高效技巧,让您在一分钟内学会批量置入视频封面,提升视频的吸引力与观…

.NET驾驭Word之力:结构化文档元素操作

在前几篇文章中,我们学习了Word对象模型的基础知识、文本操作与格式设置等内容。掌握了这些基础知识后,我们现在可以进一步深入到文档的结构化元素操作,包括段落与节的管理、表格的创建与操作以及图片的插入等。本文…

行稳、致远 | 技术驱动下的思考感悟

行稳: 做好当下,结果第一 读书和加入京东以来的这十几年,我感触最深的一个点就是要做好当下。我个人是一个思维比较跳脱,想法算是比较多的人。总是喜欢瞎折腾,喜欢想东想西。有时候有点 “这山望见那山高” 的意思…

在控制台执行这段代码可以列出所有::selection规则

// 在控制台执行这段代码可以列出所有::selection规则 Array.from(document.styleSheets).forEach(sheet => { try { Array.from(sheet.cssRules).forEach(rule => { if(rule.selectorText && rule.sele…

JDK从8升级到21的问题集

一、背景与挑战 1.升级动因 ◦Oracle长期支持策略 ◦现代特性需求:协程、模式匹配、ZGC等 ◦安全性与性能的需求 ◦AI新技术引入的版本要求 2.项目情况 ◦100+项目并行升级的协同作战 ◦多技术栈并存 ◦持续集成体系的…

网站建设公司调查报告wordpress多国语言版本

首先,Kafka无法保证消息的全局有序性,这是因为Kafka的设计中允许多个生产者并行地向同一个主题写入消息。而且,一个主题可能会被划分为多个分区,每个分区都可以在独立的生产者和消费者之间进行并行处理。因此,生产者将…

wordpress游客变用户品牌网站和优化网站

各位小伙伴们大家好,欢迎来到这个小扎扎的ElasticSearch专栏,本篇博客由B战尚硅谷的ElasticSearch视频总结而来,鉴于 看到就是学到、学到就是赚到 精神,这波依然是血赚 ┗|`O′|┛ 🌆 内容速览 1 es数据格…

网站色彩搭配方案泰安市高新区建设局网站

前言 当谈到异步编程时,C#中的async/await是一个强大且方便的工具。它使得编写并发和异步操作变得更加简单和可读,同时提供良好的可维护性。本文将详细解释async/await的使用,以及如何在C#中有效地利用它来实现异步操作。 目录 前言1. async…

先做网站装修还是先买虚拟主机wordpress china 中文

任务7:采集这5页中胜点列的数据,找出胜点最高的召唤师,将召唤师姓名填入答案中 此题采集的是胜点列表的数据如下 通过控制台审查元素查看,可以看到是乱码,记得几年前的快手,小红书,抖音也采用了此类反爬措施,html页面显示的是乱码,浏览器能正常显示数据,大概率就是…

科技公司网站案例做 在线观看免费网站

引言 在数据结构和算法的世界里,平衡二叉搜索树(Balanced Binary Search Tree, BST)是一种非常重要的数据结构。AVL树(Adelson-Velsky和Landis发明的树)就是平衡二叉搜索树的一种,它通过自平衡来维护其性质…

网站建设是用自己的服务器重庆室内设计

第1周:SQL入门 学习SQL语句的书写语法和规则从零学会SQL:入门​www.zhihu.com 第2周:查询基础 Select查询语句是SQL中最基础也是最重要的语句,这周我们就来利用Select来对表中的数据进行查询。从零学会SQL:简单查询​w…

福建建设局网站无锡市建设银行总行网站

puppeteer 文档:puppeteer.js中文文档|puppeteerjs中文网|puppeteer爬虫教程 Puppeteer本身依赖6.4以上的Node,但是为了异步超级好用的async/await,推荐使用7.6版本以上的Node。另外headless Chrome本身对服务器依赖的库的版本要求比较高,c…

做网站能用本地的数据库嘛商业空间设计案例网站

1月11日,由零售圈主办、20零售连锁协会协办、30零售行业媒体支持的中国零售圈大会暨2024未来零售跨年盛典在西安落下帷幕,在这个零售行业盛典中,第七在线凭借其高精尖产品和卓越的服务质量成功入选,并荣获了“百灵奖 Buylink Awar…

虚拟主机网站建设网站开发文档范文

11服务: 功能:控制MCU进行重启,重启分为硬重启和软重启,11服务一般代表软重启,虽然它里面有个子服务是硬件重启,这里需要注意下;硬重启在日常工作中一般代表B重启。命令格式(请求&am…

做网站犯法了 程序员有责任吗江干网站建设

一、背景 近年来由于危险河道管理措施不到位,调峰电站泄水风险长期存在,信息通报制度缺失以及民众安全警觉性不高等因素导致的水电站在泄洪时冲走下游河道游客以及人民财产的事故频发。 二、系统介绍 水电站智能监测泄洪预警系统是一种集成了物联网、云…

超前探展!2025 云栖大会朋友圈晒图必备

2025 云栖大会来了! 从基础设施、大模型到 Agent 和具身智能 全景呈现 AI 技术演进与产业落地 尽在 9.24-9.26 杭州云栖小镇! 2025 云栖大会将持续三天,来自 50 余个国家的 2000 多位演讲嘉宾将齐聚杭州,通过云栖前…

古蔺中国建设银行网站改变网站的域名空间

其实这篇文章不是这里的,只是,后台很傻B地进不了了。也不知道是什么乱七八糟的问题。先写在这里,当做这么久没更新的偷懒好了。(而且,挑出来的这些都是精华呢!),大家各取所需吧: 1. …