网站建设必须经历的过程制作网站具体需要什么材料

news/2025/9/23 14:22:10/文章来源:
网站建设必须经历的过程,制作网站具体需要什么材料,什么类型的产品可以做网站出口,河北邯郸做网站的公司2、DataFrame 2.1 介绍 在Spark语义中#xff0c;DataFrame是一个分布式的行集合#xff0c;可以想象为一个关系型数据库的表#xff0c;或者一个带有列名的Excel表格。它和RDD一样#xff0c;有这样一些特点#xff1a; Immuatable#xff1a;一旦RDD、DataFrame被创…2、DataFrame 2.1 介绍 在Spark语义中DataFrame是一个分布式的行集合可以想象为一个关系型数据库的表或者一个带有列名的Excel表格。它和RDD一样有这样一些特点 Immuatable一旦RDD、DataFrame被创建就不能更改只能通过transformation生成新的RDD、DataFrameLazy Evaluations只有action才会触发Transformation的执行DistributedDataFrame和RDD一样都是分布式的dataframe和dataset统一dataframe只是dataset[ROW]的类型别名。由于Python是弱类型语言只能使用DataFrame DataFrame vs RDD RDD分布式的对象的集合Spark并不知道对象的详细模式信息DataFrame分布式的Row对象的集合其提供了由列组成的详细模式信息使得Spark SQL可以进行某些形式的执行优化。DataFrame和普通的RDD的逻辑框架区别如下所示 左侧的RDD Spark框架本身不了解 Person类的内部结构。 右侧的DataFrame提供了详细的结构信息schema——每列的名称类型 DataFrame还配套了新的操作数据的方法DataFrame API如df.select())和SQL(select id, name from xx_table where …)。 DataFrame还引入了off-heap,意味着JVM堆以外的内存, 这些内存直接受操作系统管理而不是JVM。 RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子以外更重要的特点是提升执行效率、减少数据读取以及执行计划的优化。 DataFrame的抽象后我们处理数据更加简单了甚至可以用SQL来处理数据了 通过DataFrame API或SQL处理数据会自动经过Spark 优化器Catalyst的优化即使你写的程序或SQL不高效也可以运行的很快。 DataFrame相当于是一个带着schema的RDD Pandas DataFrame vs Spark DataFrame Cluster Parallel集群并行执行Lazy Evaluations: 只有action才会触发Transformation的执行Immutable不可更改Pandas rich API比Spark SQL api丰富 2.2 创建DataFrame 1创建dataFrame的步骤 ​ 调用方法例如spark.read.xxx方法 2其他方式创建dataframe createDataFramepandas dataframe、list、RDD 数据源RDD、csv、json、parquet、orc、jdbc jsonDF spark.read.json(xxx.json)jsonDF spark.read.format(json).load(xxx.json)parquetDF spark.read.parquet(xxx.parquet)jdbcDF spark.read.format(jdbc).option(url,jdbc:mysql://localhost:3306/db_name).option(dbtable,table_name).option(user,xxx).option(password,xxx).load()Transformation:延迟性操作 action立即操作 2.3 DataFrame API实现 基于RDD创建 from pyspark.sql import SparkSession from pyspark.sql import Rowspark SparkSession.builder.appName(test).getOrCreate() sc spark.sparkContext # spark.conf.set(spark.sql.shuffle.partitions, 6) # 直接创建 l [(Ankit,25),(Jalfaizy,22),(saurabh,20),(Bala,26)] rdd sc.parallelize(l) #为数据添加列名 people rdd.map(lambda x: Row(namex[0], ageint(x[1]))) #创建DataFrame schemaPeople spark.createDataFrame(people)从csv中读取数据 # 从csv读取 #加载csv类型的数据并转换为DataFrame df spark.read.format(csv). \option(header, true) \.load(iris.csv) #显示数据结构 df.printSchema() #显示前10条数据 df.show(10) #统计总量 df.count() #列名 df.columns增加一列 # 增加一列(或者替换) withColumn #定义一个新的列数据为其他某列数据的两倍 #如果操作的是原有列可以替换原有列的数据 df.withColumn(newWidth,df.SepalWidth * 2).show()删除一列 # 删除一列 drop #删除一列 df.drop(cls).show()统计信息 # 统计信息 describe df.describe().show() #计算某一列的描述信息 df.describe(cls).show() 提取部分列 # 提取部分列 select df.select(SepalLength,SepalWidth).show()基本统计功能 # 基本统计功能 distinct count df.select(cls).distinct().count()分组统计 # 分组统计 groupby(colname).agg({col:fun,col2:fun2}) df.groupby(cls).agg({SepalWidth:mean,SepalLength:max}).show()# avg(), count(), countDistinct(), first(), kurtosis(), # max(), mean(), min(), skewness(), stddev(), stddev_pop(), # stddev_samp(), sum(), sumDistinct(), var_pop(), var_samp() and variance()自定义的汇总方法 # 自定义的汇总方法 import pyspark.sql.functions as fn #调用函数并起一个别名 df.agg(fn.count(SepalWidth).alias(width_count),fn.countDistinct(cls).alias(distinct_cls_count)).show()拆分数据集 #数据集拆成两部分 randomSplit #设置数据比例将数据划分为两部分 trainDF, testDF df.randomSplit([0.6, 0.4])采样数据 # 采样数据 sample #withReplacement是否有放回的采样 #fraction采样比例 #seed随机种子 sdf df.sample(False,0.2,100)查看两个数据集在类别上的差异 #查看两个数据集在类别上的差异 subtract确保训练数据集覆盖了所有分类 diff_in_train_test testDF.select(cls).subtract(trainDF.select(cls)) diff_in_train_test.distinct().count()交叉表 # 交叉表 crosstab df.crosstab(cls,SepalLength).show()udf udf自定义函数 # 综合案例 udf # 测试数据集中有些类别在训练集中是不存在的找到这些数据集做后续处理 trainDF,testDF df.randomSplit([0.99,0.01])diff_in_train_test trainDF.select(cls).subtract(testDF.select(cls)).distinct().show()#首先找到这些类整理到一个列表 not_exist_cls trainDF.select(cls).subtract(testDF.select(cls)).distinct().rdd.map(lambda x :x[0]).collect()#定义一个方法用于检测 def should_remove(x):if x in not_exist_cls:return -1else :return x#创建udfudf函数需要两个参数 # Function # Return type (in my case StringType())#在RDD中可以直接定义函数交给rdd的transformatioins方法进行执行 #在DataFrame中需要通过udf将自定义函数封装成udf函数再交给DataFrame进行调用执行from pyspark.sql.types import StringType from pyspark.sql.functions import udfcheck udf(should_remove,StringType())resultDF trainDF.withColumn(New_cls,check(trainDF[cls])).filter(New_cls -1)resultDF.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/912822.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

青羊区网站建设西安专业做网站的的公司

一.题目描述 输入三角形的三边,输出三角形的面积。比如:输入三角形的三边长度是3,4,5.输出6 二.思路分析 利用海伦公式可以很好解决 海伦公式的表达式如下: s (a b c) / 2 面积 sqrt((s * (s - a) * (s - b) * (…

app网站开发的特点wordpress 4.7下载

先决条件:BigInteger基础的java.math.BigInteger.negate()方法返回一个BigInteger,其值为(-this)。 negate()方法将更改BigInteger的单个位。用法:public BigInteger negate()参数:该方法不接受任何参数。返回值:该方法返回(-this…

国外购物网站排行榜网站如果实现微信支付

android计算每个目录剩余空间丶总空间以及SD卡剩余空间ublic class MemorySpaceCheck { /** * 计算剩余空间 * param path * return */ public static String getAvail ...ionic+angularjs开发hybrid App(环境配置+创建测试项目)本文使用的…

企业工商年报:企业与个体工商户工商年报专业代办服务详解

一、概述总结 企业工商年报是依托微擎 IP 市场提供的企业与个体工商户工商年报专业服务项目。该服务不仅提供便捷高效的年报代办支持,还给出明确保障,若办理不成功可全额退款,同时关联官方政策依据,确保服务合规性…

温州做网站优化企业培训考试系统题库

WebStorm是一款功能强大的JavaScript集成开发环境,凭借智能代码补全、实时分析和代码重构、集成版本控制、强大的调试和测试工具、实时预览和集成前端工具以及自定义配置和插件支持等功能,成为开发者首选的利器。 前端开发WebStorm WebStorm是一款功能强…

使用 Playwright MCP 实现小红书全自动发布的完整流程

你是否曾为自动化脚本中的小红书登录验证而头疼?是否曾因登录态频繁失效而不得不手动介入,让所谓的“全自动”名存实亡? Playwright Model Context Protocol (MCP) 的推出,彻底改变了这一局面。它不再是简单的浏览…

美团饿了么霸王餐 CPS 系统:外卖流量变现新选择

一、概述总结 会创科技推出的美团饿了么霸王餐 CPS 系统,是一款聚焦外卖领域流量变现与商家推广需求的创新工具,依托微擎云端实现交付。 该系统核心优势显著,无需运营者进行招商工作,也无需垫付资金,降低了前期投…

百家企业案例征集 | 让测试经验成为行业的共同财富

大家好,这里是霍格沃兹测试开发学社。 在软件行业快速演进的今天,测试工程师的角色正在发生深刻变化: 我们不再只是“问题的发现者”,而是系统稳定性的守护者; 不再只是“功能的验证者”,更是研发效能和交付质量…

Linux CAN 设备简介

Linux CAN 设备简介Linux CAN 设备简介 在 Linux 系统中,CAN(Controller Area Network)是一种用于嵌入式系统的可靠通信协议,广泛应用于汽车、工业自动化等领域。Linux 提供了对 CAN 的原生支持,通过 SocketCAN 子…

网站建设 招标任务书flash网站开发

k8s部署redis6节点,组成3主3从集群模式 一般来说,redis部署有三种模式。 单实例模式,一般用于测试环境。 哨兵模式 集群模式后两者用于生产部署 哨兵模式 在redis3.0以前,要实现集群一般是借助哨兵sentinel工具来监控master节点…

宁波静态网站建设深圳网站设计制作公司 维仆

目录 引言 一、HTTPS工作过程 二、Tomcat 在访达中找到下载好的Tomcat文件夹(这个要求按顺序) zsh: permission denied TOMCAT的各部分含义: 引言 在密码中一般是:明文密钥->密文(加密) &#xff…

淮阴网站建设个人如何建设网站

FL Studio 21.2 带有 stem 分离和 FL Cloud,这是一项专为 FL Studio 打造的具有里程碑意义的新服务。其他新功能包括 FL Studio Fruity Edition 的 Audio Clips(音频剪辑)和一个新的模拟建模合成器 Kepler。 为庆祝 FL Studio 21.2 的发布&am…

做标准件网站网站建设需要哪些技术人员

金九银十,大家都铆足干劲想抓住机会涨薪进大厂。结合这几年的行业趋势,想要挑战大厂面试,首先必须吃透Selenium自动化测试框架设计。这里说一下原因:首先,一线互联网大厂无一例外,全都要求测试人掌握Seleni…

腾讯wordpress 建站制作微信小程序

需要像qt中添加模块,这里,缺少qtopenglwidgets模块

网站怎么吸引人合肥科技职业学院网站建设与管理

系列文章目录及链接 目录 前言 一、朴素贝叶斯通俗理解及定义 二、原理理解及公式 1、概率基础 2、贝叶斯公式 3、拉普拉斯平滑系数 三、**算法实现 四、接口实现 1、新闻数据集介绍 2、API 3、流程 3.1、获取数据 3.2、数据预处理 3.3、特征工程 3.4、朴素贝叶…

什么行业最容易做网站互联网门户网站建设管理 总结

这是一个ATL开发实例的流程: 1. 在atl中插入一个atl实例,然后添加一个类,派生自ccmdtarget。 2. 添加相应的属性或者方法,在这里需要明白一点的是,这个属性和方法其实是一个概念,只是添加一个属…

网站备案平台网页设计广州网站

1、创建测试用例 为ComeOnBroadcastReceiverDo创建一个测试用例: 在导航栏File-->New-->Other 选择AndroidTestProject 2、点击next输入测试工程的name,选择测试工程路径 点击next,选择要测试的工程: 点击Finish完成测试工程的新建 被…

天津网站制作WordPress 延时加载

KlipC报道:据相关人士报道,苹果希望在未来2到3年内每年在印度生产超过5000万部iphone,要是该计划得以实现,印度将占领全球iPhone产量的四分之一。 KlipC的分析师Alex Su表示:“此次iPhone15推出是苹果印度制造计划的一…

容桂手机网站建设网站备案那个省份

原创/朱季谦 最近在做一个前端vue.js对接的功能模块时,需要实现一个下载图片的功能,后台返回来的是一串图片url,试了很多种方法,发现点击下载时出来的效果,都是跳到一个新的图片网页,后来经过一番琢磨&…

CentOS 7下载教程vmware虚拟机安装centos 7保姆级安装步骤(附安装包) - 教程

CentOS 7下载教程vmware虚拟机安装centos 7保姆级安装步骤(附安装包) - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fa…