spark调用python_在MRS集群中使用Python3.7运行PySpark程序,调用RDD的take函数报错处理...

现象

如果我们安装了python3.7版本来运行spark,并且用到了RDD的take函数,就会报错:RuntimeError: generator raised StopIteration

我们可以编写一个python脚本test.py来进行测试,用spark-submit命令提交: spark-submit test.pyfrom pyspark.sql import SparkSession

spark = SparkSession\

.builder\

.appName("PythonWordCount")\

.getOrCreate()

sc = spark.sparkContext

print(sc.parallelize([1, 2]).take(1))

当然也可以直接在pyspark的交互式shell中执行sc.parallelize([1, 2]).take(1)

执行就会碰到上面说的错误。

原因分析

这个错误是由于Python3.7合入了一个不兼容性修改PEP-0479引起的。

Spark社区已经修复并合入了Spark的2.3.2和2.4版本,具体参考Spark对应的JIRA SPARK-24739。

解决方法

MRS目前使用的版本为Spark 2.2.1,尚未修复。目前可以通过两种方法规避:(推荐)使用Python 3.6,3.5;

参考开源合入,修改提交任务节点的对应python脚本,并打包。具体见下一节。

参考开源合入,修改不兼容的python代码

打开客户端节点,修改/opt/client/Spark/spark/python/pyspark/rdd.py中的takeUpToNumLeft方法。def takeUpToNumLeft(iterator):

iterator = iter(iterator)

taken = 0

while taken < left:

try:

yield next(iterator)

except StopIteration:

return

taken += 1

重新打包pyspark.zip# 备份pyspark.zip

cd /opt/client/Spark/spark/python/lib && mv pyspark.zip pyspark.zip.bak

# 打包新的pyspark.zip

cd /opt/client/Spark/spark/python; zip -r pyspark.zip pyspark

# 移动至lib目录

mv pyspark.zip /opt/client/Spark/spark/python/lib/

# 修改权限

chmod 777 /opt/client/Spark/spark/python/lib/pyspark.zip

这时再来试一下。spark-submit test.py

或者

spark-submit --master yarn test.py

额外说一点,使用pyspark

shell,使用的是未打包的python,就是/opt/client/Spark/spark/python/pyspark/xxx.py;使用spark-submit命令提交,用的就是lib目录下的pyspark.zip了,具体可以看下面这一行上传的日志。2018-12-18 16:24:05,888 | INFO  | Thread-3 | Uploading resource file:/opt/client/Spark/spark/python/li

b/pyspark.zip -> hdfs://hacluster/user/hdfs/.sparkStaging/application_1545119010002_0007/pyspark.zip |

org.apache.spark.internal.Logging$class.logInfo(Logging.scala:54)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476713.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

对称加密(DES)

usingSystem;usingSystem.Collections.Generic;usingSystem.Text;usingSystem.Security.Cryptography;usingSystem.IO;namespaceComponent{ public class Security { public Security() { } //默认密钥向量 private static …

AI终于能替我写论文了

编 | 小舟、陈萍源 | 机器之心Meta AI 提出了一个可以总结学术文献&#xff0c;解决数学问题的新模型&#xff0c;该模型还能生成百科文章&#xff0c;编写科学代码&#xff0c;注释分子和蛋白质等等。近年来&#xff0c;随着各学科领域研究的进步&#xff0c;科学文献和数据呈…

网站访问量怎么刷_基于爬虫刷新某网站访问量!我说怎么上千万呢

前言&#xff1a;前一段时间看到有博友写了爬虫去刷新博客访问量一篇文章&#xff0c;当时还觉得蛮有意思的&#xff0c;就保存了一下&#xff0c;但是当我昨天准备复现的时候居然发现文章404了。所以本篇文章仅供学习交流&#xff0c;严禁用于商业用途当我在写文章的同时&…

入市

最近很忙&#xff0c;不是工作&#xff0c;是因为入市。 前天买入第一支股票开始&#xff0c;整个脑袋就开始忙碌起来。什么也顾不得了&#xff0c;时不时偷偷瞄几眼&#xff0c;跌了&#xff0c;就盯着股票曲线图&#xff0c;似乎自己多盯一会儿&#xff0c;那个曲线就会涨…

LeetCode 1405. 最长快乐字符串(贪心)

1. 题目 如果字符串中不含有任何 aaa&#xff0c;bbb 或 ccc 这样的字符串作为子串&#xff0c;那么该字符串就是一个「快乐字符串」。 给你三个整数 a&#xff0c;b &#xff0c;c&#xff0c;请你返回 任意一个 满足下列全部条件的字符串 s&#xff1a; s 是一个尽可能长的…

我裂开了...人类脑海中的画面,被AI解码了??

作者 | 白鹡鸰导言有没有那么几个瞬间&#xff0c;你要么想把自己脑子里的东西掏出来给别人看&#xff0c;要么想撬开别人的脑子看看里面都装了什么&#xff1f;虽然错过了霍格沃茨的入学时间&#xff0c;但如果从现在开始学习扩散模型和神经学&#xff0c;可能很快你就能实现这…

我的老师

他的人品,学识是对我的一生都有很大的影响&#xff0c;下面的内容都是事实&#xff0c;因为我是他的学生(1992-1995)&#xff0c;一生中我都是他的学生 From: http://211.67.168.43/infoshow.aspx?id118 我是这样做教师的——师德标兵李九成老师先进事迹报告大家好&#xff01…

python构建二叉树_python--使用递归的方式建立二叉树

树和图的数据结构&#xff0c;就很有意思啦。# coding utf-8 class BinaryTree: def __init__(self, root_obj): self.key root_obj self.left_child None self.right_child None def insert_left(self, new_node): node BinaryTree(new_node) if self.left_child is None…

GPT-4要来了?传言:先进到与人类无异

编 | Cris源 | 新智元千呼万唤始出来&#xff01;GPT-4&#xff0c;真要来了&#xff1f;作为史上最受期待的AI模型&#xff0c;GPT-4真要来了&#xff1f;这几天&#xff0c;AI分析师罗梅罗的一篇专栏文章&#xff0c;一经推出便迅速「引爆」了整个AI科技圈。他表示&#xff0…

LeetCode 1406. 石子游戏 III(DP)

1. 题目 Alice 和 Bob 用几堆石子在做游戏。几堆石子排成一行&#xff0c;每堆石子都对应一个得分&#xff0c;由数组 stoneValue 给出。 Alice 和 Bob 轮流取石子&#xff0c;Alice 总是先开始。在每个玩家的回合中&#xff0c;该玩家可以拿走剩下石子中的的前 1、2 或 3 堆…

[引]VS2005 之 Visual Basic 程序的结构

1.文件级编程元素 2.命名空间级编程元素 3.模块级编程元素 4.过程级编程元素 5.Main 过程 Visual Basic 程序是依据标准的构造块建立起来的。 一个解决方案由一个或多个项目组成。 一个项目又包含一个或多个程序集。 每个程序集是依据一个或多个源文件编译而来的。 源文件提供类…

python怎么安装开发版_【干货】开发板上安装python的hiai库和opencv库

Matrix是已经支持phthon接口了&#xff0c;但是发现目前python的hiai库并没有自动安装&#xff0c;需要自己安装&#xff1b; 话不多说下面是安装步骤&#xff1a; 步骤1. 开发板联网&#xff0c;如果已联网则跳过该步骤&#xff1b; 接下来需要在开发板上配置arm的源&#xff…

让AI去分割人体的心肝脾胃肺,靠谱吗?

随着医学影像设备的快速发展和重视程度的增加&#xff0c;医学领域可供深度学习方法所利用的图像不断增多。随着CV领域中&#xff0c;深度学习的复兴&#xff0c;其在医学成像领域的应用大幅增加&#xff0c;图像分割算法基于深度学习的研究已经取得了显著的进展。我们特地请来…

程序员面试金典 - 面试题 17.05. 字母与数字(哈希map+思维转换)

1. 题目 给定一个放有字符和数字的数组&#xff0c;找到最长的子数组&#xff0c;且包含的字符和数字的个数相同。 返回该子数组&#xff0c;若存在多个最长子数组&#xff0c;返回左端点最小的。若不存在这样的数组&#xff0c;返回一个空数组。 示例 1: 输入: ["A&qu…

有效创建Oracle dblink的两种方式

有效创建Oracle dblink的两种方式 两台不同的数据库服务器&#xff0c;从一台数据库服务器的一个用户读取另一台数据库服务器下的某个用户的数据&#xff0c;这个时候可以使用dblink。 其实dblink和数据库中的view差不多&#xff0c;建dblink的时候需要知道待读取数据库的ip地址…

sqlserver2008驱动_Python连接数据库两种方法,QSqlDatabase,pymmsql,驱动名

Qt中内置了好几个数据库的驱动程序&#xff0c;也就是说我们可以直接在PyQt中对这些数据库进行操作。这些内置的数据库包括&#xff1a; IBM DB2&#xff0c;驱动名为QDB2&#xff1b; Borland InterBase&#xff0c;驱动名为QIBASE&#xff1b; MySQL&#xff0c;驱动名为QMYS…

我们追求的泛化,竟是一条死路?

文 | 鹰钩鼻涕虫从我们刚刚接触统计学习方法开始&#xff0c;想必就一直在接受一个思想&#xff1a;相比符号算法&#xff0c;统计模型最重要的能力之一&#xff0c;即是它的泛化能力。或者&#xff0c;用这两年使用更加广泛的话术&#xff0c;则是统计模型具备想象力&#xff…

何处是我家

何处是我家 ——代腾飞 2007年9月9日 于成都 这里很繁华&#xff0c;那里也不差 只是我手中没有黄金白银拿 只能眼睁睁地看着她成为别人的家 我一生省吃俭用、摸爬滚打 只为追逐心中的那个家 我四处漂泊、浪迹天涯 只为寻找那个心中的家 无论何时&#xff0c;无论何地 我心都…

LeetCode 460. LFU缓存(哈希双链表)

1. 题目 设计并实现最不经常使用&#xff08;LFU&#xff09;缓存的数据结构。它应该支持以下操作&#xff1a;get 和 put。 get(key) - 如果键存在于缓存中&#xff0c;则获取键的值&#xff08;总是正数&#xff09;&#xff0c;否则返回 -1。put(key, value) - 如果键不存…

python网站攻击脚本_Python scapy 实现一个简易 arp 攻击脚本

scapy是python写的一个功能强大的交互式数据包处理程序&#xff0c;可用来发送、嗅探、解析和伪造网络数据包&#xff0c;常常被用到网络攻击和测试中。 scapy的安装在Linux非常便利&#xff0c;但在Windows下比较复杂。 以下假定读者使用的是Ubuntu Linux 和 Python 3 环境。 …