line和spline_探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)

line和spline

最近引起我注意的一个有趣且很有希望的开源项目是Spline ,它是由Absa维护的Apache Spark数据沿袭跟踪和可视化工具。 该项目由两部分组成:一个在驱动程序上工作的Scala库,该库通过分析Spark执行计划来捕获数据沿袭,以及一个Web应用程序,该应用程序提供了一个可视化它们的UI。

Spline支持MongoDB和HDFS作为JSON格式的数据沿袭的存储系统。 在这篇文章中,我指的是MongoDB。

您可以通过Spark外壳开始使用Spline。 只需将必需的依赖项添加到shell类路径中,如下所示(参考该项目的最新0.3.5版本):

spark-shell --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5"

在Ubuntu和其他Linux发行版上使用上述命令运行Spark shell,是否应该出现有关下载Joda Time库(Spline组件之一的传递依赖性)的问题,请删除.ivy1.m2隐藏子目录执行了spark-shell命令的目录,然后重新运行它。

假设您已启动并运行Mongo服务器,并且已经为Spline创建了一个空数据库,那么在Spark Shell中需要做的第一件事是指定要使用的持久性工厂类,然后指定连接字符串和数据库名称:

System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory")
System.setProperty("spline.mongodb.url", "mongodb://<username>:<password>@<server_name_or_ip>:<port>")
System.setProperty("spline.mongodb.name", "<database_name>")

现在,您可以启用样条线数据沿袭跟踪:

import za.co.absa.spline.core.SparkLineageInitializer._
spark.enableLineageTracking()

然后开始做一些涉及数据的事情:

val employeesJson =
spark.read.json("/home/guglielmo/spark-2.3.2-bin-hadoop2.7/examples/src/main/resources/employees.json")

import spark.implicits._val employeeNames = employeesJson.select(employeesJson("name")) employeeNames.write.parquet("/home/guglielmo/spline/example/employee_names")

是否应该发生以下异常:

com.mongodb.MongoCommandException: Command failed with error 9: 'The 'cursor' option is required, except for aggregate with the explain argument' on server localhost:27017. The full response is { "ok" : 0.0, "errmsg" : "The 'cursor' option is required, except for aggregate with the explain argument", "code" : 9, "codeName" : "FailedToParse" }

那么您必须将MongoDB Java驱动程序依赖项更新到任何3.6+版本(可以通过在运行Windows Server 2003时简单地将其添加到软件包列表中来完成)
spark-shell命令)。

启动Spline Web应用程序:

java -jar spline-web-0.3.5-exec-war.jar -Dspline.mongodb.url=mongodb://<username>:<password>@<server_name_or_ip>:<port> -Dspline.mongodb.name=<database_name>?

您可以在Web UI中查看捕获的数据沿袭(默认监听端口为8080):

样条数据跟踪器
样条数据跟踪器

这只是一个开始。 在本系列的第2部分中,我们将深入探讨Spline。

翻译自: https://www.javacodegeeks.com/2018/12/spline-data-trackervisualization-spark.html

line和spline

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/332856.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MacBook如何快速显示桌面

1.触控板中张开拇指和其它三指 2.通过触发角来快速显示桌面

怎么把word里面虚线变成实线_弱电不会制作cad图,花3分钟看完,只要会用WORD保证你能画出来...

今天我要给你介绍的就是Microsoft Office Visio是Microsoft Office 套件之一。安装Visio之后&#xff0c;可以类比Word的操作方法一样来使用&#xff0c;不过&#xff0c;就是比在Word里画图、修改更方便&#xff0c;功能更强大。特别是在做技术路线图、各种图表的绘图&#xf…

MacBook如何设置分屏浏览的快捷键

MacBook的系统自身无法设置&#xff0c;必须安装第三方软件才能设置&#xff0c;例如&#xff1a;BetterAndBetter、Magnet、BetterSnapTool 等。 BetterAndBetter 的设置&#xff0c;如下图所示&#xff1a;

api自动化测试_API测试和自动化101:基本指南

api自动化测试API代表A pplication P AGC软件我覆盖整个院落。 通常&#xff0c;API用于通过使用任何通信方式来促进两个不同应用程序之间的交互。 在网络上使用API​​时&#xff0c;我们将其称为“ Web服务”。 近年来&#xff0c;API已成为编程的Struts。 与在应用程序中一样…

web.config连接mysql_web.config中配置数据库连接的方式

在网站开发中&#xff0c;数据库操作是经常要用到的操作&#xff0c;ASP.NET中一般做法是在web.config中配置数据库连接代码&#xff0c;然后在程序中调用数据库连接代码&#xff0c;这样做的好处就是当数据库连接代码需要改变的时候&#xff0c;我们只要修改web.config中的数据…

BetterAndBetter(BAB)的使用详解

文章目录多指轻点时防止左键点击规则管理重置全部设置和规则多指轻点时防止左键点击 在正常情况下按下触控板的左键&#xff0c;使用鼠标选择好文本后&#xff0c;松开触控板的左键&#xff0c;就已经退出文本选择模式了&#xff0c;此时移动鼠标应该是不会影响到已经选择的文…

gradle使用maven_使用Gradle – 2019版从Travis可靠发布到Maven Central

gradle使用maven得益于在2018年和2019年末实现的显式登台存储库创建功能集&#xff0c;使您&#xff08;自动&#xff09;从Travis&#xff08;不仅是&#xff09;发布到Maven Central更加可靠。 背景 如果您仅想获取有关如何使工件从Travis发行的信息更可靠的信息&#xff0c…

mysql 事件 day hour_Mysql事件调度器(Event Scheduler)

Mysql中的事件调度器Event Scheduler类似于linux下的crontab计划任务的功能,它是由一个特殊的时间调度线程执行的一、查看当前是否开启了event scheduler三种方法:1) SHOW VARIABLES LIKE ‘event_scheduler’;2) SELECT event_scheduler;3) SHOW PROCESSLIST;(是否有State为&a…

2020年全国儿童青少年总体近视率为52.7%,比上年上升2.5%播

2021年7月13日&#xff0c;国家卫健委召开新闻发布会介绍儿童青少年近视防控和暑期学生健康有关情况。国家卫健委疾控局副局长再那吾东玉山介绍&#xff0c;2020年上半年全民居家抗疫减少了户外活动和放松眼睛的时间&#xff0c;对近视防控工作带来了挑战。为全面评估近视率的情…

精简jdk包_在JDK 12精简数字格式中使用最小分数数字

精简jdk包帖子“ 紧凑数字格式出现在JDK 12中 ”演示了对JDK 12中 NumberFormat的支持&#xff0c;以支持紧凑数字格式 。 该帖子中显示的示例仅使用NumberFormat的实例&#xff0c;这些实例是通过调用NumberFormat的新重载getCompactNumberInstance(-)方法返回的&#xff0c;因…

mysql insert limit_Mysql Limit 调优

建表与插入数据SQL对比基本数据创建表CREATE TABLE student(id int(10) NOT NULL AUTO_INCREMENT,name varchar(25) DEFAULT NULL,age tinyint(2) DEFAULT NULL,live varchar(255) DEFAULT NULL,PRIMARY KEY (id)) ;批量插入1百万条数据DROP PROCEDURE IF EXISTS insert_Stu;DE…

预防近视的方法

推荐的方法里面有角膜塑形镜&#xff0c;也就是OK镜&#xff0c;还有低浓度阿托品、补光仪、离焦软镜、离焦框架眼镜等&#xff0c;阿托品离焦眼镜

spoon java_如何以及为什么使用Spoon分析,生成和转换Java代码

spoon javaSpoon是分析&#xff0c;生成和转换Java代码的工具。 在本文中&#xff0c;我们将看到通过使用以编程方式处理代码的技术可以实现什么。 我认为这些技术不是很为人所知或使用&#xff0c;这很遗憾&#xff0c;因为它们可能非常有用。 谁知道&#xff0c;即使您不想使…

下列支持mysql中文字符_MySQL中文支持问题

0. 本文目的让MySQL支持中文1. 测试环境Windows XP sp2&#xff0c;MySQL Server 5.1&#xff0c;MySQL Administrator 1.2.172. 操作步骤1)修改数据库的默认字符集(开始菜单) - MySQL - MySQL Server 5.1 - MySQL Server Instance Config Wizard&#xff1a;- Reconfigure Ins…

异常(Exception)的学习

1.Throwsable 的两个子类 Exception 和 Error 2.Exception 这是编译期异常&#xff0c;可以捕获处理 3.RuntimeException 表示运行期间的异常&#xff0c;它是 Exception 的子类 4.Error 这是程序错误&#xff0c;不可捕获处理。例如&#xff0c;内存溢出 5.throws 关键字&…

recorder_将Java Flight Recorder与OpenJDK 11一起使用

recorderJava Flight Recorder&#xff08;JFR&#xff09;曾经是Oracle JDK的商业附加组件。 由于它最近与Java Mission Control一起开源&#xff0c;因此使用OpenJDK 11的每个人现在都可以免费使用此出色的工具对Java应用程序进行故障排除。 JFR以前是专有解决方案&#xff0…

mysql 酒店管理设计_酒店管理系统的设计与实现(Myeclipse,MySQL)

酒店管理系统的设计与实现(Myeclipse,MySQL)(任务书,开题报告,中期检查表,文献综述,外文翻译,毕业论文12000字,程序代码,MySQL数据库)本系统是一个酒店管理系统&#xff0c;以Java Web技术为基础&#xff0c;采用MVC设计模式&#xff0c;利用MyEclipse编程平台结合MySQL数据库&…

可以在循环体内声明局部变量吗?

循环体声明的局部变量&#xff0c;第一次创建后&#xff0c;后面每次循环就不会再创建了。因为 JVM 在执行创建局部变量代码时&#xff0c;会先查询是否存在同名的局部变量&#xff0c;若存在则不会创建。如果有赋值&#xff0c;则直接删除旧的数据&#xff0c;保存新的数据&am…

传一个实体一个string_没想到,一个小小的String还有这么多窍门

1. 看看源码大家都知道&#xff0c; String 被声明为 final&#xff0c;因此它不可被继承。(Integer 等包装类也不能被继承&#xff09;。我们先来看看 String 的源码。在 Java 8 中&#xff0c;String 内部使用 char 数组存储数据。在 Java 9 之后&#xff0c;String 类的实现…

envoy api 网关_在边缘,作为网关或在网格中构建控制平面以管理Envoy代理的指南...

envoy api 网关最近&#xff0c; Envoy已成为流行的网络组件。 马特克莱因&#xff08; Matt Klein &#xff09;在几年前写了一个博客&#xff0c;内容涉及Envoy的动态配置API&#xff0c;以及它如何成为Envoy的采用曲线向右移的部分原因。 他称该博客为“通用数据平面API”。…