DataX(二):DataX安装与入门

1. 官方地址

下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

源码地址:GitHub - alibaba/DataX: DataX是阿里云DataWorks数据集成的开源版本。

2. 前置要求

  • Linux

  • JDK(1.8 以上,推荐 1.8)

  • Python(推荐 Python2.6.X)

3. 安装

1)将下载好的 datax.tar.gz 上传到 hadoop102 的/opt/software

2)解压 datax.tar.gz 到/opt/module

[xxds@hadoop102 ~]$ tar -zxvf datax.tar.gz -C /opt/module/

3)运行自检脚本

[xxds@hadoop102 datax]$ cd bin/
[xxds@hadoop102 bin]$ pwd
[xxds@hadoop102 bin]$  python datax.py /opt/module/datax/job/job.json

4) 输出如下数据

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.
​
​
2022-01-21 20:53:59.460 [main] INFO  VMInfo - VMInfo# operatingSystem class => sun.management.OperatingSystemImpl
2022-01-21 20:53:59.526 [main] INFO  Engine - the machine info  => 
​osInfo: Oracle Corporation 1.8 25.161-b12jvmInfo:        Linux amd64 3.10.0-1160.el7.x86_64cpu num:        1
​totalPhysicalMemory:    -0.00GfreePhysicalMemory:     -0.00GmaxFileDescriptorCount: -1currentOpenFileDescriptorCount: -1
​GC Names        [Copy, MarkSweepCompact]
​MEMORY_NAME                    | allocation_size                | init_size                      Eden Space                     | 273.06MB                       | 273.06MB                       Code Cache                     | 240.00MB                       | 2.44MB                         Survivor Space                 | 34.13MB                        | 34.13MB                        Compressed Class Space         | 1,024.00MB                     | 0.00MB                         Metaspace                      | -0.00MB                        | 0.00MB                         Tenured Gen                    | 682.69MB                       | 682.69MB                       
​
​
2022-01-21 20:53:59.640 [main] INFO  Engine - 
{"content":[{"reader":{"name":"streamreader","parameter":{"column":[{"type":"string","value":"DataX"},{"type":"long","value":19890604},{"type":"date","value":"1989-06-04 00:00:00"},{"type":"bool","value":true},{"type":"bytes","value":"test"}],"sliceRecordCount":100000}},"writer":{"name":"streamwriter","parameter":{"encoding":"UTF-8","print":false}}}],"setting":{"errorLimit":{"percentage":0.02,"record":0},"speed":{"byte":10485760}}
}
​
2022-01-21 20:53:59.733 [main] WARN  Engine - prioriy set to 0, because NumberFormatException, the value is: null
2022-01-21 20:53:59.742 [main] INFO  PerfTrace - PerfTrace traceId=job_-1, isEnable=false, priority=0
2022-01-21 20:53:59.743 [main] INFO  JobContainer - DataX jobContainer starts job.
2022-01-21 20:53:59.752 [main] INFO  JobContainer - Set jobId = 0
2022-01-21 20:53:59.972 [job-0] INFO  JobContainer - Scheduler starts [1] taskGroups.
2022-01-21 20:53:59.979 [job-0] INFO  JobContainer - Running by standalone Mode.
2022-01-21 20:54:00.077 [taskGroup-0] INFO  TaskGroupContainer - taskGroupId=[0] start [1] channels for [1] tasks.
2022-01-21 20:54:00.111 [taskGroup-0] INFO  Channel - Channel set byte_speed_limit to -1, No bps activated.
2022-01-21 20:54:00.112 [taskGroup-0] INFO  Channel - Channel set record_speed_limit to -1, No tps activated.
2022-01-21 20:54:00.208 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[0] attemptCount[1] is started
2022-01-21 20:54:00.528 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] taskId[0] is successed, used[339]ms
2022-01-21 20:54:00.529 [taskGroup-0] INFO  TaskGroupContainer - taskGroup[0] completed it's tasks.
2022-01-21 20:54:10.150 [job-0] INFO  StandAloneJobContainerCommunicator - Total 100000 records, 2600000 bytes | Speed 253.91KB/s, 10000 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 0.194s |  All Task WaitReaderTime 0.263s | Percentage 100.00%
2022-01-21 20:54:10.151 [job-0] INFO  AbstractScheduler - Scheduler accomplished all tasks.
2022-01-21 20:54:10.156 [job-0] INFO  JobContainer - DataX Writer.Job [streamwriter] do post work.
2022-01-21 20:54:10.158 [job-0] INFO  JobContainer - DataX Reader.Job [streamreader] do post work.
2022-01-21 20:54:10.159 [job-0] INFO  JobContainer - DataX jobId [0] completed successfully.
2022-01-21 20:54:10.164 [job-0] INFO  HookInvoker - No hook invoked, because base dir not exists or is a file: /opt/module/datax/hook
2022-01-21 20:54:10.196 [job-0] INFO  JobContainer - [total cpu info] => averageCpu                     | maxDeltaCpu                    | minDeltaCpu                    -1.00%                         | -1.00%                         | -1.00%​[total gc info] => NAME                 | totalGCCount       | maxDeltaGCCount    | minDeltaGCCount    | totalGCTime        | maxDeltaGCTime     | minDeltaGCTime     Copy                 | 0                  | 0                  | 0                  | 0.000s             | 0.000s             | 0.000s             MarkSweepCompact     | 0                  | 0                  | 0                  | 0.000s             | 0.000s             | 0.000s             
​
2022-01-21 20:54:10.197 [job-0] INFO  JobContainer - PerfTrace not enable!
2022-01-21 20:54:10.200 [job-0] INFO  StandAloneJobContainerCommunicator - Total 100000 records, 2600000 bytes | Speed 253.91KB/s, 10000 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 0.194s |  All Task WaitReaderTime 0.263s | Percentage 100.00%
2022-01-21 20:54:10.223 [job-0] INFO  JobContainer - 
任务启动时刻                    : 2022-01-21 20:53:59
任务结束时刻                    : 2022-01-21 20:54:10
任务总计耗时                    :                 10s
任务平均流量                    :          253.91KB/s
记录写入速度                    :          10000rec/s
读出记录总数                    :              100000
读写失败总数                    :                   0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/876479.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文总结代理:代理模式、代理服务器

概述 代理在计算机编程领域,是一个很通用的概念,包括:代理设计模式,代理服务器等。 代理类持有具体实现类的实例,将在代理类上的操作转化为实例上方法的调用。为某个对象提供一个代理,以控制对这个对象的…

测试分类篇

按测试对象划分 这里可以分为界面测试, 可靠性测试, 容错率测试, 文档测试, 兼容性测试, 安装卸载测试, 安全测试, 性能测试, 内存泄露测试. 界面测试 界面测试(简称UI测试),指按照界面的需求(一般是UI设计稿)和界面的设计规则…

Vue3+element-plus 实现图片图片

在看下面内容之前,请一定要去看看 element-plus 中上传组件 el-upload组件 上传组件 重点关注下面几个属性 :auto-upload“false” , 关闭自动上传 :on-change“onUploadFile” 监听上传情况 简单示例: <el-form-item label"文章封面" prop"cover_img"&…

flume知识点

1. 简述什么是Flume &#xff1f; flume 作为 cloudera 开发的实时日志收集系统&#xff0c;受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG&#xff08;original generation&#xff09;&#xff0c;属于 cloudera。 但随着 FLume 功能的扩展&#…

AI大模型学习必备十大网站

随着人工智能技术的快速发展&#xff0c;AI大模型&#xff08;如GPT-3、BERT等&#xff09;在自然语言处理、计算机视觉等领域取得了显著的成果。对于希望深入学习AI大模型的开发者和研究者来说&#xff0c;找到合适的学习资源至关重要。本文将为大家推荐十大必备网站&#xff…

[AI]在家中使用日常设备运行您自己的 AI 集群.适用于移动、桌面和服务器的分布式 LLM 推理。

创作不易 只因热爱!! 热衷分享&#xff0c;一起成长! “你的鼓励就是我努力付出的动力” AI发展不可谓不快, 从ollama个人电脑CPU运行到现在,日常设备AI集群. 下面对比一下,两款开源AI 大模型的分布式推理应用, exo 和cake. 1.AI 集群推理应用exo 和cake的简单对比 #mermaid-s…

DOS攻击实验

实验背景 Dos 攻击是指故意的攻击网络协议实现的缺陷或直接通过野蛮手段&#xff0c;残忍地耗尽被攻击对象的资源&#xff0c;目的是让目标计算机或网络无法提供正常的服务或资源访问&#xff0c;使目标系统服务系统停止响应甚至崩溃。 实验设备 一个网络 net:cloud0 一台模…

在Ubuntu 18.04上安装和使用PostgreSQL的方法

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站。 简介 关系数据库管理系统是许多网站和应用程序的关键组件。它们提供了一种结构化的方式来存储、组织和访问信息。 PostgreSQL&#xf…

基于微信小程序+SpringBoot+Vue的儿童预防接种预约系统(带1w+文档)

基于微信小程序SpringBootVue的儿童预防接种预约系统(带1w文档) 基于微信小程序SpringBootVue的儿童预防接种预约系统(带1w文档) 开发合适的儿童预防接种预约微信小程序&#xff0c;可以方便管理人员对儿童预防接种预约微信小程序的管理&#xff0c;提高信息管理工作效率及查询…

24暑假算法刷题 | Day22 | LeetCode 77. 组合,216. 组合总和 III,17. 电话号码的字母组合

目录 77. 组合题目描述题解 216. 组合总和 III题目描述题解 17. 电话号码的字母组合题目描述题解 77. 组合 点此跳转题目链接 题目描述 给定两个整数 n 和 k&#xff0c;返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 示例 1&#xff1a; 输…

移动UI:排行榜单页面如何设计,从这五点入手,附示例。

移动UI的排行榜单页面设计需要考虑以下几个方面&#xff1a; 1. 页面布局&#xff1a; 排行榜单页面的布局应该清晰明了&#xff0c;可以采用列表的形式展示排行榜内容&#xff0c;同时考虑到移动设备的屏幕大小&#xff0c;应该设计合理的滚动和分页机制&#xff0c;确保用户…

贪心算法.

哈夫曼树 哈夫曼树&#xff08;Huffman Tree&#xff09;&#xff0c;又称为霍夫曼树或最优二叉树&#xff0c;是一种带权路径长度最短的二叉树&#xff0c;常用于数据压缩。 定义&#xff1a;给定N个权值作为N个叶子结点&#xff0c;构造一棵二叉树&#xff0c;若该树…

普乐蛙VR航天航空体验馆知识走廊VR体验带你登陆月球

VR航天航空设备是近年来随着虚拟现实&#xff08;VR&#xff09;技术的快速发展而兴起的一种新型设备&#xff0c;它结合了航天航空领域的专业知识与VR技术的沉浸式体验&#xff0c;为用户提供了前所未有的航天航空体验。以下是对VR航天航空设备的详细介绍&#xff1a; 一、设备…

feign整合oauth2 使用笔记

编写配置类 Slf4j public class OAuth2FeignConfiguration {Value("${auth.server.access-token-uri}")private String accessTokenUri;Value("${auth.server.client-id}")private String clientId;Value("${auth.server.client-secret}")privat…

UGUI优化篇--UGUI合批

UGUI合批 UGUI合批规则概述UGUI性能查看工具合批部分的特殊例子一个白色image、蓝色image覆盖了Text&#xff0c;白色image和Text哪个先渲染 Mask合批Mask为什么会产生两个drawcallMask为什么不能合批Mask注意要点 RectMask2D为什么RecMask2D比Mask性能更好主要代码RectMask2D注…

Golang | Leetcode Golang题解之第295题数据流的中位数

题目&#xff1a; 题解&#xff1a; type MedianFinder struct {nums *redblacktree.Treetotal intleft, right iterator }func Constructor() MedianFinder {return MedianFinder{nums: redblacktree.NewWithIntComparator()} }func (mf *MedianFinder) AddNum(…

基于STM32的多协议通信系统设计与实现

在现代电子系统中&#xff0c;多协议通信能力是一种宝贵的资产&#xff0c;它允许设备与使用不同通信协议的多种外围设备进行交互。STM32微控制器因其强大的处理能力和丰富的外设支持&#xff0c;非常适合构建多协议通信系统。本文将探讨如何设计和实现一个基于STM32的多协议通…

MySQL中多表查询之外连接

首先先来介绍一下我做的两个表&#xff0c;然后再用他们两个举例说明。 -- 创建教师表 create table teachers( id_t int primary key auto_increment, -- 老师编号 name_t varchar(5) -- 姓名 ); -- 创建学生表 create table students( id_s int primary key auto_increment,…

数据结构——单链表OJ题(下)

目录 一、链表的回文结构 思路一&#xff1a;数组法 &#xff08;1&#xff09;注意 &#xff08;2&#xff09;解题 思路二&#xff1a;反转链表法 &#xff08;1&#xff09; 注意 &#xff08;2&#xff09;解题 二、相交链表 &#xff08;1&#xff09;思路&#…

优化算法:1.遗传算法(GA)及Python实现

一、定义 遗传算法就像是在模拟“优胜劣汰”的进化过程&#xff0c;通过选择最优秀的个体&#xff0c;交配产生下一代&#xff0c;并引入一定的变异&#xff0c;逐步优化解决问题。 二、具体步骤 初始化种群(Initialization)&#xff1a; 假设你要找到一个迷宫的最佳出口路径。…