在AWS EC2中部署和使用Apache Superset的方案

大纲

  • 1 Superset部署
    • 1.1 启动AWS EC2
    • 1.2 下载Superset Docker文件
    • 1.3 修改Dockerfile
    • 1.4 配置管理员
    • 1.5 结果展示
    • 1.6 检查数据库驱动
    • 1.7 常见错误处理
  • 2 Glue(可选参考)
  • 3 IAM与安全组
    • 3.1 使用AWS Athena
    • 3.2 使用AWS RedShift或AWS RDS
      • 3.2.1 查看AWS Redshift集群VPC安全组
      • 3.2.2 设置Superset所在AWS EC2实例的安全组
      • 3.2.3 添加入站规则
  • 4 Superset配置数据源并创建Dashboard
    • 4.1 连接AWS Athena
    • 4.2 连接AWS Redshift
  • 5 Superset教程

本文将讲解如何在AWS EC2中部署Apache Superset,并通过AWS Glue连接AWS S3、AWS RDS、AWS RedShift中的数据,进行可视化展现。

1 Superset部署

1.1 启动AWS EC2

启动一台Amazon Linux EC2并安装启动docker环境,需要机型为t.xlarge及以上,EBS盘20GB以上。

sudo yum update -y# install python3 gcc
sudo yum install -y python3 libpq-dev python3-dev
sudo yum install -y gcc gcc-c++# add following into ~/.bashrc
echo "export PATH=/usr/local/bin:$PATH" >> ~/.bashrc
echo "alias python=python3" >> ~/.bashrc
echo "alias pip=pip3" >> ~/.bashrc
source ~/.bashrc
python --version# install docker
sudo yum -y install docker
sudo usermod -a -G docker ec2-user
sudo systemctl start docker
sudo systemctl status docker
sudo systemctl enable docker
sudo chmod 666 /var/run/docker.sock
docker ps# install docker-compose
sudo curl -L "https://github.com/docker/compose/releases/download/1.25.4/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
sudo chmod +x /usr/local/bin/docker-compose
sudo ln -s /usr/local/bin/docker-compose /usr/bin/docker-compose
docker-compose --version

1.2 下载Superset Docker文件

sudo yum install -y git curl
git clone https://github.com/apache/incubator-superset/

1.3 修改Dockerfile

cd incubator-superset
vi Dockerfile

在末尾添加

RUN pip install PyAthenaJDBC \    #这个是athena连接&& pip install PyAthena \ #这个是athena连接&& pip install psycopg2 \&& pip install sqlalchemy-redshift # 这个是redshift连接

构建

docker-compose build
docker-compose up

1.4 配置管理员

需要配置管理员用户权限,在docker/docker-init.sh中默认创建用户admin(密码也是admin)但权限并没有更新,通过以下命令更新权限。

#进入docker
docker-compose exec superset bash
superset init

1.5 结果展示

配置成功后,Superset默认使用8088端口,使用http://<EC2 公有IP>:8088访问,默认用户名和密码均为admin 可在Dockerfile、docker中命令、管理页面更改。
在这里插入图片描述

1.6 检查数据库驱动

查看数据库驱动是否安装成功。
在这里插入图片描述
在这里插入图片描述若没有


#进入docker
docker-compose exec superset bash
#安装  athena 和redshift驱动
pip install PyAthenaJDBC \&& pip install PyAthena \&& pip install psycopg2 \&& pip install sqlalchemy-redshift

1.7 常见错误处理

build中如果出现error

ERROR: Couldn't connect to Docker daemon at http+docker://localunixsocket - is it running?

原因:

  1. docker 没有启动
sudo systemctl start docker
  1. 用户不再docker用户组里面
sudo gpasswd -a ${USER} docker

如果是第二个,请退出shell 再次登陆

2 Glue(可选参考)

  • 创建Glue
    见《基于AWS Serverless的Glue服务进行ETL(提取、转换和加载)数据分析(一)——创建Glue》
  • 数据清洗、转换
    见《基于AWS Serverless的Glue服务进行ETL(提取、转换和加载)数据分析(二)——数据清洗、转换》

3 IAM与安全组

部署Superset的AWS EC2附加的IAM角色需要有AWS Athena查询和Glue Catalog的权限,为方便起见可以赋予AthenaFullAccess和GlueFullAccess。但实际情况请按照最小权限原则来保障安全。

3.1 使用AWS Athena

如果在 Amazon Athena中运行查询时,出现 “Access Denied”(拒绝访问)错误。

Your query has the following errors:Access denied when writing output to url: s3://my-athena-result-bucket/Unsaved/2021/05/07/example_query_ID.csv . Please ensure you are allowed to access the S3 bucket. If you are encrypting query results with KMS key, please ensure you are allowed to access your KMS key

向 IAM 用户授予所需的权限。以下 IAM 策略允许源数据存储桶和查询结果存储桶的最低权限:

{"Version": "2012-10-17","Statement": [{"Effect": "Allow","Action": ["s3:ListBucket"],"Resource": ["arn:aws:s3:::【数据源的s3名称】"]},{"Effect": "Allow","Action": ["s3:GetObject"],"Resource": ["arn:aws:s3:::【数据源的s3名称】/*"]},{"Effect": "Allow","Action": ["s3:GetBucketLocation","s3:GetObject","s3:ListBucket","s3:ListBucketMultipartUploads","s3:AbortMultipartUpload","s3:PutObject","s3:ListMultipartUploadParts"],"Resource": ["arn:aws:s3:::【存储Athena查询结果的s3名称】","arn:aws:s3:::【存储Athena查询结果的s3名称】/*"]}]
}

请务必在此示例策略中替换【】中的内容。

3.2 使用AWS RedShift或AWS RDS

此处以AWS RedShift集群为例。

3.2.1 查看AWS Redshift集群VPC安全组

在这里插入图片描述

3.2.2 设置Superset所在AWS EC2实例的安全组

在这里插入图片描述
在这里插入图片描述

3.2.3 添加入站规则

在这里插入图片描述
在这里插入图片描述

4 Superset配置数据源并创建Dashboard

此处提供了AWS Athena与AWS RedShift的连接教程,其他JDBC语法请看官方文档。

4.1 连接AWS Athena

awsathena+rest://@athena.{region}.amazonaws.com.cn/<Glue数据库表>?s3_staging_dir=<用来存储查询结果的S3地址>

在这里插入图片描述
测试连接
在这里插入图片描述

4.2 连接AWS Redshift

redshift+psycopg2://<userName>:<DBPassword>@<AWS End Point>:<port>/<Database Name>

在这里插入图片描述
创建连接
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 Superset教程

  1. 简单教学
  2. superset官方文档

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/200451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【电子取证篇】汽车取证数据提取与汽车取证实例浅析(附标准下载)

【电子取证篇】汽车取证数据提取与汽车取证实例浅析&#xff08;附标准下载&#xff09; 关键词&#xff1a;汽车取证&#xff0c;车速鉴定、声像资料鉴定、汽车EDR提取分析 汽车EDR一般记录车辆碰撞前后的数秒&#xff08;5s左右&#xff09;相关数据&#xff0c;包括车辆速…

Redis击穿(热点key失效)

Redis击穿是指在高并发情况下&#xff0c;一个键在缓存中过期失效时&#xff0c;同时有大量请求访问该键&#xff0c;导致所有请求都落到数据库上&#xff0c;对数据库造成压力。这种情况下&#xff0c;数据库可能无法及时处理这些请求&#xff0c;导致性能下降甚至崩溃。 为了…

熟悉tomcat的哪些配置?

Tomcat是一种常用的Java Web服务器&#xff0c;它提供了许多配置选项来控制其行为和性能。以下是一些常见的Tomcat配置&#xff1a; 端口配置&#xff1a;你可以配置Tomcat监听的端口号&#xff0c;通常用于指定HTTP和HTTPS服务的端口。连接池配置&#xff1a;Tomcat的连接池可…

基于openEuler20.03安装openGauss5.0.0及安装DBMind

基于openEuler20.03安装openGauss5.0.0及安装DBMind 一、环境说明二、安装部署三、问题及解决 一、环境说明 虚拟机&#xff1a;VirtualBox操作系统&#xff1a;openEuler20.3LTS &#xff08;x86&#xff09;数据库&#xff1a;openGauss5.0.0 (x86)DBMind&#xff1a;dbmind…

Pytest自动化测试数据驱动yaml/excel/csv/json

数据驱动 数据的改变从而驱动自动化测试用例的执行&#xff0c;最终引起测试结果的改变。简单说就是参数化的应用。 测试驱动在自动化测试中的应用场景&#xff1a; 测试步骤的数据驱动&#xff1b;测试数据的数据驱动&#xff1b;配置的数据驱动&#xff1b; 1、pytest结合…

Linux gtest单元测试

1 安装git sudo apt-get install git2 下载googletest git clone https://github.com/google/googletest.git3 安装googletest 注意1: 如果在 make 过程中报错,可在 CMakeLists.txt 中增加如下行,再执行下面的命令: SET(CMAKE_CXX_FLAGS “-std=c++11”) 注意2: CMakeLists…

Django回顾6

目录 一.Session 1.什么是Session 2.Django中Session相关方法 3.Django中的Session配置 二.中间件 1.什么是中间件 中间件的定义 2.中间件有什么用 3.自定义中间件 process_request和process_reponse &#xff08;1&#xff09;导入 &#xff08;2&#xff09;自定义…

5G常用简称

名称缩写全称缓冲区状态报告BSRBuffer Status Report&#xff08;主小区组MCGMaster Cell groupMCG的节点MNMasternode主小区PCellPrimary Cell&#xff0c;功率余量PHRPower Headroom Report主辅小区PSCellPrimary Secondary CellSCG的节点SNSecondarynode辅小区SCellSecondar…

centos安装node 、npm 、nvm

你好&#xff0c;这是Bing。我可以帮你用nodejs写一个http服务器。&#x1f60a; 根据我的搜索结果&#xff0c;你需要使用 require 指令来加载和引入 http 模块&#xff0c;然后使用 http.createServer 方法来创建一个服务器实例&#xff0c;最后使用 listen 方法来监听一个端…

优化您的Mac体验——System Dashboard Pro for Mac(系统仪表板)

作为Mac用户&#xff0c;我们都希望能够拥有一个高效、流畅的电脑体验。然而&#xff0c;在长时间使用后&#xff0c;我们的Mac可能会变得越来越慢&#xff0c;导致我们的工作效率下降。这时候&#xff0c;System Dashboard Pro for Mac(系统仪表板)就可以派上用场了。它是一款…

JAVA常见问题解答:解决Java 11新特性兼容性问题的六个步骤

引言&#xff1a; 随着技术的不断发展&#xff0c;Java作为一种被广泛使用的编程语言&#xff0c;也在不断更新和改进。Java 11作为Java的最新版本&#xff0c;带来了许多新的特性和改进。然而&#xff0c;对于一些老旧的Java应用程序来说&#xff0c;升级到Java 11可能会带来一…

使用Rust Rayon库提升程序运行速度

本文是对 N倍性能提升&#xff01;无痛Rust并行编程&#xff1a;Rayon库初体验[1]的学习与记录 有这样一段程序&#xff0c;计算1到1亿的连续数字之和 use std::i64;fn main() { let arr:Vec<i64> (1..1_0000_0000).collect(); let result sum_of_add(&arr);…

输出SearchFacesResponse对象的JSON格式字符串回包乱码解决方案

输出SearchFacesResponse对象的JSON格式字符串设置响应内容类型为"application/json;charsetutf-8"获取响应的字符输出流将SearchFacesResponse对象转化为JSON字符串并输出。 代码片段 System.out.println(SearchFacesResponse.toJsonString(resp)); response.setC…

创建腾讯云存储桶---上传图片--使用cos-sdk完成上传

创建腾讯云存储桶—上传图片 注册腾讯云账号https://cloud.tencent.com/login 登录成功&#xff0c;选择右边的控制台 点击云产品&#xff0c;选择对象存储 创建存储桶 填写名称&#xff0c;选择公有读&#xff0c;私有写一直下一步&#xff0c;到创建 选择安全管理&#…

为什么C语言用int *a 来声明指针变量,而不是int a声明?

为什么C语言用int *a 来声明指针变量&#xff0c;而不是int &a声明&#xff1f; 在开始前我有一些资料&#xff0c;是我根据自己从业十年经验&#xff0c;熬夜搞了几个通宵&#xff0c;精心整理了一份「C语言从专业入门到高级教程工具包」&#xff0c;点个关注&#xff0c…

HTTP请求

前言 HTTP是应用层的一个协议。实际我们访问一个网页&#xff0c;都会像该网页的服务器发送HTTP请求&#xff0c;服务器解析HTTP请求&#xff0c;返回HTTP响应。如此就是我们获取资源或者上传资源的原理 HTTP请求报头格式 图片来自网络 HTTP请求报头总体有四部分&#xff1a;…

Day38| Leetcode 509. 斐波那契数 Leetcode 70. 爬楼梯 Leetcode 746. 使用最小花费爬楼梯

快补&#xff01; Leetcode 509. 斐波那契数 题目链接 509 斐波那契数 class Solution { public:int fib(int n) {if(n<1){return n;}vector<int> dp(n1);dp[0] 0;dp[1] 1;for(int i2;i<n;i){dp[i] dp[i-1]dp[i-2];}return dp[n];} }; Leetcode 70. 爬楼梯 …

SR锁存器—>带EN的SR锁存器—>D锁存器—>边沿触发式D触发器—>寄存器

其实选择与非门当做构成SR锁存器的基本逻辑电路是有漏洞的&#xff0c;所以才导致了后续的都为低电平的时候&#xff0c;Q和非Q都是亮起的。但是我们设计的初衷是&#xff1a;Q和非Q是互斥的&#xff0c;是不能同时亮起的&#xff0c;且为了达到这一点&#xff0c;要使得其中两…

leetCode 47. 全排列 II + 回溯算法 + 图解 + 笔记

给定一个可包含重复数字的序列 nums &#xff0c;按任意顺序 返回所有不重复的全排列 示例 1&#xff1a; 输入&#xff1a;nums [1,1,2] 输出&#xff1a; [[1,1,2],[1,2,1],[2,1,1]] 示例 2&#xff1a; 输入&#xff1a;nums [1,2,3] 输出&#xff1a;[[1,2,3],[1,3,2…

mysql数据库的字符集和字符校对规则

所谓字符集就是字符的编码&#xff0c;是怎么保存的&#xff0c;例如UTF-8。 所谓字符校对规则是指按照什么规则来比较字符&#xff0c;打个简单的比方&#xff0c;比较字符A和a的时候&#xff0c;忽略大小写&#xff0c;这就是一条规则。 详情可以查询mysql官网&#xff1a;h…