shell 实现对Hive表字段脱敏写入新表

数据安全管理,本shell 实现对hive源表敏感字段进行md5加密,然后写入新表;

read -p 交互输入:要脱敏的hive表、分区,示例: test_db.table_name 20240331

生成更新hive分区表的hql: insert overwrite table xxx

备注:仅供参考,可对本shell代码,做进一步修改调整,满足自己的需求。

#!/bin/bash
# 2024.04.19
read -p "请按示例格式输入要脱敏的hive表、分区,示例: test_db.table_name 20240331 ### " table etl_date#获取库名、表名,存入变量
dbname=`echo $table |awk -F. '{print $1}'`
tbl=`echo $table |awk -F. '{print $2}'`target_db=import_db#首先判断目标表是否存在
hdfs dfs -test -e /user/hive/warehouse/${target_db}.db/$tbl
if [ $? -eq 0 ] ;thenecho "${target_db}.$tbl 目标库已经存在...,请确认表结构是否与源表一致"else# 1、 在 ${target_db} like 建表
echo "1、 create table ${target_db}.$tbl like $table;"
beeline -e "create table ${target_db}.$tbl like $table;"# 2、 把hive表,所有字段 切出来 备用
beeline --showHeader=false --outputformat=tsv2 -e "desc $table" |awk '{print $1}' >desc_field.out
echo "desc $table .... beeline ok"#############################################md5表字段加密开始#############################################
num=`cat desc_field.out |grep NULL |wc -l`
if [ $num == 1 ] ;then# tac desc_field.out |sed -n '6,$p' |tac >desc_field_final.outcat desc_field.out |sed '/NULL/,$d' >desc_field_final.out
elsecat desc_field.out >desc_field_final.out
fi# 需要脱敏的敏感字段,手动添加维护
sensitive_fields=('name' 'phone' 'iden' 'tel')fields=`cat desc_field_final.out`
m=`cat desc_field_final.out |wc -l`
flag=0md5_fields=""
echo $md5_fields
# 嵌套循环,拿 表字段 与 敏感字段 进行匹配,表字段如果是敏感字段,进行MD5 加密,拼接 sql 字符串
for j in $fields
dobiaoji=1# 1.匹配到,进行md5加密,拼接;标记置为0,跳出内循环;2.没有匹配到,继续下一轮内循环;length=${#sensitive_fields[*]}# length 控制内循环的次数for ((i=0;i<${length};i++))doecho "i=$i"if [ $j == ${sensitive_fields[i]} ]thenmd5_fields=${md5_fields}",md5($j) as $j"biaoji=0breakelsecontinuefidone# 内循环执行一轮结束,对 biaoji 的值进行判断,为1,说明 表字段 非敏感字段,进行拼接if [ $biaoji == 1 ]thenmd5_fields=${md5_fields}","$jfiecho $md5_fields((flag++))echo "flag=$flag"# 外循环次数 等于 表字段数,外循环完成,拼接 md5_fields 完成if [ $flag -eq $m ]then# 删除 md5_fields 串里第一个逗号,正确的 md5_fields 拼接完成md5_fields=`echo $md5_fields | sed 's/,//'`echo $md5_fieldsfidone
#############################################md5表字段加密结束##########################################################分区###############
in_values="'$etl_date'"
echo "in_values=$in_values"# in_values=""
# for i in 20240131,20240228,20240331
# do
#     in_values=$in_values",'$j'"
# done
# # ,'20240131','20240228','20240331'
# in_values=`echo $in_values |sed 's/,//'`
# # '20240131','20240228','20240331'
# echo "in_values=$in_values"
###############分区################ 3、对分区字段个数计数 如果是分区表,取出分区字段
partition_field_num= `sed -n '/#/,$p' desc_field.out |grep ^[^#] |wc -l`
echo "partition_field_num=$partition_field_num"sql="insert overwrite table $target_db.$tbl "
echo "初始:$sql"# 4、生成更新分区数据的语句;分区字段个数不同,生成不同的 insert overwrite table
if [ $partition_field_num -eq 2 ];thenpartition1=$(echo `sed -n '/#/,$p' desc_field.out |grep ^[^#]` |awk '{print $1}')partition2=$(echo `sed -n '/#/,$p' desc_field.out |grep ^[^#]` |awk '{print $2}')sql=$sql"partition($partition1,$partition2) select $md5_fields from $table where $partition1 in ($in_values);"echo "拼接2个分区后:$sql"elif [ $partition_field_num -eq 1 ];thenpartition1=$(echo `sed -n '/#/,$p' desc_field.out |grep ^[^#]` |awk '{print $1}')sql=$sql"partition($partition1) select $md5_fields from $table where $partition1 in ($in_values);"echo "拼接1个分区后:$sql"elsesql=$sql"select $md5_fields from $table;"echo "无分区:$sql"fi# 5、生成 update_partitions.sql
cat <<-'EOF' >update_partitions.sql
set hive.execution.engine=tez;
set tez.queue.name=root.default;
set hive.tez.java.opts=-Xmx6144m;
set hive.tez.container.size=8192;
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.dynamic.partitions.pernode=1000;
EOF
echo "$sql" >>update_partitions.sqlfi

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/828616.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Postman之页面简介 V9.31.0

Postman之页面简介 V9.31.0 一、顶部栏二、左部栏三、中部栏四、下部栏 一、顶部栏 &#xff08;1&#xff09;new选项框&#xff0c;生成新建请求、集合、环境等 &#xff08;2&#xff09;import选项框&#xff0c;可以导入文件、文件夹、链接、文本信息等 &#xff08;3&…

ros2_control【B站WMGIII教学学习记录】1

资源 https://www.bilibili.com/video/BV1ku411G7UR? 学习过程中存在bug&#xff0c;记录一下 1 Q:"package ‘joint_state_publisher_gui’ not found, searching: [/home A: sudo apt install ros-humble-joint-state-publisher2 https://fishros.org.cn/forum/to…

go语言并发实战——日志收集系统(八) go语言操作etcd以及利用watch实现对键值的监控

有关包的安装 我们要实现go语言对第三方包的操作需要我们下载第三方包go.etcd.io&#xff0c;下载命令&#xff1a; go get go.etcd.io/etcd/client/v3 ectd的put与get操作 相关函数说明与示例 我们想实现对etcd进行简单的操作的步骤还是比较简单的&#xff0c;在我上一篇文…

爬虫抓取网站数据

Fiddler 配置fiddler工具结合浏览器插件 配置fiddler Tools--Options 抓包技巧 谷歌浏览器开启无痕浏览,使用SwitchyOmega配置好代理端口 Ctrl x 清理所有请求记录,可以删除指定不需要日志方便观察 设置按请求顺序 观察cookie,观察请求hesder cookie和row返回结果 Swit…

【C语言】深入理解KMP算法及C语言实现

一、KMP算法简介 KMP算法&#xff08;Knuth-Morris-Pratt算法&#xff09;是一种高效的字符串匹配算法&#xff0c;由Donald Knuth、James H. Morris和 Vaughan Pratt共同发明。KMP算法的核心思想是当一次字符比较失败时&#xff0c;利用已经得到的部分匹配信息&#xff0c;将模…

vue-project-tree vue3 树形结构展示组件

GitHub&#xff1a;vue-project-tree by one-ccs Gitee&#xff1a;vue-project-tree by one-ccs 遵循 MIT 开源协议 文章目录 vue-project-tree一、使用二、API1、属性2、事件3、方法4、插槽 vue-project-tree 使用 Vue3 TS 实现的树形结构展示组件&#xff0c;有拖拽、排序…

服务器数据恢复—StorNext文件系统下raid5阵列数据恢复案例

服务器数据恢复环境&#xff1a; 昆腾某型号存储&#xff0c;8个存放数据的存储柜1个存放元数据的存储柜。 元数据存储&#xff1a;8组RAID1阵列1组RAID10阵列4个全局热备硬盘。 数据存储&#xff1a;32组RAID5阵列&#xff0c;划分2个存储系统。 服务器故障&#xff1a; 数据…

《QT实用小工具·四十一》无边框窗口

1、概述 源码放在文章末尾 该项目实现了无边框窗口效果&#xff0c;项目demo如下所示&#xff1a; 项目代码如下所示&#xff1a; #include "framelesswindow.h" #include <QGuiApplication> #include <QScreen>#ifdef Q_OS_WIN #include <window…

单例设计模式c++

什么是单例模式&#xff1f; 单例模式指在整个系统生命周期里&#xff0c;保证一个类只能产生一个实例&#xff0c;确保该类的唯一性。 单例模式分类 单例模式可以分为懒汉式和饿汉式&#xff0c;两者之间的区别在于创建实例的时间不同&#xff1a; 懒汉式&#xff1a;指系…

Mac 安装Nodejs

Nodejs介绍 简单的说 Node.js 就是运行在服务端的 JavaScript。 Node.js 是一个基于 Chrome JavaScript 运行时建立的一个平台。 Node.js 是一个事件驱动 I/O 服务端 JavaScript 环境&#xff0c;基于 Google 的 V8 引擎&#xff0c;V8 引擎执行 Javascript 的速度非常快&am…

带你走进不一样的策略模式

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 带你走进不一样的策略模式 前言策略模式简介概念解释 策略模式的结构策略模式优点项目实践之bean策略构思业务策略实现策略接口实现策略上下文业务实现 前言 在编程的世界里&#xff0c;每一次按键都…

刷代码随想录有感(46):平衡二叉树

这道题给我的教训&#xff1a;别轻视递归。 题干&#xff1a; 代码&#xff1a; int geiHeight(TreeNode* node){if(node NULL)return 0;int leftHeight getHeight(node -> left);if(leftHeight -1) return -1;int rightHeight getHeight(node -> right);if(rightH…

计算机网络基础认识

本篇文章是我在B站上看到关于计算机网络的介绍视频收到的启发。本篇文章的内容来自【网络】半小时看懂<计算机网络>_哔哩哔哩_bilibili 一、物理层 从常理来说&#xff0c;进行连个设备之间的通讯&#xff0c;首先最容易想到的就是使用一根线连接两个设备进行通讯。但是…

【MAC】删除自带的输入法

问题描述 平常使用mac办公&#xff0c;经常会非预期切换到自带的ABC输入法&#xff0c;令人很困惑。 解决方案&#xff1a; 1、下载PlistEdit Pro 链接&#xff1a;https://www.fatcatsoftware.com/plisteditpro/ 2、执行命令 sudo open ~/Library/Preferences/com.apple.…

手把手教会你做属于自己的网站《保姆级教程》

手把手教会你做属于自己的网站《保姆级教程》 前言开始教程特别说明下期内容预报 前言 什么是个人网站&#xff1f; 个人网站是指因特网上一块固定的面向全世界发布消息的地方&#xff0c;通常由域名&#xff08;也就是网站地址&#xff09;、程序和网站空间构成&#xff0c;并…

数字信号处理(MATLAB入门例子)

&#xff08;代码主要来源于这本书&#xff09; 1.用MATLAB产生32个正弦波样本&#xff0c;A2&#xff0c;f1000Hz&#xff0c;以及fs8000Hz % % Example 2.1 Sinewave generator % This example generate 32 sine sample, % plot it and save in sine.dat file% For the boo…

【AI相关】《这就是ChatGPT》读书笔记

《这就是ChatGPT》 斯蒂芬沃尔弗拉姆 这本书用了两天就一口气读完了&#xff0c;通篇读完后&#xff0c;这本书主要是介绍了ChatGPT怎么能做到生成内容的一些背后的原理逻辑&#xff0c;总结一下这本书是ChatGPT通过大量的数据&#xff08;这些数据来自网络、书籍等等类似于数据…

低代码技术的全面应用:加速创新、降低成本

引言 在当今数字化转型的时代&#xff0c;企业和组织面临着不断增长的应用程序需求&#xff0c;以支持其业务运营和创新。然而&#xff0c;传统的软件开发方法通常需要大量的时间、资源和专业技能&#xff0c;限制了企业快速响应市场变化和业务需求的能力。在这样的背景下&…

混合现实(MR)技术的应用场景

混合现实&#xff08;MR&#xff09;技术将虚拟世界和现实世界融合在一起&#xff0c;用户可以在现实世界中看到和与虚拟物体进行交互&#xff0c;同时还可以感知周围的真实环境。MR技术具有广阔的应用前景&#xff0c;可以应用于各行各业。以下是一些MR的应用场景。北京木奇移…

Rust基本数据类型-切片

一、切片是什么&#xff0c;怎么用 1、切片是什么 切片并不是 Rust 独有的概念&#xff0c;在 Go 语言中就非常流行&#xff0c;它允许你引用集合中部分连续的元素序列&#xff0c;而不是引用整个集合。 对于字符串而言&#xff0c;切片就是对 String 类型中某一部分的引用&…