【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并

这里我们直接用实例来讲解,Hive外部分区表有单分区多分区的不同情况,这里我们针对不同情况进行不同的方式处理。

  • 利用overwrite合并单独日期的小文件

1、单分区

# 开启此表达式:`(sample_date)?+.+` 
set hive.support.quoted.identifiers=none;# 此sql是将20230713分区的小文件进行合并
# `(sample_date)?+.+`:表示select 出除了sample_date分区字段以外的所有字段(字段较多的时候用这种方式很便捷)
insert overwrite table `test`.`table` 
partition(sample_date='20230713') 
select `(sample_date)?+.+` 
from `test`.`table` where sample_date='20230713';

2、多分区

# 开启此表达式:`(sample_date|msgtype)?+.+`
set hive.support.quoted.identifiers=none;# 此sql是将20230713分区的小文件进行合并(但是注意还有子分区:msgtype)
# `(sample_date|msgtype)?+.+`:表示select 出除了sample_date和msgtype这两个分区字段以外的所有字段(字段较多的时候用这种方式很便捷)
insert overwrite table `test`.`table` 
partition(sample_date='20230713') 
select `(sample_date|msgtype)?+.+` 
from `test`.`table` where sample_date='20230713';
  • 利用overwrite合并一定分区范围内的小文件

1、单分区

注意: 合并一定分区范围内的小文件,select 后必须是 *,否则会报错。

insert overwrite table `test`.`table` 
partition(sample_date) 
select *
from `test`.`table` 
where sample_date between '20230712' and '20230713';

2、多分区

注意: 合并一定分区范围内的小文件不管单分区还是多分区,select 后必须都是 *,否则会报错。

insert overwrite table `test`.`table` 
partition(sample_date, partition_name) 
select * 
from `test`.`table` 
where sample_date between '20230802' and '20230803';

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/70291.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS 中的 display 和 visibility

CSS 中的 display 和 visibility 都可以设置一个元素在浏览器中的显示或隐藏效果。 display: 隐藏某个元素时,不会占用任何空间。换句话讲,不会影响布局。visibility: 隐藏某个元素时,仍需占用与未隐藏之前一样的空间。换句话讲,…

在VR全景中嵌入3D模型有哪些优势?

现阶段,很多商企都会引入VR全景展示来宣传推广自己的产品、服务以及环境,但是环境展示凸显的沉浸式体验只是 VR全景一部分的价值所在,商企使用VR全景还有一个优势就是互动性,通过丰富多样的互动性,让用户同VR场景中的物…

Ab3d.DXEngine 6.0 Crack 2023

Ab3d.DXEngine 不是另一个游戏引擎(如Unity),它强迫您使用其游戏编辑器、其架构,并且需要许多技巧和窍门才能在标准 .Net 应用程序中使用。Ab3d.DXEngine 是一个新的渲染引擎,它是从头开始构建的,旨在用于标…

汽车信息安全导图

尊敬的读者们,欢迎来到我的信息安全专栏。在这个专栏中,我将结合我在信息安全领域的开发经验,为大家深入浅出地讲解信息安全的重要性和相关知识点。 在数字化时代,信息成为了我们生活中不可或缺的一部分。我们的个人信息、交易数据、社交网络、公司机密等都以电子形式存储…

力扣(LeetCode)算法_C++——两个列表的最小索引总和

假设 Andy 和 Doris 想在晚餐时选择一家餐厅,并且他们都有一个表示最喜爱餐厅的列表,每个餐厅的名字用字符串表示。 你需要帮助他们用最少的索引和找出他们共同喜爱的餐厅。 如果答案不止一个,则输出所有答案并且不考虑顺序。 你可以假设答案…

vue和h5如何设置网页端和窗口大小同步缩放

在HTML文件中加入以下代码 <body style"transform-origin: top left; -moz-transform-origin: top left; font-family: Microsoft YaHei; width: 100%; height: 100%; margin: 0px; overflow: hidden; background-color: rgb(0,42,77);" οnresize"resize();…

Docker技术入门 | Part01:Docker简介

文章目录 1 虚拟化技术2 Docker概述2.1 Docker能解决的问题2.2 Docker介绍2.3 为什么使用Docker2.4 Docker特点2.5 Docker应用场景 3 Docker与虚拟机对比3.1 Docker和虚拟机组成结构3.2 Docker和虚拟机的不同点 4 Docker基本概念4.1 Docker引擎4.2 Docker基本架构4.3 Docker容器…

使用llvm 编译最新的linux 内核(LoongArch)

1. 准备交叉工具链 llvm 使用了最新的llvm-17, 编译方法见:编译LoongArch的llvm交叉工具链 gcc 从linux 官方下载&#xff1a;http://mirrors.edge.kernel.org/pub/tools/crosstool/files/bin/x86_64/13.2.0/x86_64-gcc-13.2.0-nolibc-loongarch64-linux.tar.xz 发布llvm和g…

css中flex和flex-grow的区别

设置了1个class为parent且宽度为700px的div父级元素&#xff1b; 它有3个子元素&#xff0c;分别宽高为100px&#xff1b; 其中item2的元素flex值为1&#xff0c;item3的元素flex值为2 <!DOCTYPE html> <html lang"en"> <head><style>.pare…

glibc2.35-通过tls_dtor_list劫持exit执行流程

前言 glibc2.35删除了malloc_hook、free_hook以及realloc_hook&#xff0c;通过劫持这三个hook函数执行system已经不可行了。 传统堆漏洞利用是利用任意地址写改上上述几个hook从而执行system&#xff0c;在移除之后则需要找到同样只需要修改某个地址值并且能够造成程序流劫持…

【解决】多卡服务器GPU不能多用户同时使用的问题

一台多卡服务器&#xff0c;为提高利用效率&#xff0c;通常有多个用户使用。 假设有一台服务器A&#xff0c;分别有0&#xff0c;1&#xff0c;2&#xff0c;3四张卡&#xff0c;我们有两个用户&#xff1a;甲和乙。 当甲启动卡0时&#xff0c;乙想用卡1&#xff0c;2&#…

基于网络表示学习的 新闻推荐算法研究与系统实现

摘要 第1章绪论 新闻推荐通常是利用用户的阅读行为和习惯、阅读选择和爱好等信息,为 用户推荐新闻内容。新闻推荐能够减少用户在数量庞大数据信息中获取信息的 时间消耗,从而能够缓解“信息过载[7]”的难题。以文本为内容的新闻,和商品、 电影、短视频等推荐系统相比,新闻推…

Navicat使用HTTP通道服务器进行连接mysql数据库(超简单三分钟完成),centos安装nginx和php,docker安装nginx+php合并版

序言 因为数据库服务器在外网是不能直接连接访问的&#xff0c;但是可以访问网站&#xff0c;网站后台就能访问数据库&#xff0c;所以在此之前&#xff0c;访问数据库的数据是一件非常麻烦的事情&#xff0c;在平时和运维的交流中发现&#xff0c;他们会使用ssh通道进行连接访…

整车电子电器架构和自动驾驶架构的区别

整车电子电器架构和自动驾驶架构的区别&#xff1a; 范围不同&#xff1a; 整车电子电器架构是面向整车电子电器部件的通信、网络和诊断&#xff0c;包含车身、动力、底盘、娱乐和电器等系统&#xff1b;自动驾驶架构是面向智能网联的驾驶辅助功能或高度自动驾驶功能系统的功…

c语言练习41:深入理解字符串函数strlen strcpy strcat

深入理解字符串函数strlen strcpy strcat 模拟实现&#xff1a;”strlen strcpy strcat strlen strcat: #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<assert.h> strlen 1.通过指针移动模拟 //int my_strlen(char* str) { // size_t c…

记录--CSS 滚动驱动动画 scroll()

这里给大家分享我在网上总结出来的一些知识&#xff0c;希望对大家有所帮助 CSS 滚动驱动动画 scroll() animation-timeline 通过 scroll() 指定可滚动元素与滚动轴来为容器动画提供一个匿名的 scroll progress timeline. 通过元素在顶部和底部(或左边和右边)的滚动推进 scroll…

高教社杯数模竞赛特辑论文篇-2018年A题:高温作业服设计(附获奖论文及MATLBA代码)

目录 【摘要】 1 问题重述 1.1 问题背景 1.2 求解问题 2 问题分析 2.1 问题一分析

2309docx07样式

使用风格 访问风格 使用"Document.styles"属性访问风格: document Document() styles document.styles styles <docx.styles.styles.Styles object at 0x10a7c4f50>Styles对象可字典访问风格: styles["Normal"] <docx.styles.style._Paragr…

Android图形-组件-比较与理解

目录 引言 BufferQueue 和 Gralloc 概念 源码位置&#xff1a; 图形缓冲区的流转情况&#xff1a; BufferQueue 的特性&#xff1a; BufferQueue的跟踪工具-systrace&#xff1a; Gralloc 受保护的缓冲区 Surface 和 SurfaceHolder Canvas rendering SurfaceHolder…

【C++基础】4. 变量

文章目录 【 1. 变量的定义 】【 2. 变量的声明 】示例 【 3. 左值和右值 】 变量&#xff1a;相当于是程序可操作的数据存储区的名称。在 C 中&#xff0c;有多种变量类型可用于存储不同种类的数据。C 中每个变量都有指定的类型&#xff0c;类型决定了变量存储的大小和布局&am…