七、深入 Hive DDL:管理表、分区与洞察元数据

作者:IvanCodes
日期:2025年5月13日
专栏:Hive教程

内容导航

      • 一、表的 DDL 操作 (非创建)
      • 二、分区的 DDL 操作
      • 三、洞察元数据:SHOW 命令的威力
      • 结语:DDL 与 SHOW,Hive 管理的双翼
      • 练习题
        • 一、选择题
        • 二、代码题
      • 练习题答案
        • 一、选择题答案
        • 二、代码题答案

在 Apache Hive 中,数据定义语言 (DDL) 不仅仅局限于创建表 (CREATE TABLE)。为了有效地管理和维护数据仓库中的数据结构,Hive 提供了一系列丰富的 DDL 命令来修改表属性、管理分区以及查看元数据信息。本文将重点介绍这些核心的 DDL 操作常用的 SHOW 命令,帮助您更自如地驾驭 Hive。

一、表的 DDL 操作 (非创建)

一旦表被创建,我们经常需要对其结构或属性进行调整

  1. ALTER TABLE ... RENAME TO:重命名表
    用于修改现有表的名称。
    语法:
ALTER TABLE old_table_name RENAME TO new_table_name;

案例:

ALTER TABLE user_logs RENAME TO application_logs;
  1. ALTER TABLE ... ADD COLUMNS:添加列
    向表中添加新的列。新添加的列会出现在现有列之后,或者如果表有分区,会出现在非分区列的末尾,分区列之前。
    语法:
ALTER TABLE table_name ADD COLUMNS (new_col1_name data_type [COMMENT 'comment'], new_col2_name data_type [COMMENT 'comment'], ...);

案例:

ALTER TABLE application_logs ADD COLUMNS (ip_address STRING COMMENT 'User IP address', browser_info STRING);
  1. ALTER TABLE ... CHANGE COLUMN:修改列
    可以修改列的名称、数据类型、注释以及在表中的位置。这是一个非常灵活但也需要谨慎使用的操作,特别是修改数据类型时,需要考虑数据兼容性。
    语法:
ALTER TABLE table_name CHANGE COLUMN old_col_name new_col_name new_data_type [COMMENT 'comment'] [FIRST | AFTER existing_col_name];

案例:将 browser_info 列重命名为 client_agent 并移动到 ip_address 列之后

ALTER TABLE application_logs CHANGE COLUMN browser_info client_agent STRING COMMENT 'Client user agent' AFTER ip_address;
  1. ALTER TABLE ... REPLACE COLUMNS:替换所有列
    此操作会移除表中所有现有的非分区列,并用指定的新列集合替换它们。这是一个具有破坏性的操作。
    语法:
ALTER TABLE table_name REPLACE COLUMNS (new_col1_name data_type [COMMENT 'comment'], ...);

案例:(谨慎使用)

-- 假设要完全重构 product_details 表的列
-- ALTER TABLE product_details REPLACE COLUMNS (item_id INT, item_name STRING, price DECIMAL(8,2));
  1. ALTER TABLE ... SET TBLPROPERTIES:设置表属性
    用于添加或修改表的元数据属性,例如注释、是否为外部表(虽然通常在创建时定义)等。
    语法:
ALTER TABLE table_name SET TBLPROPERTIES ('property_name' = 'property_value', ...);

案例:给表添加一个描述性注释

ALTER TABLE application_logs SET TBLPROPERTIES ('comment' = 'System application access logs.');
  1. DROP TABLE:删除表
    用于删除一个已存在的表。对于内部表,会同时删除元数据和 HDFS 上的数据;对于外部表,仅删除元数据。
    语法:
DROP TABLE [IF EXISTS] table_name [PURGE];
  • IF EXISTS:如果表不存在,命令不会报错。
  • PURGE:删除表时,数据不会进入 HDFS 回收站(如果启用了回收站)。
    案例:删除一个名为 old_temp_data 的表,如果它存在的话
DROP TABLE IF EXISTS old_temp_data;
  1. TRUNCATE TABLE:清空表数据
    删除表中的所有行,但保留表结构和元数据。对于分区表,可以指定清空特定分区的数据。
    语法:
TRUNCATE TABLE table_name [PARTITION (partition_spec)];

案例:清空 staging_area 表的所有数据

TRUNCATE TABLE staging_area;

二、分区的 DDL 操作

分区是 Hive 中重要的性能优化手段

  1. ALTER TABLE ... ADD PARTITION:添加分区
    为一个已存在的分区表添加新的分区。可以同时指定分区的存储位置。
    语法:
ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION (partition_col1=val1, partition_col2=val2, ...) [LOCATION 'hdfs_path_to_partition_data']
[PARTITION (partition_col1=val3, partition_col2=val4, ...) [LOCATION '...'] ...];

案例:为 application_logs 表(假设按 dtcountry 分区)添加一个新分区

-- 假设 application_logs 表已按 (dt STRING, country STRING) 分区
ALTER TABLE application_logs ADD IF NOT EXISTS PARTITION (dt='2023-11-15', country='US') LOCATION '/data/logs/app/2023-11-15/US';
  1. ALTER TABLE ... DROP PARTITION:删除分区
    从分区表中删除一个或多个分区。与 DROP TABLE 类似,对于内部表的分区,会删除元数据和数据;对于外部表的分区,通常只删除元数据(行为可能受 Hive 版本和配置影响)。
    语法:
ALTER TABLE table_name DROP [IF EXISTS] PARTITION (partition_col1=val1, ...), PARTITION (partition_col1=val2, ...) [PURGE];

案例:删除 application_logs 表的特定分区

ALTER TABLE application_logs DROP IF EXISTS PARTITION (dt='2023-01-01', country='CA');
  1. ALTER TABLE ... RENAME PARTITION:重命名分区(较新版本支持)
    修改一个现有分区的分区键值。这在需要更正错误的分区值或调整分区策略时很有用。
    语法:
ALTER TABLE table_name PARTITION (partition_col1=old_val1, ...) RENAME TO PARTITION (partition_col1=new_val1, ...);

案例:将分区 dt='2023-OCT' 重命名为 dt='2023-10'

-- 假设表 sales_monthly 按 (dt STRING) 分区
ALTER TABLE sales_monthly PARTITION (dt='2023-OCT') RENAME TO PARTITION (dt='2023-10');
  1. ALTER TABLE ... EXCHANGE PARTITION:交换分区(高级操作)
    允许在两个具有相同表结构(列定义、文件格式等)的表之间原子地交换一个或多个分区的数据和元数据。常用于数据加载和发布的场景。
    语法:
ALTER TABLE table_A EXCHANGE PARTITION (partition_spec) WITH TABLE table_B;

案例:将 staging_table 的一个分区数据交换到 production_table

-- 假设 staging_table 和 production_table 结构相同且都按 (load_date DATE) 分区
ALTER TABLE production_table EXCHANGE PARTITION (load_date='2023-11-16') WITH TABLE staging_table;

三、洞察元数据:SHOW 命令的威力

SHOW 命令是查看 Hive 元数据信息必备工具

  1. SHOW DATABASESSHOW SCHEMAS:列出所有数据库
    语法:
SHOW DATABASES;
SHOW SCHEMAS;
SHOW DATABASES LIKE 'pattern*'; -- 支持通配符

案例:

SHOW DATABASES;
SHOW DATABASES LIKE 'prod_*';
  1. SHOW TABLES [IN database_name]:列出数据库中的表
    语法:
SHOW TABLES; -- 列出当前数据库的表
SHOW TABLES IN my_database;
SHOW TABLES LIKE '*_logs'; -- 支持通配符

案例:

USE default;
SHOW TABLES;
SHOW TABLES IN staging_db LIKE 'temp_*';
  1. SHOW PARTITIONS table_name [PARTITION(partition_spec)]:列出表的分区
    语法:
SHOW PARTITIONS table_name;
SHOW PARTITIONS table_name PARTITION(country='US'); -- 列出指定分区下的子分区(如果有多级分区)

案例:

SHOW PARTITIONS application_logs;
SHOW PARTITIONS application_logs PARTITION(dt='2023-11-15');
  1. SHOW COLUMNS FROM table_nameDESCRIBE table_name:显示表的列信息
    语法:
SHOW COLUMNS FROM table_name;
DESCRIBE table_name;

案例:

DESCRIBE application_logs;
  1. DESCRIBE FORMATTED table_nameDESCRIBE EXTENDED table_name:显示详细的表元数据
    提供比 DESCRIBE 更全面的信息,包括存储信息、分区键、表属性等。
    语法:
DESCRIBE FORMATTED table_name;
DESCRIBE EXTENDED table_name;

案例:

DESCRIBE FORMATTED application_logs;
  1. SHOW CREATE TABLE table_name:显示创建表的 DDL 语句
    这对于复制表结构或理解表是如何创建的非常有用。
    语法:
SHOW CREATE TABLE table_name;

案例:

SHOW CREATE TABLE application_logs;
  1. SHOW TBLPROPERTIES table_name [('property_name')]:显示表的属性
    语法:
SHOW TBLPROPERTIES table_name;
SHOW TBLPROPERTIES table_name ('comment'); -- 显示特定属性的值

案例:

SHOW TBLPROPERTIES application_logs;
SHOW TBLPROPERTIES application_logs ('comment');

结语:DDL 与 SHOW,Hive 管理的双翼

熟练运用 Hive 的各类 DDL 操作SHOW 命令,是高效管理 Hive 数据仓库、优化查询性能以及排查问题基础。从调整表结构精细化管理分区,再到深入洞察元数据,这些
命令共同构成数据工程师与 Hive 交互的日常语言。通过不断的实践,您将更加得心应手驾驭这个强大的数据工具

在这里插入图片描述
在这里插入图片描述


练习题

一、选择题
  1. 以下哪个命令用于将 Hive 表 old_log 重命名为 archived_log
    A. RENAME TABLE old_log TO archived_log;
    B. ALTER TABLE old_log RENAME TO archived_log;
    C. MODIFY TABLE old_log NAME archived_log;
    D. UPDATE TABLE old_log SET NAME = archived_log;

  2. 要查看表 employees 的详细元数据信息,包括存储格式和表属性,应使用哪个命令?
    A. SHOW TABLE employees;
    B. DESCRIBE employees;
    C. SHOW CREATE TABLE employees;
    D. DESCRIBE FORMATTED employees;

  3. 哪个命令用于从分区表 daily_sales 中删除 dt='2023-01-15' 这个分区?
    A. DELETE PARTITION (dt='2023-01-15') FROM daily_sales;
    B. DROP PARTITION daily_sales (dt='2023-01-15');
    C. ALTER TABLE daily_sales DROP PARTITION (dt='2023-01-15');
    D. TRUNCATE TABLE daily_sales PARTITION (dt='2023-01-15');

二、代码题
  1. 场景:你有一个名为 customer_profiles 的表,当前包含列 customer_id INT, name STRING, email STRING
    要求

    • 向该表添加一个新的列 phone_number STRING,并添加注释 ‘Customer contact phone number’。
    • 修改 email 列的名称为 email_address,并将其数据类型更改为 STRING(假设它已经是STRING,这里仅演示改名)。

    请编写完成上述操作的 HQL 语句。

  2. 场景:你有一个按 log_date DATEevent_type STRING 分区的表 event_stream
    要求

    • 列出 event_stream 表中所有 log_date 为 ‘2023-11-16’ 的分区。
    • 显示 event_stream 表的完整创建 DDL 语句。

    请编写完成上述操作的 HQL 语句。


练习题答案

一、选择题答案
  1. B. ALTER TABLE old_log RENAME TO archived_log;
  2. D. DESCRIBE FORMATTED employees;
  3. C. ALTER TABLE daily_sales DROP PARTITION (dt='2023-01-15');
二、代码题答案
  1. 修改 customer_profiles 表结构:
-- 添加新列
ALTER TABLE customer_profiles ADD COLUMNS (phone_number STRING COMMENT 'Customer contact phone number');-- 修改列名(和类型,如果需要的话)
ALTER TABLE customer_profiles CHANGE COLUMN email email_address STRING;
  1. 查看 event_stream 表信息:
-- 列出特定分区下的子分区 (这里假设 event_type 是子分区)
SHOW PARTITIONS event_stream PARTITION(log_date='2023-11-16');-- 显示表的创建DDL
SHOW CREATE TABLE event_stream;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/79751.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【 Redis | 实战篇 短信登录 】

前言: 主要完成了基于Session实现登录,解决集群的Session共享问题,从而实现了基于Redis来实现共享Session登录 1.基于Session实现登录 1.1.发送短信验证码 步骤: 前端提交手机号 》校验手机号 》不符合返回错误信息&#xff0…

蓝桥杯14届国赛 合并数列

问题描述 小明发现有很多方案可以把一个很大的正整数拆成若干正整数的和。他采取了其中两种方案,分别将他们列为两个数组 {a1,a2,...,an} 和 {b1,b2,...,bm}。两个数组的和相同。 定义一次合并操作可以将某数组内相邻的两个数合并为一个新数,新数的值是…

Doris和Clickhouse对比

目录 一、Doris和Clickhouse对比1. 底层架构**DorisClickHouse** 2. 运行原理DorisClickHouse 3. 使用场景DorisClickHouse 4. 优缺点对比总结 二、MPP架构和Shared-Nothing 架构对比1. 什么是 MPP 架构?定义特点典型代表 2. 什么是 Shared-Nothing 架构&#xff1f…

niushop单商户V5多门店版V5.5.0全插件+商品称重、商家手机端+搭建环境教程

一.系统介绍 【全开源】niushop单商户V5多门店版V5.5.0版本,我看很多人都想要 商品称重、商家手机端等插件这套是全插件版本,整合起来本博主也花了不少啦~ Niushop系统是应用thinkphp6开发的完善的电商系统,拥有完善的商品机制,…

内存、磁盘、CPU区别,Hadoop/Spark与哪个联系密切

1. 内存、磁盘、CPU的区别和作用 1.1 内存(Memory) 作用: 内存是计算机的短期存储器,用于存储正在运行的程序和数据。它的访问速度非常快,比磁盘快几个数量级。在分布式计算中,内存用于缓存中间结果、存储…

Jenkins linux安装

jenkins启动 service jenkins start 重启 service jenkins restart 停止 service jenkins stop jenkins安装 命令切换到自己的下载目录 直接用命令下载 wget http://pkg.jenkins-ci.org/redhat-stable/jenkins-2.190.3-1.1.noarch.rpm 下载直接安装 rpm -ivh jenkins-2.190.3-…

RabbitMQ ②-工作模式

RabbitMQ 工作模式 官方提供了七种工作模式 Simple(简单模式) P:生产者,发布消息到队列C:消费者,从队列中获取消息并消费Queue:消息队列,存储消息。 一个生产者,一个…

(2)python开发经验

文章目录 1 pyside6加载ui文件2 使用pyinstaller打包 更多精彩内容👉内容导航 👈👉Qt开发 👈👉python开发 👈 1 pyside6加载ui文件 方法1: 直接加载ui文件 from PySide6.QtWidgets import QAp…

【C++】互斥锁(Mutex)

在C中,互斥锁(Mutex)是用于线程同步的重要工具,用于保护共享资源,防止多线程同时访问导致的数据竞争(Data Race)问题。 以下是C中互斥锁的核心用法和示例: 一、基本互斥锁 std::mut…

Jsoup与HtmlUnit:两大Java爬虫工具对比解析

Jsoup:HTML解析利器 定位:专注HTML解析的轻量级库(也就是快,但动态页面无法抓取) 核心能力: DOM树解析与CSS选择器查询 HTML净化与格式化 支持元素遍历与属性提取 应用场景:静态页面数据抽…

小白成长之路-vim编辑

文章目录 Vim一、命令模式二、插入模式3.a:进入插入模式,在当前光标的后一个字符插入![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/fd293c3832ed49e2974abfbb63eeb5bb.png)4.o: 在当前光标的下一行插入5.i:在当前光标所在字符插入,返回命令模…

[redis进阶六]详解redis作为缓存分布式锁

目录 一 什么是缓存 缓存总结板书: 二 使⽤Redis作为缓存 三 缓存的更新策略 1) 定期⽣成 2) 实时⽣成 四 面试重点:缓存预热,缓存穿透,缓存雪崩 和缓存击穿 1)缓存预热 2)缓存穿透 3)缓存雪崩 4)缓存击穿 五 分布式锁 板书: 1)什么是分布式锁 2)分布式锁的基…

【MySQL】数据表插入数据

个人主页:Guiat 归属专栏:MySQL 文章目录 1. 插入数据概述1.1 插入数据的重要性1.2 插入数据的基本原则 2. 基本插入语句2.1 INSERT INTO语法2.2 插入多行数据2.3 不指定列名的插入2.4 插入NULL和默认值 3. 高级插入技术3.1 使用子查询插入数据3.2 IGNOR…

软考-软件设计师中级备考 14、刷题 算法

一、考点归纳 1)排序 2、查找 3、复杂度 4、经典问题 0 - 1 背包动态规划0 - 1 背包问题具有最优子结构性质和重叠子问题性质。通过动态规划可以利用一个二维数组来记录子问题的解,避免重复计算,从而高效地求解出背包能装下的最大价值。分…

【阿里云】阿里云 Ubuntu 服务器无法更新 systemd(Operation not permitted)的解决方法

零、前言 目前正在使用的Ubuntu服务器中,仅阿里云(不止一台)出现了这个问题,因此我判定是阿里云服务器独有的问题。如果你的服务器提供商不是阿里云,那么这篇文章可能对你没有帮助。 如果已经因为升级错误导致依赖冲突…

css 点击后改变样式

背景: 期望实现效果:鼠标点击之后,保持选中样式。 实现思路:在css样式中,:active 是一种伪类,用于表示用户当前正在与被选定的元素进行交互。当用户点击或按住鼠标时,元素将被激活,此…

采用AI神经网络降噪算法的语言降噪消回音处理芯片NR2049-P

随着AI时代来临.通话设备的环境噪音抑制也进入AI降噪算法时代. AI神经网络降噪技术是一款革命性的语音处理技术,他突破了传统单麦克风和双麦克风降噪的局限性,利用采集的各种日常环境中的噪音样本进行训练学习.让降噪算法具有自适应噪声抑制功能,可以根…

不用联网不用编程,PLC通过智能网关快速实现HTTP协议JSON格式与MES等系统平台双向数据通讯

智能网关IGT-DSER集成了多种PLC的原厂协议,方便实现各种PLC、智能仪表通过HTTP协议与MES等各种系统平台通讯对接。PLC内不用编写程序,设备不用停机,通过网关的参数配置软件(下载地址)配置JSON文件的字段与PLC寄存器地址等参数即可。 …

如何将两台虚拟机进行搭桥

将两台虚拟机实现网络互通(“搭桥”)需配置虚拟网络,以下是基于 VMware Workstation 和 VirtualBox 的详细操作指南(以 Windows 系统为例,Linux 原理类似): 一、VMware Workstation 配置&#x…

Xianyu AutoAgent,AI闲鱼客服机器人

Xianyu AutoAgent是一款专为闲鱼平台开发的智能客服机器人系统,旨在提供全天候的自动化服务。它具备多专家协同决策、智能议价和上下文感知对话等功能,能够管理轻量级的对话记忆,利用完整的对话历史为用户提供更自然的交流体验。 Xianyu Aut…