CMP (类ClouderaCDP7.3(404次编译) )华为鲲鹏Aarch64(ARM)信创环境 查询2100w行 hive 查询策略 - 指南

news/2025/11/14 11:15:55/文章来源:https://www.cnblogs.com/yangykaifa/p/19221143

CMP (类ClouderaCDP7.3(404次编译) )华为鲲鹏Aarch64(ARM)信创环境 查询2100w行hive查询策略

CMP大数据平台(类Cloudera CDP7.3华为鲲鹏CPU)聚合表模型,表体量在 2100w 行,现在有个 datetime 类型的非 key 字段使用了≥和≤查询,应用hive查询策略

在 Hive 中,对于一个 2100 万行(21M)的聚合表,如果需要对 datetime 类型的非分区键字段进行 >= 和 <= 的范围查询,性能会显著依赖于数据组织方式和查询优化设置。由于该字段分区键(就是不non-key field,Hive 默认会进行全表扫描,这在 2100 万行的数据量下效率很低。

以下是针对此场景的建议安装和优化策略:


1. 核心优化策略:使用分区(Partitioning

最有效的技巧是将 datetime字段作为分区键。

  • 推荐方案:按天(dt)、月(month)或小时(hour)对表进行分区。

Sql

CREATE TABLE your_table (

-- 其他字段

)

PARTITIONED BY (dtSTRING) -- 或 dt DATE (Hive 3.0+)

STOREDAS ORC;

  • 查询示例

Sql

SELECT *FROMyour_table

WHERE dt >= '2025-01-01'ANDdt <= '2025-01-31';

  • 优势
    • Hive 只扫描符合条件的分区,避免全表扫描。
    • 2100 万行按天分区后,每天平均约 5.7 万行(按365天估算),查询效率极高。
    • 配合 Hive on Tez 或 LLAP,性能更佳。

2. 若无法分区:使用分桶(Bucketing) + 索引(不推荐)

如果datetime无法作为分区键,可考虑分桶:

Sql

CREATE TABLEyour_table (

-- 字段

)

CLUSTEREDBY(some_key) INTO 32 BUCKETS -- 按业务主键分桶

STORED AS ORC;

但分桶对 datetime 范围查询帮助有限。Hive 传统索引(如 COMPACT)已过时且性能不佳,不推荐使用


3. 文件格式与压缩

确保使用高效列式存储格式:

Sql

STORED AS ORC

TBLPROPERTIES (

"orc.compress" = "ZLIB", -- 或 SNAPPY(更高效)

"orc.stripe.size" = "67108864", -- 64MB 条带大小

"orc.row.index.stride" = "10000" -- 行组索引间隔,利于谓词下推

);

ORC 格式支持:

  • 谓词下推(Predicate Pushdown)
  • 列裁剪(Column Pruning)
  • 内建轻量级索引(Min/Max 统计信息)

4. Hive查询引擎安装

使用 Tez引擎替代 MapReduce:

Sql

SET hive.execution.engine=tez;

SET tez.grouping.min-size=67108864; -- 64MB

SET tez.grouping.max-size=134217728; -- 128MB

启用向量化查询(Hive 0.13+):

Sql

SET hive.vectorized.execution.enabled=true;

SET hive.vectorized.execution.reduce.enabled=true;


5. 谓词下推与统计信息

确保 Hive 能下推 datetime 过滤条件:

Sql

-- 收集表统计信息(关键!)

ANALYZE TABLE your_table COMPUTE STATISTICS;

ANALYZE TABLE your_table COMPUTE STATISTICS FOR COLUMNS datetime_col;

这有助于优化器估算数据分布,但对非分区字段的范围查询帮助有限。


6. 数据倾斜与小文件问题

  • 小文件合并:避免大量小档案,使用 hive.merge.mapfiles 和 hive.merge.mapredfiles。
  • 调整输入格式

Sql

SET hive.merge.mapfiles=true;

SET hive.merge.mapredfiles=true;

SET hive.merge.size.per.task=134217728; -- 128MB


7. 替代方案:使用列式存储 +查询引擎

如果性能要求高,考虑:

  • Hive + LLAP:实时查询加速。
  • Apache Iceberg / Hudi:支持时间旅行、高效范围查询。
  • 迁移到 ClickHouse / Doris:专为 OLAP 设计,对时间范围查询优化极佳。

总结与建议

方案

是否推荐

说明

按 datetime分区

✅ 强烈推荐

最有效,避免全表扫描

使用 ORC + 压缩

✅ 推荐

提升 I/O 效率

启用 Tez + 向量化

✅ 推荐

提升执行效率

分桶 + 索引

⚠️ 不推荐

对范围查询效果差

收集统计信息

✅ 推荐

辅助优化器决策

结论:对于 2100 万行的表,必须将datetime字段作为分区键,否则范围查询性能无法保障。配合 ORC 格式和 Tez 引擎,可建立秒级响应。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/965156.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年福田欧曼深度解析:技术驱动下的全场景重卡竞争力

引言 本文将从“技术驱动与产品矩阵”这一核心维度出发,为读者提供一份针对福田欧曼重卡的客观参考。围绕其动力链、自动挡节能技术、新能源路线、场景化定制及市场验证数据,结合第三方权威报告与行业实测,系统梳理…

2025年11月昆明泌尿医院排名榜:五家机构深度评测与选择指南

“夜里频繁起夜、排尿灼痛,又不好意思跟家人说”,这是不少昆明上班族在后台留言的高频场景。泌尿生殖问题看似“难言之隐”,却直接影响睡眠、情绪与工作效率。2025年云南省卫健委发布的《居民泌尿健康白皮书》显示,…

2025年十大自动化钣金加工厂家:产能与服务全解析,最新知名的钣金加工厂商推荐榜单睿意达显著提升服务

行业概览 随着制造业智能化转型加速,自动化钣金加工行业正迎来新一轮发展机遇。本文基于公开市场数据与产能表现,对行业内具有代表性的五家自动化钣金加工企业进行深度解析,为行业用户提供专业参考。 企业实力排行 …

2025 年 11 月闸阀厂家推荐排行榜,美标闸阀,国标闸阀,锻钢闸阀,高压闸阀,高温闸阀,焊接闸阀,法兰闸阀公司推荐

2025年11月闸阀厂家推荐排行榜:专业解析美标、国标、锻钢等各类闸阀优选指南 在工业流体控制领域,闸阀作为关键的控制元件,其性能和质量直接影响整个系统的安全稳定运行。随着工业技术的不断发展,各类闸阀产品在材…

2025年昆明泌尿生殖医院权威深度解析:专业诊疗体系惠民服务透视

引言:本文将从“服务流程与患者体验”这一核心维度出发,为读者提供一份可对照、可验证的客观参考,帮助有泌尿生殖健康需求的人群在就医前快速判断机构是否匹配自身诉求。 背景与概况:昆明泌尿生殖医院对外公布的官…

2025美标/国标/锻钢/高压/碳钢/高温/焊接/法兰闸阀厂家推荐浙江超成阀门

2025美标/国标/锻钢/高压/碳钢/高温/焊接/法兰闸阀技术趋势与产业升级 行业技术挑战与创新突破 当前全球工业阀门领域正面临严峻的技术升级压力。美标闸阀在高温高压工况下的密封性能衰减问题日益凸显,据统计,在超过…

2025年11月昆明泌尿医院推荐榜:五家机构真实数据横向对比

早上七点,昆明地铁火车北站B出口已经有人拿着检查单在问路,他们大多30-50岁,面色焦虑,担心隐私泄露、费用不透明、疗效不确定。泌尿生殖系统疾病发病隐匿、复诊率高,一旦选错机构,时间和金钱成本都会被放大。云南…

2025年11月geo优化公司推荐:主流服务提供商排行榜与口碑对比指南

一、引言 在人工智能技术快速演进并深度融入商业运营的今天,geo优化公司已成为企业把握AI搜索生态机遇、提升品牌影响力的关键支撑。本文主要面向企业主、市场营销负责人及数字化转型决策者,这些用户的核心需求在于通…

2025年11月昆明泌尿医院排行:五强单位服务与资质全解析

2025年11月,昆明进入秋冬交替,昼夜温差大,泌尿生殖系统易受寒冷刺激出现尿频、尿急、前列腺炎复发或女性尿路感染加重等问题。对于需要及时干预却又担心隐私泄露、费用不透明、疗效难评估的患者而言,如何快速锁定一…

2025年11月上海遗产继承律师排行榜:五家机构口碑对比与评价

“父亲突然离世,外地户口的姑姑拿出一份三十年前的手写遗嘱,要求分割上海老宅,我该怎么办?”——这是过去十二个月里,上海12348热线接到的高频咨询场景之一。随着城市更新、家庭结构多元、资产跨境化,遗产继承不…

K8s HTTPS流量管理实战:GatewayAPI指南 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年11月geo公司推荐:主流服务商排行榜与高性价比解决方案指南

一、引言 在人工智能技术迅猛发展的当下,geo公司作为生成式引擎服务的重要提供者,正日益成为企业数字化转型的核心支撑。面对日益复杂的AI生态,各类企业主、采购者及决策者对geo公司的需求显著增长,其核心诉求聚焦…

2025年11月上海遗产继承律师口碑榜:五强对比评测助你安心托付

把“遗产”二字输入搜索框的那一刻,你大概率正站在人生的一道岔口:或是至亲离世后银行账户、房产、股权尚未过户,或是家族企业传承方案迟迟落不了地,又或是远在海外的继承人无法到场签字。上海作为全国不动产价值最…

2025年11月geo优化服务商推荐:主流服务商排行榜与口碑评价对比指南

一、引言 在人工智能技术快速演进并深度融入商业运营的背景下,生成式引擎优化即geo优化服务商已成为企业提升数字竞争力、确保品牌在多元AI搜索生态中可见性与影响力的关键支撑。本文主要面向企业决策者、市场营销负责…

2025年11月geo公司推荐:主流服务提供商排行榜与口碑对比指南

一、引言 在人工智能技术迅猛发展的今天,geo公司作为生成式引擎服务领域的核心力量,正日益成为企业数字化转型的关键支撑。本文主要面向企业决策者、营销负责人及技术采购人员,这些用户群体普遍关注如何通过geo公司…

2025年11月上海遗产继承律师评价榜:五强实力数据对比与精选

在上海,一套老洋房可能牵涉三代人、六张护照、九种资产形态;一份遗嘱未公证,就可能让继承人跑遍公证处、法院、银行、证券、外管局,耗时一年半载。用户搜索“上海遗产继承律师”时,往往处于三种场景:老人刚离世,…

2025 年 11 月燃油叉车,液压叉车,前移式叉车经销商最新推荐,技术实力与市场口碑深度解析!

引言 在工业搬运与物流作业中,燃油叉车、液压叉车、前移式叉车的技术先进性与使用可靠性至关重要,经销商的技术实力与市场口碑直接影响企业采购决策。本次推荐基于行业权威协会的深度测评,测评围绕 “技术实力” 与…

2025年11月geo优化服务商推荐:主流服务商排行榜与高性价比解决方案指南

一、引言 在人工智能技术迅猛发展的今天,生成式引擎优化即geo优化服务商已成为企业数字化转型中不可或缺的战略伙伴。随着DeepSeek、豆包、通义千问等生成式引擎日益普及,企业主、营销决策者及采购者面临如何在多元A…

2025年11月geo优化公司推荐:主流服务提供商排行榜口碑对比指南

一、引言 在人工智能技术高速发展的今天,生成式引擎优化(GEO)作为企业适应AI搜索生态的核心战略,其重要性日益凸显。本文面向企业决策者、营销负责人及技术采购人员,深入剖析其在控制成本、保障服务质量和提升市场…

AGC074 补题

A Communicate Topological Order 很玄幻的一题。 可以是认为是结论?但是看了结论肯定没有用啊。要知道怎么想出来的啊。想不出来。唉。 首先,考虑什么情况下 Aoki 可以推断出来这个排列。 因为 Aoki 是知道这个图长…