10.21日学习笔记

news/2025/10/21 23:42:33/文章来源:https://www.cnblogs.com/wenbushi-dream/p/19156691
  1. HBase 增量迁移:TB 级历史表 0 停机上云
    场景
    本地 2.3 TB 的 msg_his 表 → 阿里云 HBase 2.0(LTS 版),要求白天业务可读可写,只容忍 5 min 最终切换窗口。
    方案选型
    采用“Snapshot + Replication 双轨 + 增量校验”三段式:
    凌晨 Snapshot
    3:00 触发:
    bash

hbase shell
snapshot 'msg_his', 'snap_20231008_0300'
用时 42 s,数据视图冻结在 03:00:42。
ExportSnapshot 到 OSS
走内网 10 Gbps,命令:
bash

hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot
-snapshot snap_20231008_0300
-copy-to oss://hbase-snapshot/
-mappers 40 -bandwidth 800
速率 780 MB/s,2 h 56 min 传完 2.3 TB。
云端 ImportSnapshot
创建同名空表,设置 REPLICATION_SCOPE => 1,然后:
bash
hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot
-snapshot snap_20231008_0300
-copy-from oss://hbase-snapshot/
-copy-to hdfs://emr-cluster/hbase
-overwrite
1 h 10 min 完成,HFile 直接加载,无写放大。
启动双向 Replication
本地 → 云端 peer id 100,云端 → 本地 peer id 101,形成环回。
用 Filter 排除已迁移历史分区(RowKey 含日期 < 20231008),避免重复。
增量追赶
白天 10 h 产生 190 GB WAL,Replication 延迟稳定在 3–5 min。
割接
22:00 暂停写入口 2 min,确认两端 ReplicationLag = 0;
业务 DNS 切到云端,启动写开关;
本地集群保留只读 24 h,次日下线 peer。
结果
实际停写窗口 3 min 47 s,0 数据丢失,RowKey 级别校验 0 差异。
2. VM 内存去重(KSM + VMware TPS)对比
表格

特性 Linux KSM VMware TPS
粒度 4 KB 匿名页 4 KB 所有 Guest Physical Page
算法 简单哈希+逐字节比较 哈希+树形比较,可跨 VM
控制 echo 1000 > /sys/kernel/mm/ksm/pages_to_scan Mem.ShareScanTime=60
安全性 默认启用,无加密页 禁用跨 VM(2014 年后)仅同 VM 内合并
实验
同一宿主机起 4 台 CentOS 7 VM,各 4 GB,运行相同 Redis 实例,填充 2 GB 数据。
结果:
KSM 合并 1.3 GB,宿主机内存使用 16 → 11.7 GB。
TPS(同 VM 内)合并 0.9 GB,跨 VM 已关闭。
结论:虚拟化层与 OS 层重复去重,收益不叠加,选其一即可;对加密敏感场景优先关闭 TPS。
3. 踩坑记录
ExportSnapshot 中途失败
OSS 返回 RequestTimeout 因单文件 5 GB 以上。
解决:加 -Dfs.oss.multipart.size=256M -Dfs.oss.multipart.threshold=256M 启用分片上传。
Replication 环回导致重复
现象:同一条数据在本地和云端各写 3 次。
根因:未排除历史分区,RowKey 范围重叠。
解决:在 peer 配置 config.setExcludeNamespaces("his"); 并新建 his 命名空间存放只读历史表。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/942782.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第1天(简单题 基础语法 数据类型、条件判断 、循环 循环嵌套、位运算, ASCII 码)

打卡第一天 做8道简单题找回一些手感 第五题的异或运算卡了很久,离散数学没学好...看了解题方法还是不会(不用数学的解题思路✔) 数据库原理两道题,现学MySQL半小时就放弃了^^ 今日耗时≈两小时 明天继续

24信计2班 17曾向嵩 pytorch读书报告

卷积神经网络(CNN)学习读书报告 ——基于B站《从LeNet到ResNet:CNN架构演进与核心原理》视频的深度解析 一、引言:学习背景与视频概况 在计算机视觉技术迅猛发展的当下,卷积神经网络(CNN)作为突破传统图像识别瓶…

Go 语言问题解释

我来为每个 Go 语言问题补充详细的文字解释: 1. Go 基本数据类型 - 文字解释 数值类型 Go 语言提供了丰富的数值类型,包括有符号和无符号整数、浮点数、复数等。这些类型的设计考虑了不同平台和性能需求:整数类型:…

Keil_v5的用法

1、包的管理本文来自博客园,作者:变秃了也就变强了,转载请注明原文链接:https://www.cnblogs.com/lichangyi/p/19156680

OI 笑传 #21

WorldendGirlfriendワールドエンドガールフレンド 今天是周天 VP 的洛谷的 S 模拟。 结果起晚了。。。十点才开题。打了 3h。 结果是 \(100+100+0+0=200\),T3 暴力没打,T4 啥也不会。大样例挺牛的,都过了就不会挂分…

[Tool] lsof: 列出打开的文件描述符

[Tool] lsof: 列出打开的文件描述符$(".postTitle2").removeClass("postTitle2").addClass("singleposttitle");目录1. 概述2. 前提条件3. 常用选项和用法4. 常用示例4.1 查看指定进程…

Day1文本格式化标签

用来为文本添加特殊格式,突出重点,常见的文本格式有:加粗,下划线,倾斜,删除线等在实际应用中,一般都是使用左边的标签,因为其在语义上自带强调含义 <!DOCTYPE html> <html lang="en"> &l…

24信计2班 17曾向嵩 pytorch66页实验题

import torch from torch import optim, nn from torchvision import datasets, transforms from torch.utils.data import DataLoader import torch.nn.functional as Fdevice = torch.device(cuda if torch.cuda.is_…

解答这些常见的智能合约安全问题,并提供相应的防护措施

我来详细解答这些常见的智能合约安全问题,并提供相应的防护措施: 1. 重入攻击 (Reentrancy Attack) 攻击原理 重入攻击是指恶意合约在接收以太币后,立即回调发送方合约,导致状态不一致。 攻击示例 // 易受攻击的合…

读AI赋能05消费者盈余

读AI赋能05消费者盈余1. 肖莎娜朱布夫 1.1. Shoshana Zuboff 1.2. 哈佛商学院荣誉退休教授 1.3. 《监控资本主义》1.3.1. 2019年最佳图书之1.3.2. 谷歌和Facebook等公司用一种“感知化、网络化、计算化的基础设施”取代…

解答这些 Solidity 开发中的重要问题

我来详细解答这些 Solidity 开发中的重要问题: 1. Calldata 的含义和使用场景 Calldata 定义 calldata 是函数参数的存储位置,专门用于存储外部函数调用的参数数据。 使用场景 contract CalldataExample {// 1. 外部…

Day1排版标签,标题与段落

标题标签一般在新闻标题,文章标题等内容上使用,且是双标签,标签名为h1~h6,而h1标签在一个网页中只能用一次,一般用来放新闻标题或网页logo,其余标题标签则无次数限制、 各级标题标签的字号都会加粗,等级越大,字…

梦回大唐王一牛

梦回大唐王一牛英雄不装车. 爱国者,坦克都贴边建.要塞满医疗车.

grpc 哼哈二将,你值得拥有

kong网关转发http服务,各大博主都已经聊包浆了。 kong网关原生支持代理gRPC请求,本文通过一个示例来记录通过kong网关管理gRPC服务,并且使用grpcbin和grpcurl哼哈二将来模拟和验证grpc服务能力。kong网关核心的控制…

一文读懂字体文件

一文读懂字体文件这篇文章是从0到1自定义富文本渲染的原理篇之一,此外你还可能感兴趣: 更多内容欢迎关注公众号:非专业程序员Ping一文读懂字符与编码 一文读懂字符、字形、字体 一文读懂字体文件 从0到1自定义文字排…

解释这些 Solidity 智能合约的核心概念

我来详细解释这些 Solidity 智能合约的核心概念: 1. 合约生命周期 合约部署阶段 // 1. 合约创建 contract MyContract {// 2. 状态变量初始化uint256 public value;address public owner;// 3. 构造函数执行construct…

你的项目一团糟-不是你的错-是框架的锅

GitHub 主页 你的项目一团糟?不是你的错,是框架的“锅”!📂➡️🏛️ 每个程序员都经历过那个瞬间。你加入一个新项目,或者时隔半年重新打开一个自己写的项目,然后,你感到了那种熟悉的、令人窒息的混乱。🌪…

别再猜了-开始测量吧-一份实用的Web性能指南

GitHub 主页 别再猜了,开始测量吧:一份实用的 Web 性能指南 又是一年“黑五”,凌晨三点,我的手机像疯了一样尖叫起来。😱 不是闹钟,是监控警报。我们的主打电商服务,那个我们花了半年心血构建的系统,在流量洪…