Flink问题解决及性能调优-【Flink rocksDB读写state大对象导致背压问题调优】

RocksDB是Flink中用于持久化状态的默认后端,它提供了高性能和可靠的状态存储。然而,当处理大型状态并频繁读写时,可能会导致背压问题,因为RocksDB需要从磁盘读取和写入数据,而这可能成为瓶颈。

遇到的问题

Flink开发中遇到读写state大对象的问题,Flink webUI 火焰图表现如下:
在这里插入图片描述从图上看,瓶颈卡在序列化与反序列化,结合业务逻辑代码,业务涉及state大对象的读写,并且是ValueState。

问题分析

如上,作为初学者来说,如果要在键值状态中存储Map<K, V>数据结构的状态,可能会认为使用ValueState<HashMap<K, V>>或者使用MapState<K, V>都是可行的。

如果我们选择使用HashMap状态后端,那么两种方式的性能上不会有很大差异,但是如果我们选择使用RocksDB状态后端,则推荐使用MapState<K, V>,避免使用ValueState<HashMap<K, V>>。

  • 因为ValueState<HashMap<K, V>>在将数据写入RocksDB时,是将一整个HashMap<K, V>序列化为字节数组之后写入的。
  • 同样,在读取时,也是先读取到字节数组,然后反序列化为一整个HashMap<K, V>后,再给用户使用。

所以每次访问和更新ValueState时,实际上都是对HashMap<K, V>这个集合类的大对象做序列化以及反序列化(如上图所示),而这是一个及其耗费资源的过程,很容易就会导致Flink作业产生性能瓶颈,所以极不推荐在ValueState中存储大对象。

问题调优

使用MapState代替ValueState,精简state数据量,问题解决。
除此之外还有一些其他调优策略:

  1. 增加算子并行度:通过增加算子的并行度,可以将负载分布到多个任务实例上,从而提高整体处理能力。这样可以减少单个任务实例的读写压力。

  2. 增加RocksDB的内存限制:RocksDB使用内存来缓存热数据,可以通过增加RocksDB的内存限制来提高缓存效果。可以通过Flink的配置选项state.backend.rocksdb.memory.managed来设置内存限制。

  3. 调整RocksDB的配置参数:RocksDB有许多配置参数可以调整,以优化读写性能。可以根据具体情况调整参数,例如write_buffer_size、max_write_buffer_number、max_background_compactions等。

  4. 使用异步快照:Flink提供了异步快照机制,可以将状态异步地持久化到RocksDB。这可以减少同步写入RocksDB的开销,并提高整体吞吐量。

  5. 定期进行状态清理和压缩:定期清理过期的状态数据和进行状态压缩可以减少磁盘占用和提高读写性能。可以使用Flink的状态后端接口进行定期的清理和压缩操作等等。

拿当前实例来说,虽然调优有很多种方式,例如:可以通过增量subtask并行度来提高处理能力(数据量大了还是会出现处理上的瓶颈,不可持续),但并没有找出问题的根本原因,或者说调优最大化。通过使用MapState代替ValueState,精简state数据量,可以达到调优最大化,以最小的代价解决最大的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/656236.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis抓取数据到Logstash再推到Elasticsearch集群

一、安装Logstash 前面安装过Logstash了,不做解释直接跳过 参考:上一篇文章 二、配置Logstash 在logstash目录下,编辑我们之前的配置文件logstash.conf vim logstash.confinput、output字面意思,从redis去拿取数据,输出到Elasticsearch data_type:数据类型为list k…

世微AP5125 LED外置MOS降压恒流驱动IC 12-36V 9V 1A驱动方案

本品特点&#xff1a;宽输入电压范围&#xff1a;9V&#xff5e;100V ◆ 固定工作频率&#xff1a;140KHZ◆ 可设定电流范围&#xff1a;10mA&#xff5e;6000mA ◆ 内置抖频电路&#xff0c;降低对其他设备的 EMI 干扰◆ 平均电流模式采样&#xff0c;恒流精度更高◆ CS 电压…

136832-63-8,活细胞示踪剂CMFDA(绿色),5-氯甲基荧光素二醋酸酯,广泛应用于细胞追踪和标记实验中

136832-63-8&#xff0c;活细胞示踪剂CMFDA(绿色)&#xff0c;5-氯甲基荧光素二醋酸酯&#xff0c;CellTracker Green CMFDA&#xff0c;可以用于基因表达分析等实验中&#xff0c;广泛应用于细胞追踪和标记实验中 您好&#xff0c;欢迎来到新研之家 文章关键词&#xff1a;1…

瑞芯微1808模型转换(onnx到rknn)环境配置过程

瑞芯微1808模型转换&#xff08;onnx → \to →rknn&#xff09;环境配置 阅读本解决方案前&#xff0c;请读者确保已经根据官方的相关教程【rknn_model_zoo/common/rknn_converter at v1.5.0 airockchip/rknn_model_zoo (github.com)】完成其他配置文件的修改&#xff0c;以…

c语言学习笔记之字符串库函数和逗号表达式

逗号表达式 #include <stdio.h>int main(){int a 10;int b 5;int c 6;int d (a 23,b a-4,c b2);printf("%d",d); }打印结果为: 逗号表达式,从左往右依次进行,将最后一个表达式的值赋值给变量. c语言字符串相关库函数 求字符串长度strlen长度不受限制的…

Python学习笔记——类型注解基础知识

Python是动态类型语言&#xff0c;使用变量时不需要做任何类型声明&#xff0c;这是Python相比其它语言的一个重要优势&#xff1a;它减少了我们的心智负担&#xff0c;让写代码变得更容易。尤其对于我们很多新手来说&#xff0c;“不用声明类型”无疑会让学Python这件事变得简…

【MySQL】创建用户时报错

目录 前言解决方法 前言 在使用mysql服务时&#xff0c;用root创建用户&#xff0c;出现如下错误 The MySQL server is running with the --skip-grant-tables option so it cannot execute this statement 解决方法 在mysql服务中输入指令 flush privileges;重启mysqld服务器…

Qt开源版 vs 商业版 详细比较!!!!

简单整理Qt开源版与商业版有哪些差别&#xff0c;仅供参考。 简单对比 开源版商业版许可证大部分采用对商业使用不友好的LGPLv3具备商业许可证保护代码专有许可证相关大部分模块使用LGPLv3和部分模块使用GPL组成仅第三方开源组件使用Qt的其他许可证Qt模块功能支持支持技术支持…

海外云手机为什么吸引用户?

近年来&#xff0c;随着全球化的飞速发展&#xff0c;海外云手机逐渐成为各行各业关注的焦点。那么&#xff0c;究竟是什么让海外云手机如此吸引用户呢&#xff1f;本文将深入探讨海外云手机的三大吸引力&#xff0c;揭示海外云手机的优势所在。 1. 高效的社交媒体运营 海外云…

c#窗体捕捉方向键

方法1 实现方法参考代码&#xff1a; private void Form1_Load(object sender, EventArgs e){this.KeyPreview true;}protected override bool ProcessDialogKey(Keys keyData){if (keyData Keys.Left || keyData Keys.Right || keyData Keys.Up || keyData Keys.Down){s…

Kubernetes-资源限制

一、Pod资源限制 Kubernetes 对资源的限制实际上是通过 CGROUP 来控制的&#xff0c;CGROUP 是容器的一组用来控制内核如果运行进程的相关属性集合。针对内存、CPU、和各种设备都有对应的 CGROUP。 默认情况下&#xff0c;Pod 运行没有 CPU 和内存的限额。这意味着系统中任何 P…

工程经验分享 Incremental FastPitch

分享 NVIDIA 基于 GPU 的 TTS 解决方案介绍。 1. 基于 FastPitchHifi-GAN 的 Streaming TTS 效果优化 NVIDIA 在 TTS 领域也做了一些供大家参考的工作&#xff0c;例如提供了高效的流式 TTS 部署方案&#xff0c;利用 TensorRT 加速模型推理速度&#xff0c;并通过 Triton Inf…

Servlet基础之API

文章目录 Servlet API1. 概述2. 相关对象概述3. Servlet 接口4. GenericServlet 抽象类5. HTTPServlet 类6. ServletRequest 和 HTTPServletRequest7. HttpServletRequest8. ServletResponse 和 HTTPServletResponse9. ServletConfig 和 ServletContext10. 部署描述符 Servlet …

【软考- 系统集成项目管理工程师2】

第一章-信息化知识-信息与信息化 今日座右铭&#xff1a;最好的偷懒方式&#xff0c;就是一次做好。 文章目录 第一章-信息化知识-信息与信息化前言一、信息1、信息的基本概念2、信息的传输模型3、信息的质量属性 二、信息系统1、系统的基本概念2、信息系统的生命周期 三、信息…

js-cookie的使用方法

js-cookie是一个简单的&#xff0c;轻量级的处理cookies的API。 js-cookie网站 一、安装 npm install js-cookie 二、引入js-cookie 在需要使用的页面直接引用即可。 import Cookies from "js-cookie"; 三、使用示例 以利用js-cookie实现token持久化为例&#…

Android-System 常用adb 命令

1、adb导出logcat&#xff1a;adb logcat > D:/log.txt 2、adb导出anr文件&#xff1a;adb pull /data/anr/trances.txt 3、adb连接安卓设备&#xff1a;adb connect 192.168.129.11:5555 4、选择安卓设备&#xff1a;adb -s 192.168.11.55 5、查看日志状态:getprop | grep …

IP类接口大全,含免费次数

IP查询 IP归属地-IPv4高精版&#xff1a;根据IP地址查询归属地信息&#xff0c;支持到中国地区&#xff08;不含港台地区&#xff09;街道级别&#xff0c;包含国家、省、市、区县、详细地址和运营商等信息。IP归属地-IPv4区县级&#xff1a;根据IP地址查询归属地信息&#xf…

IDEA 安装阿里Java编码规范插件

1.File>Settings 2.安装之后重启 开发过程中如果有不符合规范的地方&#xff0c;会自动出现提示

Ubuntu如何安装使用Nginx反向代理?

在Ubuntu上安装Nginx并配置使其生效是相对简单的过程。以下是一步一步的指南&#xff1a; 步骤 1&#xff1a;安装 Nginx 打开终端&#xff0c;并执行以下命令来安装 Nginx&#xff1a; sudo apt update sudo apt install nginx步骤 2&#xff1a;启动 Nginx 服务 安装完成…

【C语言/数据结构】排序(归并排序|计数排序|排序算法复杂度)

&#x1f308;个人主页&#xff1a;秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343&#x1f525; 系列专栏&#xff1a;《数据结构》https://blog.csdn.net/qinjh_/category_12536791.html?spm1001.2014.3001.5482 ​​​​ 目录 归并排序 代码实现&#xf…