游程编码(Run-Length Encoding, RLE)的python实现

游程编码(Run-Length Encoding, RLE)的python实现

基本原理及步骤

游程编码(Run-Length Encoding, RLE),是一种简单的无损数据压缩方法,通过计数连续出现的字符来压缩数据。

主要思想是遍历输入源数据,计算连续相同字符的数量,并在字符发生变化时输出当前的计数和字符。每次字符发生变化时,都会输出一个元组,格式为(字符, 计数),最后返回的是最后一个字符的计数和字符。

RLE特别适合于包含大量重复数据的数据集,例如简单的图形图像或文本文件,其中可能有长串的空格或相同的字符。

Run-Length Encoding (RLE) 是一种简单的无损数据压缩算法,它通过计数连续出现的相同数据元素来压缩数据。RLE特别适合于包含大量重复数据的数据集,例如简单的图形图像或文本文件,其中可能有长串的空格或相同的字符。
上述代码实现RLE编码的原理如下:

  1. 初始化计数器
    • 设置一个计数器count,用于记录当前字符重复的次数。初始值为1,因为至少有一个字符。
  2. 遍历数据
    • 从数据的第二个字符开始遍历,比较当前字符与前一个字符。
  3. 计数连续相同的字符
    • 如果当前字符与前一个字符相同,增加计数器count
    • 如果当前字符与前一个字符不同,输出前一个字符的计数和字符本身,然后将计数器重置为1。
  4. 输出编码结果
    • 每当遇到一个不同的字符时,输出一个元组,格式为(字符, 计数)
    • 最后,输出最后一个字符的计数和字符。
  5. 返回编码结果
    • 将所有输出的元组组合起来,形成编码后的字符串。

RLE编码的关键在于它能够减少表示重复数据所需的空间。例如,字符串"AAAABBBCCDAA"可以被编码为"(4,A)(3,B)(2,C)(1,D)(2,A)",这样可以显著减少数据的大小,特别是当有长串的重复字符时。

Python实现

编码

# 方法一:
def run_length_encode1(data, _format="tuple"):rel_list = []count = 1for i in range(0, len(data)):if i + 1 < len(data) and data[i] == data[i + 1]:count += 1else:rel_list.append(data[i])rel_list.append(count)count = 1if _format == "list":return rel_listif _format == "tuple":buf = ""for index, value in enumerate(rel_list):if index % 2 == 0:buf += "(" + str(value) + ","else:buf += str(value) + "),"return buf.rstrip(",")# 方法二:
def run_length_encode2(data):"""实现游程编码。:param data: 待编码的字符串:return: 压缩后的字符串"""if not data:return ""encoded_string = ""count = 1prev_char = data[0]for i in range(1, len(data)):if data[i] == prev_char:count += 1else:encoded_string += f"({prev_char},{count}),"count = 1prev_char = data[i]encoded_string += f"({prev_char},{count})"return encoded_string# 方法三:
def run_length_encode(data):count = 1  # 初始化计数器为1,因为至少有一个字符encoded_data = ""  # 初始化编码结果字符串# 遍历数据,从第二个字符开始for i in range(1, len(data)):if data[i] == data[i - 1]:  # 如果当前字符与前一个字符相同count += 1  # 增加计数器else:# 如果当前字符与前一个字符不同,添加前一个字符的计数和字符本身到编码结果encoded_data += "(" + data[i - 1] + "," + str(count) + "),"count = 1  # 重置计数器为1,因为遇到了新的字符# 处理最后一个字符,因为循环在最后一个字符前结束encoded_data += "(" + str(count) + "," + data[-1] + ")"return encoded_data  # 返回编码结果字符串

解码

def run_length_decode(encoded_data):"""解码Run-Length Encoding (RLE)的数据。:param encoded_data: RLE编码的字符串:return: 解码后的原始数据"""decoded_data = ""  # 初始化解码后的数据字符串i = 0  # 初始化索引变量# 遍历编码字符串while i < len(encoded_data):# 跳过左括号if encoded_data[i] == "(":i += 1else:# 解析字符char = ""while encoded_data[i] != ",":char += encoded_data[i]i += 1i += 1  # 跳过逗号# 解析计数count = 0while encoded_data[i] != ")":count = count * 10 + int(encoded_data[i])i += 1i += 2  # 跳过右括号# 将字符重复计数次添加到解码数据中decoded_data += char * countreturn decoded_data  # 返回解码后的数据

这个解码函数的工作原理如下:

  1. 初始化一个空字符串decoded_data来存储解码后的数据。
  2. 使用一个索引变量i来遍历编码字符串encoded_data
  3. 当遇到左括号时,跳过它,因为左括号只是编码的一部分,不包含实际数据。
  4. 解析字符部分,直到遇到逗号。这个字符是被编码的字符。
  5. 解析计数部分,直到遇到右括号。这个数字表示字符应该重复的次数。
  6. 将字符重复计数次添加到decoded_data中。
  7. 重复上述步骤,直到遍历完整个编码字符串。
  8. 返回解码后的数据decoded_data
    这个函数假设输入的编码字符串是有效的,并且编码格式是正确的。在实际应用中,可能需要添加额外的错误检查和处理逻辑来确保函数的鲁棒性。

测试数据

if __name__ == "__main__":# 测试游程编码test_string = "AAABBBCCDAA"print("test_string: ", test_string)encoded_test_string = run_length_encode(test_string)print("encoded_test_string: ", encoded_test_string)decoded_test_string = run_length_decode(encoded_test_string)print("decoded_test_string: ", decoded_test_string)

输出如下:

test_string:  AAABBBCCDAA
encoded_test_string:  (A,3),(B,3),(C,2),(D,1),(A,2)
decoded_test_string:  AAABBBCCDAA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/826500.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue 指令、计算属性、侦听器

目录 指令 指令修饰符 按键修饰符 ​编辑 v-model修饰符 事件修饰符 v-bind对于样式操作的增强 操作class 对象 数组 操作style v-model应用于其他表单元素 computed计算属性 概念 基础语法 ​编辑 计算属性vs方法 computed计算属性 作用 语法 缓存特性 m…

对接浦发银行支付(五)-- 主动查询支付结果

一、背景 上一篇我们介绍了支付回调接口的对接情况&#xff0c;当回调出现网络等异常情况&#xff0c;导致用户的支付订单未及时处理或处理失败的时候&#xff0c;商户则需要自己主动向浦发银行发起查询支付结果。 主动查询支付结果&#xff0c;发挥补偿重试的重要作用&#x…

使用PHP开发体育赛事直播平台,有这些缺点和优点

"东莞梦幻网络科技"作为体育直播平台开发领域的领导者&#xff0c;选择使用PHP开发体育赛事直播平台的现成源码&#xff0c;为什么会选择该语言&#xff0c;背后的选择理由可以从该技术的优点和缺点中找到答案。 一、优点1、易学易用与快速开发&#xff1a;PHP语言语…

HTML的学习-通过创建相册WEB学习HTML-第一部分

文章目录 一、设置中文1.1、添加中文插件1.2、配置显示中文语言 二、学习开始2.1、创建项目文件夹2.2、h1标签示例&#xff1a;生成HTML框架示例&#xff1a;添加h1标签 2.3、h2标签示例&#xff1a;在h1标签下添加h2标签 2.4、h1标签到h6标签层次解析2.5、p标签示例&#xff1…

怎么把网页上的文字变小?

以下是针对常见浏览器的说明&#xff1a; ### Google Chrome&#xff1a; 1. 打开 Chrome 浏览器并导航到您想要调整文字大小的网页。 2. 在页面上右键单击空白处&#xff0c;然后选择 "检查" 或按下 CtrlShiftI&#xff08;在 Windows 或 Linux 上&#xff09;或 Co…

Spark-机器学习(3)回归学习之线性回归

在之前的文章中&#xff0c;我们了解我们的机器学习&#xff0c;了解我们spark机器学习中的特征提取和我们的tf-idf&#xff0c;word2vec算法。想了解的朋友可以查看这篇文章。同时&#xff0c;希望我的文章能帮助到你&#xff0c;如果觉得我的文章写的不错&#xff0c;请留下你…

STL-vector类的使用及其模拟实现

在C中&#xff0c;vector是标准模板库&#xff08;STL&#xff09;中的一种动态数组容器&#xff0c;它可以存储任意类型的元素&#xff0c;并且能够自动调整大小。vector提供了许多方便的成员函数&#xff0c;使得对数组的操作更加简单和高效。 vector的使用 vector的构造函数…

机器学习-聚类算法

简介 本文主要内容&#xff1a; 聚类分析所涉及到的所有方面 和 经典划分聚类&#xff1a;K-means算法及其在python中的运用实例 补充介绍的内容包括&#xff1a;sklearn.datasets numpy.ndarray sklearn.cluster matplotlib.pyplot.scatter 聚类分析概述 聚类分析是无监督…

第23天:安全开发-PHP应用后台模块SessionCookieToken身份验证唯一性

第二十三天 一、PHP后台身份验证模块实现 二、Cookie&Session技术&差异 1.生成cookie的原理图过程&#xff1a;见上图 客户端向服务器发送HTTP请求。服务器检查请求头中是否包含cookie信息。如果请求头中包含cookie信息&#xff0c;则服务器使用该cookie来识别客户端…

ICLR 2024 | FTS-Diffusion: 用于合成具有不规则和尺度不变模式的金融时间序列的生成框架

ICLR 2024 | FTS-Diffusion: 用于合成具有不规则和尺度不变模式的金融时间序列的生成框架 原创 QuantML QuantML 2024-04-17 09:53 上海 Content 本文提出了一个名为FTS-Diffusion的新颖生成框架&#xff0c;用于模拟金融时间序列中的不规则和尺度不变模式。这些模式由于其独…

C++三大特性之一:继承

文章目录 前言一、继承方式二、继承类型继承中构造和析构的顺序继承中的内存分配多继承语法(非重点)继承中同名静态成员的处理继承一般在哪里用到进阶&#xff1a;菱形继承和虚拟继承 总结 前言 C三大特性&#xff1a;继承、多态和封装。继承是面向对象编程的一个核心概念&…

Elastic 网络爬虫:为你的网站添加搜索功能

作者&#xff1a;来自 Elastic Lionel Palacin 为了演示如何使用 Elastic 网络爬虫&#xff0c;我们将以一个具体的网站为例&#xff0c;讲解如何在该网站上添加搜索功能。我们将探讨发现网站的方法&#xff0c;并利用 Elastic 网络爬虫提供的功能&#xff0c;以最佳方式准备待…

HTML、CSS常用的vscode插件 +Css reset 和Normalize.css

个人主页&#xff1a;学习前端的小z 个人专栏&#xff1a;HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结&#xff0c;欢迎大家在评论区交流讨论&#xff01; 文章目录 ✍HTML、CSS常用的vscode插件&#x1f34e;1 HTML 标签同步重命名 – Auto Re…

【Java网络编程】网络编程中的基本概念及实现UDP、TCP客户端服务器程序

目录 一、什么是网络编程&#xff1f; 二、网络编程中的基本概念 1. 客户端和服务器 2. 请求和响应 三、Socket套接字 UDP数据报套接字编程 1. DatagramSocket 2. DatagramPacket 3. UDP回显客户端服务器程序 4. UDP字典客户端服务器程序 TCP流套接字编程 1. Serve…

SpringBoot 3.x + Swagger3 踩坑实录

问题描述 维护的SpringBoot版本是3.0版本&#xff0c;翻教程的时候发现很多SpringBoot2.x版本用的都是springfox&#xff0c;但问题是在SpringBoot3.x版本后&#xff0c;逐渐不支持springfox&#xff0c;强行启动会导致异常&#xff0c;现阶段使用的Springdoc进行替换。 参考…

Java多线程-API

常见API一览 Thread t1 new Thread(() -> {System.out.println("我是线程t1");System.out.println("Hello, World!"); }); t1.start(); // 获取线程名称 getName() // 线程名称默认是Thread-0, Thread-1, ... System.out.println(t1.getName());// 通过…

JVM类加载基本流程及双亲委派模型

1.JVM内存区域划分 一个运行起来的Java进程就是一个JVM虚拟机&#xff0c;这就需要从操作系统中申请一片内存区域。JVM申请到内存之后&#xff0c;会把这个内存划分为几个区域&#xff0c;每个区域都有各自的作用。 一般会把内存划分为四个区域&#xff1a;方法区(也称 "…

【网站项目】党员之家服务系统小程序

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

【数字电路与系统】【北京航空航天大学】实验:时序逻辑设计——三色灯开关(二)、需求分析和系统设计

本次实验&#xff08;一&#xff09;见博客&#xff1a;【数字电路与系统】【北京航空航天大学】实验&#xff1a;时序逻辑设计——三色灯开关&#xff08;一&#xff09;、实验指导书 说明&#xff1a;本次实验的代码使用verilog编写&#xff0c;文章中为阅读方便&#xff0c…

指针的使用以及运算、二级指针、造成野指针的原因以及解决方法、指针和数组相互使用

第七章&#xff0c;指针的学习 目录 前言 一、指针的概念 二、指针的类型 三、野指针 四、指针的运算 五、指针和数组的关系以及使用 六、指针数组 七、二级指针 总结 前言 这章主要学习的是指针方面的知识&#xff0c;这节只是简单了解一下指针&#xff0c;并不会深…