Rust 数据结构:String

Rust 数据结构:String

  • Rust 数据结构:String
    • 什么是字符串?
    • 创建新字符串
    • 更新字符串
      • 将 push_str 和 push 附加到 String 对象后
      • 使用 + 运算符和 format! 宏
    • 索引到字符串
      • 字符串在内存中的表示
      • 字节、标量值和字形簇
    • 分割字符串
    • 遍历字符串的方法

Rust 数据结构:String

在本文中,我们将讨论每种集合类型都具有的 String 操作,例如创建、更新和读取。我们还将讨论 String 与其他集合的不同之处,即由于人和计算机解释 String 数据的方式不同,对 String 进行索引变得复杂。

什么是字符串?

Rust 在核心语言中只有一种字符串类型,它是字符串切片 str,通常以它的借用形式 &str 出现。字符串切片是对存储在其他地方的一些 UTF-8 编码字符串数据的引用。例如,字符串字面值存储在程序的二进制文件中,因此是字符串切片。

String 类型是由 Rust 的标准库提供的,而不是编码到核心语言中,它是一个可增长的、可变的、拥有的、UTF-8 编码的字符串类型。

当在 Rust 使用“字符串”时,它们可能指的是 String 或 String slice &str 类型,而不仅仅是其中一种类型。虽然本文主要是关于 String 的,但这两种类型在 Rust 的标准库中都大量使用,并且 String 和 String 切片都是 UTF-8 编码的。

创建新字符串

String 实际上是作为字节向量的包装器实现的,带有一些额外的保证、限制和功能,所以在使用上很多和 vector 类似。

let mut s = String::new();

这一行创建了一个新的空字符串 s,然后我们可以将数据加载到其中。

通常,我们会有一些初始数据,我们想用这些数据开始字符串。为此,我们使用 to_string 方法,该方法可用于任何实现 Display trait 的类型,就像字符串字面量一样。

    let data = "initial contents";let s = data.to_string();// The method also works on a literal directly:let s = "initial contents".to_string();

还可以使用 String::from 函数从字符串字面值创建 String。

let s = String::from("initial contents");

更新字符串

String 的大小可以增长,其内容可以改变。

将 push_str 和 push 附加到 String 对象后

push_str 方法接受一个字符串切片,并且不获取参数的所有权。

    let mut s = String::from("foo");s.push_str("bar");

push 方法接受单个字符作为参数,并将其添加到 String 中。

    let mut s = String::from("lo");s.push('l');

使用 + 运算符和 format! 宏

+ 操作符可以组合两个现有字符串。

    let s1 = String::from("Hello, ");let s2 = String::from("world!");let s3 = s1 + &s2; // note s1 has been moved here and can no longer be used

s1 在相加之后不再有效的原因,以及我们使用 s2 引用的原因,与使用 + 操作符时调用的方法的签名有关。+ 操作符使用 add 方法,其签名看起来像这样:

fn add(self, s: &str) -> String {

首先,s2 有一个 &,这意味着我们将第二个字符串的引用添加到第一个字符串。

我们能够在 add 调用中使用&s2(String 类型)的原因是编译器可以将 &String 实参强制转换为 &str。当我们调用 add 方法时,Rust 使用了一个强制转换,它将 &s2 转换为 &s2[…]。因为 add 没有获得 s 形参的所有权,所以在这个操作之后 s2 仍然是一个有效的 String。

其次,我们可以在签名中看到 add 取得了 self 的所有权,因为 self 没有 &。这意味着 s1 将被移动到 add 调用中,并且在此之后将不再有效。

综上,s3 = s1 + &s2; 看起来它将复制两个字符串并创建一个新字符串,这个语句实际上获取 s1 的所有权,附加 s2 内容的副本,然后返回结果的所有权。

如果需要连接多个字符串,则 + 操作符的行为会变得笨拙:

    let s1 = String::from("tic");let s2 = String::from("tac");let s3 = String::from("toe");let s = s1 + "-" + &s2 + "-" + &s3;

对于以更复杂的方式组合字符串,我们可以使用 format! 宏:

    let s1 = String::from("tic");let s2 = String::from("tac");let s3 = String::from("toe");let s = format!("{s1}-{s2}-{s3}");

format! 宏返回一个包含内容的 String。format! 宏使用引用,因此此调用不会获得其任何参数的所有权。

索引到字符串

在许多其他编程语言中,通过索引引用字符串中的单个字符是一种有效且常见的操作。但是,如果尝试在 Rust 中使用索引语法访问 String 的某些部分,则会得到一个错误。

    let s1 = String::from("hi");let h = s1[0];

报错:error[E0277]: the type `str` cannot be indexed by `{integer}`

这个要从 Rust 如何在内存中 存储字符串开始讲起。

字符串在内存中的表示

String是Vec<u8>的包装器。

考虑以下两个字符串:

let s1 = String::from("Hola");
let s2 = String::from("Здравствуйте");

s1 的长度是 4 字节。当用 UTF-8 编码时,这些字母中的每个都占 1 字节。然而,s2 的长度不是 12 字节,而是 24 字节。因为该字符串中的每个 Unicode 标量值需要 2 字节的存储空间。

来看一下错误代码:

let hello = "Здравствуйте";
let answer = &hello[0];

当用 UTF-8 编码时,З 的第一个字节是 208,第二个字节是 151,所以看起来答案实际上应该是 208,但是 208 本身并不是一个有效的字符。为了避免返回意外值并导致可能无法立即发现的错误,Rust 根本不编译此代码。

字节、标量值和字形簇

关于 UTF-8 的另一点是,从 Rust 的角度来看,实际上有三种相关的方式来看待字符串:字节、标量值和字形簇(最接近我们称之为字母的东西)。

如果我们看看写在 Devanagari 脚本中的印地语单词 “नमस्ते”,它被存储为 u8 值的向量,看起来像这样:

[224, 164, 168, 224, 164, 174, 224, 164, 184, 224, 165, 141, 224, 164, 164,
224, 165, 135]

这是 18 个字节,这就是计算机最终存储这些数据的方式。如果我们把它们看作 Unicode 标量值,也就是 Rust 的 char 类型,这些字节看起来是这样的:

['न', 'म', 'स', '्', 'त', 'े']

Rust 提供了不同的方式来解释计算机存储的原始字符串数据,这样每个程序都可以选择它需要的解释,而不管这些数据是什么人类语言。

Rust 不允许我们索引 String 以获取字符的最后一个原因是,索引操作总是需要常数时间(O(1))。但是不能保证 String 的性能,因为 Rust 必须从头到尾遍历内容,以确定有多少个有效字符。

分割字符串

对字符串进行索引通常不是一个好主意,与其用 [] 索引单个数字,不如用 [] 索引一个范围来创建包含特定字节的字符串切片。

let hello = "Здравствуйте";let s = &hello[0..4];

这里,s 将是一个 &str,它包含字符串的前 4 个字节。前面,我们提到每个字符都是两个字节,这意味着 s 将是 “Зд”。

如果我们尝试用 &hello[0…1], Rust 会在运行时报错,就像在 vector 中访问无效索引一样。

遍历字符串的方法

对字符串片段进行操作的最佳方法是明确说明是需要字符还是字节。对于单个 Unicode 标量值,使用 chars 方法。在 “Зд” 上调用 chars,分离并返回两个 char 类型的值,再遍历。

for c in "Зд".chars() {println!("{c}");
}

程序输出:

З
д

或者,bytes 方法返回每个原始字节。

for b in "Зд".bytes() {println!("{b}");
}

程序输出:

208
151
208
180

一定要记住,有效的 Unicode 标量值可能由多个字节组成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/906293.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java卡与SSE技术融合实现企业级安全实时通讯

简介 在数字化转型浪潮中,安全与实时数据传输已成为金融、物联网等高安全性领域的核心需求。本文将深入剖析东信和平的Java卡权限分级控制技术与浪潮云基于SSE的大模型数据推送技术,探索如何将这两项创新技术进行融合,构建企业级安全实时通讯系统。通过从零到一的开发步骤,…

继MCP、A2A之上的“AG-UI”协议横空出世,人机交互迈入新纪元

第一章&#xff1a;AI交互的进化与挑战 1.1 从命令行到智能交互 人工智能的发展历程中&#xff0c;人机交互的方式经历了多次变革。早期的AI系统依赖命令行输入&#xff0c;用户需通过特定指令与机器沟通。随着自然语言处理技术的进步&#xff0c;语音助手和聊天机器人逐渐普…

MySQL刷题相关简单语法集合

去重 distinct 关键字 eg. &#xff1a;select distinct university from user_profile 返回行数限制&#xff1a; limit关键字 eg. &#xff1a;select device_id from user_profile limit 2 返回列重命名&#xff1a;as 关键字 eg.&#xff1a;select device_id as user_in…

Kubernetes MCP服务器(K8s MCP):如何使用?

#作者&#xff1a;曹付江 文章目录 1、什么是 Kubernetes MCP 服务器&#xff1f;1.1、K8s MCP 服务器 2、开始前的准备工作2.1. Kubernetes集群2.2. 安装并运行 kubectl2.3. Node.js 和 Bun2.4. &#xff08;可选&#xff09;Helm v3 3、如何设置 K8s MCP 服务器3.1. 克隆存储…

计算机网络-HTTP与HTTPS

文章目录 计算机网络网络模型网络OSITCP/IP 应用层常用协议HTTP报文HTTP状态码HTTP请求类型HTTP握手过程HTTP连接HTTP断点续传HTTPSHTTPS握手过程 计算机网络 网络模型 为了解决多种设备能够通过网络相互通信&#xff0c;解决网络互联兼容性问题。 网络模型是计算机网络中用于…

Springboot 跨域拦截器配置说明

错误代码 跨域设置 Configuration public class WebConfig implements WebMvcConfigurer {/*** cors 跨域配置*/Overridepublic void addCorsMappings(CorsRegistry registry) {registry.addMapping("/**").allowedMethods("GET", "HEAD", &qu…

受不了github的网络限制了,我开源了一个图床工具 gitee-spring-boot-starter

嗨嗨嗨~ 我老马又又来了&#xff01;&#xff01;&#xff01;上次写了一篇我开源了一款阿里云OSS的spring-boot-starter&#xff0c;然后买的资源包到期了&#xff0c;后面又想白&#xff08;开&#xff09;嫖&#xff08;源&#xff09;的路子&#xff0c;首先想到了使用gith…

基于labview的声音采集、存储、处理

程序1&#xff1a;基于声卡的数据采集 程序2&#xff1a;基于声卡的双声道模拟输出 程序3&#xff1a;声音信号的采集与存储 程序4&#xff1a;声音信号的功率谱分析 程序5&#xff1a;基于labview的DTMF

第一次经历项目上线

这几天没写csdn&#xff0c;因为忙着项目上线的问题&#xff0c;我这阶段改了非常多的前端bug哈哈哈哈&#xff0c;说几个比较好的bug思想&#xff01; 这个页面算是我遇到的比较大的bug&#xff0c;因为我一开始的逻辑都写好了&#xff0c;询价就是在点击快递公司弹出弹框的时…

基于EFISH-SCB-RK3576/SAIL-RK3576的消防机器人控制器技术方案‌

&#xff08;国产化替代J1900的应急救援智能化解决方案&#xff09; 一、硬件架构设计‌ ‌极端环境防护系统‌ ‌防爆耐高温设计‌&#xff1a; 采用陶瓷纤维复合装甲&#xff08;耐温1200℃持续1小时&#xff09;&#xff0c;通过GB 26784-2023消防设备防爆认证IP68防护等级…

企业开发工具git的使用:从入门到高效团队协作

前言&#xff1a;本文介绍了Git的安装、本地仓库的创建与配置&#xff0c;以及工作区、暂存区和版本库的区分。详细讲解了版本回退、撤销修改等操作&#xff0c;并深入探讨了分支管理&#xff0c;包括分支的创建、切换、合并、删除及冲突解决。此外&#xff0c;还介绍了远程操作…

Java反射机制详解:原理、应用与实战

一、反射机制概述 Java反射(Reflection)是Java语言的一个强大特性&#xff0c;它允许程序在运行时(Runtime)获取类的信息并操作类或对象的属性、方法等。反射机制打破了Java的封装性&#xff0c;但也提供了极大的灵活性。 反射的核心思想&#xff1a;在运行时而非编译时动态获…

成功案例丨从草图到鞍座:用先进的发泡成型仿真技术变革鞍座制造

案例简介 在鞍座制造中&#xff0c;聚氨酯泡沫成型工艺是关键环节&#xff0c;传统依赖实验测试的方法耗时且成本高昂。为解决这一问题&#xff0c;意大利自行车鞍座制造商 Selle Royal与Altair合作&#xff0c;采用Altair Inspire PolyFoam软件进行发泡成型仿真。 该工具帮助团…

隧道结构安全在线监测系统解决方案

一、方案背景 隧道是地下隐蔽工程&#xff0c;会受到潜在、无法预知的地质因素影响。随着我国公路交通建设的发展&#xff0c;隧道占新建公路里程的比例越来越大。隧道属于线状工程&#xff0c;有的规模较大&#xff0c;可长达几公里或数十公里&#xff0c;往往穿越许多不同环境…

选错方向太致命,华为HCIE数通和云计算到底怎么选?

现在搞HCIE的兄弟越来越多了&#xff0c;但“数通和云计算&#xff0c;到底考哪个&#xff1f;”这问题&#xff0c;依旧让不少人头疼。 一个是华为认证的老牌王牌专业——HCIE数通&#xff0c;稳、系统、岗位多&#xff1b; 一个是新趋势方向&#xff0c;贴合云原生、数字化…

相机基础常识

相机基础常识 相机中颜色滤镜的作用&#x1f3a8; 1. **捕捉彩色图像**✅ 最常见的颜色滤镜阵列是 **拜耳滤镜&#xff08;Bayer Filter&#xff09;**&#xff1a; &#x1f50d; 2. **实现特定的图像效果或分析功能**✅ 常见的滤镜类型包括&#xff1a; &#x1f6e0;️ 3. *…

paddle ocr本地化部署进行文字识别

一、Paddle 简介 1. 基本概念 Paddle&#xff08;全称 PaddlePaddle&#xff0c;飞桨&#xff09;是百度开发的 开源深度学习平台&#xff0c;也是中国首个自主研发、功能丰富、技术领先的工业级深度学习平台。它覆盖了深度学习从数据准备、模型训练、模型部署到预测的全流程…

开源AI大模型等“神秘组合”,如何颠覆零售业数字化转型?

基于开源AI大模型、AI智能名片与S2B2C商城小程序源码的零售行业数字化转型新路径研究 摘要&#xff1a;在业界将企业数字化转型划分为管理数字化、工业数字化和营销数字化三大部分的背景下&#xff0c;国内大型制造企业在ERP与工业4.0洗礼下正迈向智能型发展道路。而零售行业面…

uniapp+vite+cli模板引入tailwindcss

目前vitecli方式用的都是官方提供的模板&#xff0c;vite版本还是4.14版本&#xff0c;较旧&#xff0c;而tailwindcss已经有了4版本&#xff0c;实际发现引入最新版会报错&#xff0c;因而继续使用3.3.5版本 pnpm install tailwindcss3.3.5 uni-helper/vite-plugin-uni-tail…

Golang中的runtime.LockOSThread 和 runtime.UnlockOSThread

在runtime中有runtime.LockOSThread 和 runtime.UnlockOSThread 两个函数&#xff0c;这两个函数有什么作用呢&#xff1f;我们看一下标准库中对它们的解释。 runtime.LockOSThread // LockOSThread wires the calling goroutine to its current operating system thread. // T…