python字典和集合双向索引_Python字典和集合

字典和集合基础字典是一系列无序元素的组合,其长度大小可变,元素可以任意的删减和改变。不过,这里的元素是一堆键(key)和值(value)的配对。

集合没有键和值的配对,是一系列无序的、唯一的元素组合。

字典和集合的创建:

d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}

d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})

d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])

d4 = dict(name='jason', age=20, gender='male')

d1 == d2 == d3 ==d4

True

s1 = {1, 2, 3}

s2 = Set([1, 2, 3])

s1 == s2

True

set 并不支持索引操作,因为 set 本质上是一个哈希表,和列表不一样

s = {1, 2, 3}

s[0]

Traceback (most recent call last):

File "", line 1, in

TypeError: 'set' object does not support indexing

对于字典,我们通常会根据键和值,进行升序或降序排序:

d = {'b': 1, 'a': 2, 'c': 10}

d_sorted_by_key = sorted(d.items(), key=lambda x: x[0]) # 根据字典键的升序排序

d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) # 根据字典值的升序排序

d_sorted_by_key

[('a', 2), ('b', 1), ('c', 10)]

d_sorted_by_value

[('b', 1), ('a', 2), ('c', 10)]

字典和集合性能

import time

# list version

def find_unique_price_using_list(products):

unique_price_list = []

for _, price in products: # A

if price not in unique_price_list: #B

unique_price_list.append(price)

return len(unique_price_list)

def find_unique_suing_set(products):

unique_price_set = set()

for _, price in products:

unique_price_set.add(price)

return len(unique_price_set)

id = [x for x in range(0, 100000)]

price = [x for x in range(2000000, 3000000)]

products = list(zip(id, price))

# 计算列表版本时间

start_using_list = time.perf_counter()

find_unique_price_using_list(products)

end_using_list = time.perf_counter()

print("time elapse using list : {}".format(end_using_list-start_using_list))

# 输出

time elapse using list : 44.804451168

# 计算集合版本的时间

start_using_set = time.perf_counter()

find_unique_suing_set(products)

end_using_set = time.perf_counter()

print("time elapse using set: {}".format(end_using_set-start_using_set))

# 输出

time elapse using set: 0.010326210999998864

你可以看到,仅仅十万的数据量,两者的速度差异就如此之大。更不用说上亿乃至十亿数据量了。

字典和集合的工作原理

字典和集合内部结构都是一张哈希表 对于字典而言,这张表存储了哈希值(hash),键和值这 3 个元素。 对于集合而言,区别就是哈希表内没有键和值的配对,只有单一的元素。

老版本的 python 的哈希结构如下所示:

entries = [

['--', '--', '--']

[-230273521, 'dob', '1999-01-01'],

['--', '--', '--'],

['--', '--', '--'],

[1231236123, 'name', 'mike'],

['--', '--', '--'],

[9371539127, 'gender', 'male']

]

不难想象,随着哈希表的扩张,它会变得越来越稀疏。(为什么会越来越稀疏:哈希表为了保证其操作的有效性(查找、添加、删除等等),都会 overallocate(保证留至少1/3的剩余空间),但很多空间其实都没有被利用,因此很稀疏。)

举个例子,我们有这样一个字典:

{'name': 'mike', 'dob': '1999-01-01', 'gender': 'male'}

那么它的存储为类似下面的形式:

entries = [

['--', '--', '--']

[-230273521, 'dob', '1999-01-01'],

['--', '--', '--'],

['--', '--', '--'],

[1231236123, 'name', 'mike'],

['--', '--', '--'],

[9371539127, 'gender', 'male']

]

这样的设计结构,很显然非常浪费存储空间。为了提高存储空间的利用率,现在的哈希表除了字典本身的结构,会把索引和哈希值、键、值单独分开,也就是下面的新结构:

Indices

----------------------------------------------------

None | index | None | None | index | None | index ...

----------------------------------------------------

Entries

--------------------

hash0 key0 value0

---------------------

hash1 key1 value1

---------------------

hash2 key2 value2

---------------------

...

---------------------

那么刚刚的这个例子,在新的哈希表结构下,就会变成下面这样:

indices = [None, 1, None, None, 0, None, 2]

entries = [

[1231236123, 'name', 'mike'],

[-230273521, 'dob', '1999-01-01'],

[9371539127, 'gender', 'male']

] # 索引 indices 中的值,对应的是 entries 数组的位置

我们可以看到,空间利用率得到很大的提高。

插入操作

每次向字典或集合插入一个元素时,python 会首先计算键的哈希值(hash(key)),在和 mask = PyDicMinSize - 1做与操作,计算这个元素应该插入哈希表的位置 index = hash(key)&mask,如果哈希表此位置是空的,那么这个元素就会被插入其中。

如果此位置已被占用,Python 便会比较两个元素的哈希值和键是否相等。 如果两者都相等,则表明两个元素已经存在,如果值不同,则更新值。 若两者有一个不等,这种情况我们称之为哈希冲突,意思是两个元素的键不相等,但是哈希值相同。这种情况下,python 便会继续寻找表中空余的位置,直到找到位置为止。

删除操作,

python 会暂时对这个位置的元素,赋一个特殊的值,等到重新调整哈希表的大小时,再将其删除。

不难理解,哈希冲突的发生,往往会降低字典和集合操作的速度。因此,为了保证其高效性,字典和集合内的哈希表,通常会保证其至少留有 1/3 的剩余空间。随着元素的不停插入,当剩余空间不足 1/3 时,python 会重新获取更大的内存空间,扩充哈希表。不过在这种情况下,表内的所有元素的位置都会被重新排放。

虽然哈希冲突和哈希表大小的调整,都会导致速度减缓,但是这种情况发生的次数极少,所以平均情况下,这仍能保证插入、查找和删除的时间复杂度为 O(1)。

思考下面初始化字典的方式,哪一种更高效?

# Option A

d = {'name': 'jason', 'age': 20, 'gender': 'male'}

# Option B

d = dict({'name': 'jason', 'age': 20, 'gender': 'male'})

第一种更快,{} 是一个内置函数,不需要涉及 dict() 函数调用时的 stack 操作。字典的键可以是一个列表吗,下面的代码是否正确?

d = {'name': 'jason', ['education']: ['Tsinghua University', 'Stanford University']}

用列表作为 key 在 dict 中是不被允许的,因为列表是一个动态变化的数据结构,字典中的key要求是不可变的。如果是可变的 key ,那么随着 key 的变化,这里就有可能有重复的 key,那么这就和字典的定义相违背。这里换成 tuple 是可行的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/350593.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ITK读取图像

//读取png图像#include "itkImage.h" #include "itkImageFileReader.h" #include "itkImageFileWriter.h" #include "itkPNGImageIOFactory.h" #include "itkJPEGImageIOFactory.h"int main(int argc, char ** argv) {typed…

documentFragment深入理解

documentFragment是一个保存多个element的容器对象(保存在内存)当更新其中的一个或者多个element时,页面不会更新。只有当documentFragment容器中保存的所有element更新后再将其插入到页面中才能更新页面。 documentFragment用来批量更新 列如…

在React中处理事件

在使用React渲染RESTful服务后,我们创建了一个简单的UI,用于渲染从RESTful服务获取的员工列表。 作为本文的一部分,我们将扩展同一应用程序以支持添加和删除员工操作。 我们将通过添加/删除员工操作来更新react-app后端api,并修改…

ITK读图VTK显示

ITK 实现图像数据的读取,然后通过连接器把ITK读取的图像数据传输到VTK 然后进行显示。 #include "itkImage.h" #include "itkImageFileReader.h" #include "itkImageToVTKImageFilter.h" #include "itkJPEGImageIOFactory.h&qu…

python如何读二进制文件_python怎么读二进制文件

实际项目中经常遇到读取二进制问题,Python下读取二进制文件一般用Python的文件打开读写相关函数和struct. python学习网,大量的免费python视频教程,欢迎在线学习! 1。获取文件名filename,可用对话框,也可以直接手写 2。…

第一阶段冲刺07

第一阶段冲刺07 昨天做了什么:学习了sqlite,但了解到开发非单机App,sqlite不适用于作为后台数据库。 今天准备做什么:学习http协议与Android通过服务器连接MySQL的知识。 遇到的困难:对于开发非单机版App的数据库的选择…

horizon client 无法识别域_「领域驱动设计DDD」事件风暴简介:实现域驱动设计的简便方法...

事件风暴是一种快速,轻量级且未得到充分认可的群体建模技术,它对于加速开发团队而言非常强大,有趣且有用。作为Alberto Brandolini的心血结晶,它是Gamestorming和领域驱动设计(DDD)原则的综合学习实践。该技…

第十篇 数据类型总结

第十篇 数据类型总结 ## 1 按可变类型or不可变类型 可变数据类型不可变数据类型列表数字字典字符串集合元组## 2 按有序or无序 有序无序字符串字典列表集合元组/数字不存在有序或无序一说## 3 按访问类型(查) 直接访问顺序访问(序列类型&…

OpenCV cvtColor()函数

cv::cvtColor()用于将图像从一个颜色空间转换到另一个颜色空间的转换(目前常见的颜色空间均支持),并且在转换的过程中能够保证数据的类型不变,即转换后的图像的数据类型和位深与源图像一致。 void cv::cvtColor(cv::InputArray s…

python读取csv某些行_【Python】Python 读取csv的某行或某列数据

站长用Python写了一个可以提取csv任一列的代码,欢迎使用。 Github链接 csv是Comma-Separated Values的缩写,是用文本文件形式储存的表格数据,比如如下的表格:就可以存储为csv文件,文件内容是: No.,Name,Ag…

logback slf4j_强制Tomcat通过SLF4J / Logback登录

logback slf4j因此,您将JAR可执行Web应用程序与Tomcat捆绑在一起 (请务必先阅读其中一个)。 但是,一开始就有这些烦人的Tomcat日志,它们独立于我们的应用程序日志且不可自定义: Nov 24, 2012 11:44:02 PM …

APP测试点总结

1 功能测试 根据产品需求文档编写测试用例  软件设计文档编写测试用例2 兼容性测试 适配性测试手机不同分辨率支持,客户端支持的分辨率等  手机不同版本的支持  手机不同厂家系统的支持  手机不同尺寸的支持安装,卸载测试生成的apk文件在真机上可…

threshold()

一、threshold()函数 1.1 threshold()函数各参数详解 double threshold(InputArray src,OutputArray dst,double thresh,double maxval,int type) 第一个参数,InputArray类型的src,输入数组,填单通道 , 8或32位浮点类型的Mat即可。 第…

如何提升python编程能力_Python编程小白如何提升自己的编程能力

1.不使用分号 使用分号在Python中是可选的,对比其他面向对象语言,你不需要在每一条语句后面使用分号。 这看起来很简单,似乎也节省不了多少时间;但一旦你的代码量扩展到数千号,这些分号就变得分心且没有必要键入。 2.找一个称手的…

javascript时间戳和日期字符串相互转换代码

一、日期字符串转时间戳 // 获取当前时间戳(以s为单位)// 第一种方式var timestamps new Date();timestamps timestamps / 1000;// 第二种方式var timestamp Date.parse(new Date());timestamp timestamp / 1000;// 第三种方式var date new Date("2014-07-10 10:21:1…

如何使用Spring设置安全的REST API

众所周知, Spring Boot是一个工具包,可以快速轻松地开发功能强大的Web服务。 它非常模块化,可以与其他框架和工具很好地配合使用。 在本教程中,我将向您展示通过使用Speedment作为ORM对现有SQL数据库设置RESTful API多么容易。 背…

OpenCV imread()函数

imread(const string& filename, int flags1) 例如: //读入图像单通道,即灰度图 ScrImage imread("C:\\Users\\Desktop\\opencv_1.jpg", 0);imread函数从文件中加载图像并返回该图像。如果该图像不能被读取&#x…

layui横向时间线_炒股一生只买一种股票:股价K线形成这样后,必然有一波拉升...

在上升趋势中做多; 在下跌趋势中做空; 在震荡区间顶部做空、底部做多。大趋势像是遛狗的主人,他走的比较慢;狗就像中短期的走势,活蹦乱跳,有时候跑过头,又会回来找主人一下,然后再去东闻闻、西嗅嗅。最后你…

最小二乘

1.最小二乘的背景 这种东东的来源,比较容易找到而且比较靠谱的途径自然是wiki百科了,以下部分的内容来自wiki百科: 1801年,意大利天文学家朱赛普皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运…