pyhon 集合(set)
集合对象是不同的(不可重复)hashable对象的无序集合。常见用法包括:成员关系测试、移除序列中的重复、以及科学计算,例如交集、并集、差分和对称差分。通俗点来说,集合是一个无序不重复元素的数据集,其基本功能是进行成员关系测试和消除重复元素。
目前有两种内置的集合类型:set 和 frozenset。set类型是可变的--可以使用add() 和 remove()等方法更改其内容。由于它是可变的,它没有hash值,因此它不能被当做字典的键值或另一集合的元素。frozenset类型是不可变的 和 hashable的,它的内容不能再创建后改变,因此它可以用作字典的键值或作为另一个集合的元素。
set类构建函数
class set([iterable])
class frozenset([iterable])
set的构建方式
- 将一个用逗号分割的元素列表放在一堆花括号内可以创建一个非空set集合,如{'Tom', 'Jerry', 'Peter'}
- 给set的构建函数传递一个空值将会创建一个空set集合(注意:{}表示的是一个空字典而不是空set集合)
- 给set的构架你函数传一个非空iterable参数将会创建一个非空set集合
注意:
再次强调,一个set集合内的元素必须是hashable的(不可变的)。要想表示一个set的set,那么内部的set必须是frozenset对象,因为frozenset是不可变的,是hashable的。
set构建示例
>>> {'Tom', 'Jerry', 'Peter'} # 使用花括号创建非空set集合
{'Jerry', 'Tom', 'Peter'}
>>> set() # 使用set构建函数创建空set集合
set()
>>> set((1, 2, 3 ,4)) # 使用set构建函数创建非空set集合
{1, 2, 3, 4}
>>> set((1, 2, 3 ,['a', 'b', 'c'])) # set集合中的元素必须是不可变的、可哈希的
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: unhashable type: 'list'
set 和 frozenset都支持的操作
作为无序集合,set不记录元素位置或插入顺序。因此set不支持索引、切片或其他类序列行为。
len(set) # 获取集合中的条目个数
x in set # 成员关系测试--包含
x not in set # 成员关系测试--不包含
for x in set # 循环遍历集合中的条目
isdisjoint(other) # 判断该集合是否与另外一个集合不相交(当且仅当交集为空),不相交则返回True
issubset(other) 或 set <= other # 判断该集合是否是另外一个集合的子集
set < other # 判断该集合是否是另外一个集合的真子集
issuperset(other) 或 set >= other # 判断该集合是否是另外一个集合的父集
set > other # 判断该集合是否是另外一个集合的真父集
union(other,...) 或 set | other | ... # 求该集合与另外一个或多个集合的并集
intersection(other,...) 或 set & other & ... # 求该集合与另外一个或多个集合的交集
difference(other,...) 或 set - other - ... # 求该集合与另外一个或多个集合的差集(该集合中存在但其它集合中不存在的元素集合)
symmetric_difference(other) 或 set ^ other # 求该集合与另外一个集合的对称差集(该集合中存在但另一集合中不存在,或另一集合中存在但该集合中不存在的元素集合)
copy() # 返回一个新的浅拷贝集合
说明:
a) union()、intersection()、differnce()、symmetric_difference()、issubset() 和 issuperset()方法的可接受任何可迭对象作为参数。相比之下,它们的基于运算符的相应操作需要它们的参数是set。这避免了像set('abc') & 'cbs'这样易出错的结构,有利于更易读的结构,如set('abc').intersection('cbs')。
>>> set('abc')
{'c', 'a', 'b'}
>>> set('abc') & 'cbs' # 使用操作符进行相关操作,操作符两边都必须是set类型
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: unsupported operand type(s) for &: 'set' and 'str'
>>> set('abc') & set('cbs')
{'c', 'b'}
>>> set('abc').intersection('cbs') # 调用方法进行相关操作,参数可以是任意可迭代对象
{'c', 'b'}
>>> set('abc').intersection(['c','s', 'b'])
{'c', 'b'}
b) set和frozenset支持 集合与集合进行比较操作。
- 当且仅当每个集合的每个元素都包含在另一个(每个集合都是另一个的子集)时,两个集合是相等的;
- 当且仅当第一集合是第二集合的真子集(是子集,但不相等)时,集合小于另一集合;
- 当且仅当第一集合是第二集合的真父集(是父集,但不相等)时,集合大于另一集合;
c) set和frozenset之间是基于它们的成员进行比较的。比如set('abc') == frozenset('abc')返回True,因此set('abc') in set([frozenset('abc')])
>>> set('abc') == frozenset('abc')
True
>>> set('abc') in frozenset('abc')
False
>>> set('abc') in set(frozenset('abc'))
False
>>> set('abc') in set([frozenset('abc')])
True
d) 子集和相等的比较不推广到总排序函数。例如,任何两个非空且不相交的集合是不相等的,并且不是彼此的子集。因此,它们对应的以下操作都返回False: a<b, a==b, a>b。
e) 因为set之定义了部分排序(子集关系),因此灭有为set的list定义list.sort()方法。
f) set集合的元素像dict的键一样,必须是可哈希的。
g) set实例与frozenset实例混合进行二进制操作将会返回第一个操作数的类型。例如:frozenset('ab')
| set('bc')会返回一个frozenset实例。
set支持但frozenset不支持的操作
set是可变集合,而frozenset是不可变集合,因此set的有些修改操作是frozenset不支持的。
add(elem) # 向集合中添加一个元素
remove(elem) # 从集合中删除一个元素,如果集合中不包含该元素会抛出KeyError错误
discard(elem) # 如果集合中包含该元素则删除它,这个方法明显比remove()好用
pop() # 由于set集合是无序的,因此该方法会移除并返回一个随机元素,而不是像list.pop()移除并返回最后一个元素
clear() # 清除set集合中的所有元素
update(other,...) 或 set |= other | ... # 更新set集合,将其它集合中的元素添加进来;简单点来说就是与其它一个或多个集合求并集并将结果赋值给自己
intersection_update(other,...) 或 set &= other & ... # 更新set集合,只保留所有集合中都存在的元素;简单点来说就是与其它一个或多个集合求交集并将结果赋值为自己
difference_update(other,...) 或 set -= other | ... # 与其它一个或多个集合求差集并将结果赋值给自己
symmetric_difference_update(other) 或 set ^= other # 与另外一个集合求对称差集并将结果赋值给自己;对称差集就是A-B 与 B-A 的并集
说明:
上面这些update方法也是可以接受任何可迭代对象作为参数。另外,remove(elem)和discard(elem)等方法中参数elem可以是一个set集合。为了支持搜索等效的frozenset,elem集合会在搜索期间被暂时修改,然后恢复。在搜索期间,elem不应该被读取或改动,因为它没有有意义的值。