我正在修改Python的setfrozenset集合类型。

最初,我认为frozenset将提供比set更好的查找性能,因为它是不可变的,因此可以利用存储项的结构。

但是,对于以下实验,情况似乎并非如此:

import random
import time
import sys

def main(n):
    numbers = []
    for _ in xrange(n):
        numbers.append(random.randint(0, sys.maxint))
    set_ = set(numbers)
    frozenset_ = frozenset(set_)

    start = time.time()
    for number in numbers:
        number in set_
    set_duration = time.time() - start

    start = time.time()
    for number in numbers:
        number in frozenset_
    frozenset_duration = time.time() - start

    print "set      : %.3f" % set_duration
    print "frozenset: %.3f" % frozenset_duration


if __name__ == "__main__":
    n = int(sys.argv[1])
    main(n)

我使用CPython和PyPy执行了此代码,结果如下:
> pypy set.py 100000000
set      : 6.156
frozenset: 6.166

> python set.py 100000000
set      : 16.824
frozenset: 17.248

在CPython和PyPy中,看来frozenset实际上在查询性能方面都较慢。有人知道为什么会这样吗?我没有研究实现。

最佳答案

frozensetset实现在很大程度上是共享的。 set只是添加了变异方法的frozenset,具有完全相同的哈希表实现。参见 Objects/setobject.c source file;顶层 PyFrozenSet_Type definition PySet_Type definition共享功能。

这里没有针对冻结集的优化,因为在测试成员资格时无需计算frozenset中项目的哈希。用于对集合进行测试的项目仍需要计算其哈希值,以便在集合哈希表中找到正确的插槽,以便进行相等性测试。

因此,您的计时结果可能由于系统上正在运行其他进程而无法使用。您测量了时钟时间,没有禁用Python垃圾收集,也没有重复测试同一件事。

尝试使用 timeit module运行测试,其中一个来自numbers,另一个不在集合中:

import random
import sys
import timeit

numbers = [random.randrange(sys.maxsize) for _ in range(10000)]
set_ = set(numbers)
fset = frozenset(numbers)
present = random.choice(numbers)
notpresent = -1
test = 'present in s; notpresent in s'

settime = timeit.timeit(
    test,
    'from __main__ import set_ as s, present, notpresent')
fsettime = timeit.timeit(
    test,
    'from __main__ import fset as s, present, notpresent')

print('set      : {:.3f} seconds'.format(settime))
print('frozenset: {:.3f} seconds'.format(fsettime))

这将每个测试重复一百万次,并产生:
set      : 0.050 seconds
frozenset: 0.050 seconds

关于python - 设置与卡住设置性能,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36555214/

10-12 21:00