我想在每次 heapq.heapify 函数更改我的堆列表中的元素时收到回调通知(顺便说一句,需要跟踪列表中的对象以及它们的索引如何更改)。

我的计划是从 list 子类化并覆盖 __setitem__ 方法,我将从中跟踪列表中的更改。所以这是子类:

class List2(list):

    def __setitem__(self, key, value):
        print 'setitem: key=',key,' value=',value
        list.__setitem__(self, key, value)

    def __getitem__(self, key):
        print 'getitem: key=',key
        return list.__getitem__(self, key)

然后我创建一个 List2 实例并为其调用 heapify:
h = List2([12, -3, 0, 5, 1, 7])
heapq.heapify(h)

问题是覆盖的 __setitem__ 不是从 heapq.heapify 内部调用的。看起来 heapq.heapify 将 List2 的实例视为默认列表。
我想这与 heapq.heapify 是一个内置函数这一事实有关,但我仍然不明白。

为什么不从 __setitem__ 调用覆盖的 heapq.heapify

这里有趣的事情是,如果我将 heapq 的代码复制粘贴到我的本地模块中(因此它不再是内置函数),那么它会按预期工作并且我会调用 List2.__settiem__ ,但它不适用于默认值(内置) heapq

Python 2.7 是否重要

最佳答案

作为 Python 3.0 项目的一部分,同样在 3.3 中,他们仔细阅读了文档,使其更明确地使用 list 与一般 sequence typemutable sequence typeiterable ,并且 heapq 在 3.3 中明确表示 list,这意味着相同在 2.7 中为真。

如果您跟踪代码,如果您有 C 实现,则在 _heapqmodule.c 中,heapify 显式调用 PyList_Check 以验证该类型是真正的 list 而不是类似 list 的序列。这不会捕获 list 的子类,但您可以看到它直接调用 PyList_GETSIZE 和(在 _siftup 内) PyList_GET_ITEMPyList_SET_ITEM ,因此它将 list 子类视为基础 list 对象。 (并且从当前主干开始,这并没有改变。)

所以,有几种方法可以解决这个问题。

首先,正如@FogleBird 所建议的,您可以只 fork heapq 的纯 Python 实现——只需将完全相同的内容复制到您的项目中,给它一个不同的名称,并删除第 318-321 行的 from _heapq import * 位。

但是,这可能会慢很多。

从 CPython 切换到 PyPy 可能会自动解决这个问题(这也意味着无论您是否需要,您都将获得纯 Python 实现)。

事实上,我使用 1,000,000 项列表进行了快速测试。在验证 PyPy 确实使用了 List2 类之后,我对其进行了修改,以便将字符串存储到全局变量中,而不是打印出来。 (否则,打印时间比 Mac 上的实际工作长 3 倍,Windows 上的时间长 40 倍……)然后我用各种不同的 Python 运行它:

  • CPython 2.7.2 64 位 Mac:2.079s
  • CPython 3.3.0 64 位 Mac:1.997s
  • CPython 3.3.0 32 位 Mac:2.197s
  • PyPy 2.7.2/1.9.0 64 位 Mac:1.619s
  • CPython 2.7.3 32 位 Win:3.997s
  • PyPy 2.7.21.9.0 32 位 Win:2.334s

  • 因此,尽管实际上调用了我的 Python 列表覆盖,但 PyPy 吹走了其他一切。 (我没有测试 Jython 或 IronPython——部分原因是 JVM 或 .NET 的启动和预热时间太长,你需要更长的测试才能让它公平……但它们也必须使用纯 Python heapq模块。)

    但这可能是一个比您想要的更具戏剧性的变化。另一种选择是 fork _heapqmodule.c 。即使您根本不了解 C API,这实际上也只是一项搜索和替换工作。对于每个 PyList_FOO 函数,将其替换为相应的 PySequence_Foo 函数( PyList_SIZE -> PySequence_SizePyList_GETITEM -> PySequence->GetItem 等)。并在出现的两个地方替换模块名称。就是这样。然后构建模块,让你的 fork myheapq.py 尝试 import _myheapq 而不是 import _heapq 。这仍然不会像内置实现那样快,但这仅仅是因为它会多次调用您的 __getitem____setitem__ 方法,这正是您想要的。

    关于python - heapq.heapify 不适用于子类列表,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13924393/

    10-12 21:55