我有一个很大的迭代器。由于缺乏资源(网络,内存和时间),我无法一步执行程序。

因此,我认为如果在迭代器中将程序运行到第10000个元素然后保存其状态,那将是很好的选择。下次运行程序时,它将从迭代器中的10001st元素继续。

这是我使用的代码:

import itertools
import requests

POSSIBLE_CHARS = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
URL = "URL?key={code}"

all_possible = itertools.combinations_with_replacement(POSSIBLE_CHARS, 29)
counter = itertools.count(start=1)

for c in all_possible:
    print("Try {}:".format(next(counter)), c)

    c_url = URL.format(code=c)
    resp = requests.get(c_url)
    if resp.status_code == 200:
        print("C found:", c)

        with open(c+".gif", 'b') as f:
            f.write(resp.content)


link显示如何在单个执行中继续迭代器。但我要停止程序并再次执行。

最佳答案

因此,我认为如果在迭代器中将程序运行到第10000个元素然后保存其状态,那将是很好的选择。下次运行程序时,它将从迭代器中的10001st元素继续。


您很幸运,因为itertools.combinations_with_replacement对象具有允许设置状态的API。 Python中的copy模块使用了此功能,但是没有理由您也无法插入。

例如,第10,001个项目是这样的:

>>> all_possible = itertools.combinations_with_replacement(POSSIBLE_CHARS, 29)
>>> for i in range(10_000):
...     next(all_possible)
...
>>> "".join(next(all_possible))
'aaaaaaaaaaaaaaaaaaaaaaaaaafwI'


要在新的实例中“快进”至该项目,应为:

>>> new_iterator = itertools.combinations_with_replacement(POSSIBLE_CHARS, 29)
>>> state = (0,)*26 + (5, 22, 33)
>>> new_iterator.__setstate__(state)
>>> "".join(next(new_iterator))
'aaaaaaaaaaaaaaaaaaaaaaaaaafwI'
>>> "".join(next(new_iterator))
'aaaaaaaaaaaaaaaaaaaaaaaaaafwJ'
>>> new_iterator.__setstate__(state)  # bonus: rewind iterator!
>>> "".join(next(new_iterator))
'aaaaaaaaaaaaaaaaaaaaaaaaaafwI'


要了解为什么组合10,001对应于长度为29的某个元组,例如(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 ,0,0,0,0,0,0,0,0,5,22,33),我邀请您浏览CPython源to see how combinations objects allow themselves to be statefully copied以及pickle docs的相关部分。

如果您不需要针对错误或恶意构造的数据的安全性,那么您可以考虑简单地腌制此类迭代器以归档,而不是手动加入__setstate__方法。

关于python - 如何在python中保存迭代器的状态?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/54637622/

10-16 00:59