我需要做的就是,使用不同的内核同时在同一数据上训练两个回归模型(使用scikit-learn)。我试图自己弄清楚使用Process还是没有成功。
gb1 = GradientBoostingRegressor(n_estimators=10)
gb2 = GradientBoostingRegressor(n_estimators=100)
def train_model(model, data, target):
model.fit(data, target)
live_data # Pandas DataFrame object
target # Numpy array object
p1 = Process(target=train_model, args=(gb1, live_data, target)) # same data
p2 = Process(target=train_model, args=(gb2, live_data, target)) # same data
p1.start()
p2.start()
如果我运行上面的代码,则在尝试启动p1进程时收到以下错误。
Traceback (most recent call last):
File "<pyshell#28>", line 1, in <module>
p1.start()
File "C:\Python27\lib\multiprocessing\process.py", line 130, in start
self._popen = Popen(self)
File "C:\Python27\lib\multiprocessing\forking.py", line 274, in __init__
to_child.close()
IOError: [Errno 22] Invalid argument
我正在Windows上以脚本形式(在IDLE中)运行所有这些程序。关于如何进行的任何建议?
最佳答案
好吧..在花了几个小时尝试使之工作之后,我将发布解决方案。
第一件事。如果您使用的是Windows,并且正在使用交互式解释器,则需要在函数定义和导入过程中,在“ main ”条件下封装所有代码。这是因为当产生一个新进程时,它将循环运行。
我的解决方案如下:
from sklearn.ensemble import GradientBoostingRegressor
from multiprocessing import Pool
from itertools import repeat
def train_model(params):
model, data, target = params
# since Pool args accept once argument, we need to pass only one
# and then unroll it as above
model.fit(data, target)
return model
if __name__ == '__main__':
gb1 = GradientBoostingRegressor(n_estimators=10)
gb2 = GradientBoostingRegressor(n_estimators=100)
live_data # Pandas DataFrame object
target # Numpy array object
po = Pool(2) # 2 is numbers of process we want to spawn
gb, gb2 = po.map_async(train_model,
zip([gb1,gb2], repeat(data), repeat(target))
# this will zip in one iterable object
).get()
# get will start the processes and execute them
po.terminate()
# kill the spawned processes
关于python - 同时训练两个模型,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16631334/