作为我们公司的质量检查人员,我每天都是kubernetes的用户,我们使用kubernetes来创建性能测试容器。根据docs,工作的一个优势是
但是在我们的测试中,如果先前的Pod失败,此功能将创建无限的Pod,这将占用我们团队的共享集群的资源,并且删除此类Pod将花费大量时间。看到这张图片:
当前工作 list 是这样的:
{
"apiVersion": "batch/v1",
"kind": "Job",
"metadata": {
"name": "upgradeperf",
"namespace": "ntg6-grpc26-tts"
},
"spec": {
"template": {
"spec": {
"containers": [
{
"name": "upgradeperfjob",
"image":
"mycompany.com:5000/ncs-cd-qa/upgradeperf:0.1.1",
"command": [
"python",
"/jmeterwork/jmeter.py",
"-gu",
"git@gitlab-pri-eastus2.dev.mycompany.net:mobility-ncs-tools/tts-cdqa-tool.git",
"-gb",
"upgradeperf",
"-t",
"JMeter/testcases/ttssvc/JMeterTestPlan_ttssvc_cmpsize.jmx",
"-JtestDataFile",
"JMeter/testcases/ttssvc/testData/avaml_opus.csv",
"-JthreadNum",
"3",
"-JthreadLoopCount",
"1500",
"-JresultsFile",
"results_upgradeperf_cavaml_opus_t3_l1500.csv",
"-Jhost",
"mtl-blade32-03.mycompany.com",
"-Jport",
"28416"
]
}
],
"restartPolicy": "Never",
"imagePullSecrets": [
{
"name": "docker-registry-secret"
}
]
}
}
}
}
在某些情况下,例如IP /端口配置错误,“可靠地运行一个Pod到完成”是不可能的,而重新创建Pod则浪费时间和资源。
这样有可能吗?如果总是失败,如何限制kubernetes作业以创建最大数量的Pod(例如3)?
最佳答案
根据您的kubernetes版本,可以使用以下方法解决此问题:
restartPolicy: OnFailure
,然后将在同一个Pod中重新启动失败的容器,因此不会出现很多失败的Pod,而是会看到重新启动很多的Pod。 backoffLimit
可控制失败作业的重启策略。此参数定义将作业视为失败之前的作业重试时间,默认为6次。为了使此参数起作用,必须设置参数restartPolicy: Never
。 关于kubernetes - 有可能吗?如果总是失败,如何限制kubernetes作业以创建最大数量的Pod?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/54000757/