PyTorch 是一个 Python 优先的深度学习框架,也是使用 GPU 和 CPU 优化的深度学习张量库,能够在强大的 GPU 加速基础上实现张量和动态神经网络。
在使用PyTorch的时候经常会遇到一些问题,比如虚拟环境配置错误(没有安装TensorBoard),报错搞不懂问题出在哪等
或者是一些硬件上的问题,自己的电脑跑不动之类的。
这种时候就发现了北鲲云超算平台(不是
想要在北鲲云上使用Pytorch还是很简单的,就像标题说的,不用自己配置环境,可以直接使用。
第一步,通过SSH连接启动一个管理节点,并连接进入管理节点。
第二步,提供文件传输上传输入文件,这里我们使用的是Linux数据传输
在文件传输页面,点击“新建”上传文件或文件夹,您也可以进入到自定义目录,点击“新建”上传到自定义目录
第三步,按照第一步中的连接管理节点后创建作业目录并进入
mkdir pytorchJob1
cd pytorchJob1
第四步,在之前创建的文件夹下执行脚本
#!/bin/bashmodule add Anaconda3/2020.02 #加载Anaconda3软件
source activate pytorch-1.5 #激活pytorch环境
python mnist.py > py.log #运行程序
第五步 使用sbatch命令提交作业,这里要提示的是,北鲲云使用的是slurm作业管理系统
sbatch -p g-t4-1 -c 4 pytorch.sh
此处为提交任务到一张T4卡的GPU节点运行。
这只是举例配置,平台还有更多配置可以供大家使用。还有更多信息和案例可以欢迎来我们官网看看