在整个机器学习的过程中,配置环境一直是一个比较复杂的事情,今天介绍几种根据英伟达官方文档来配置环境的方法。

安装方案

> https://gitlab.com/nvidia/container-images/cuda/ > 国内同步镜像:https://gitee.com/zionfuo/cuda

矩池云安装/修改 cuda、cudnn、nvcc、tensorRT 教程-LMLPHP

安装脚本在dist目录下

矩池云安装/修改 cuda、cudnn、nvcc、tensorRT 教程-LMLPHP

选择cuda的版本号

矩池云安装/修改 cuda、cudnn、nvcc、tensorRT 教程-LMLPHP

矩池云上cuda8/cuda9使用的是ubuntu16.04,cuda10及以上都是ubuntu18.04

矩池云安装/修改 cuda、cudnn、nvcc、tensorRT 教程-LMLPHP

  • base:cuda安装方式
  • devel:nvcc等安装方式
  • runtime:cudnn等安装方式

检查系统版本

source /etc/os-release && echo $VERSION_ID

cuda 与 nvcc 安装教程

导入apt仓库和其GPG key

# 检查系统若输出 16.04,请用下面的命令
curl -fsSL https://mirrors.aliyun.com/nvidia-cuda/ubuntu1604/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.aliyun.com/nvidia-cuda/ubuntu1604/x86_64/ /" > /etc/apt/sources.list.d/cuda.list

# 检查系统若输出 18.04,请用下面的命令
curl -fsSL https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804/x86_64/ /" > /etc/apt/sources.list.d/cuda.list

> cuda、nvcc在阿里源的nvidia-cuda中有,软件的对应的版本可以在阿里源中搜索查到。 https://mirrors.aliyun.com/nvidia-cuda/ubuntu1804(1604)/x86_64/

安装所需版本的 cuda

以cuda11为例,根据Dockerfile得出安装命令如下

矩池云安装/修改 cuda、cudnn、nvcc、tensorRT 教程-LMLPHP

# 以升级到cuda11为例
apt-get update && apt-get install -y --no-install-recommends
    cuda-cudart-11-0=11.0.221-1
    cuda-compat-11-0 &&
    ln -s cuda-11.0 /usr/local/cuda &&
    rm -rf /var/lib/apt/lists/*

安装所需版本的 nvcc

以cuda10版本的nvcc为例,根据Dockerfile得出安装命令如下

矩池云安装/修改 cuda、cudnn、nvcc、tensorRT 教程-LMLPHP

# "10-0" 表示安装CUDA10.0版本的 nvcc, 应根据镜像中cuda版本安装
apt-get update && apt-get install -y --no-install-recommends
    apt install cuda-command-line-tools-10-0
    rm -rf /var/lib/apt/lists/*

cudnn 与 tensorRT 安装教程

# 检查系统若输出 16.04,请用下面的命令
curl -fsSL https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1604/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1604/x86_64//" > /etc/apt/sources.list.d/cuda.list

# 检查系统若输出 18.04,请用下面的命令
curl -fsSL https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1804/x86_64/7fa2af80.pub | apt-key add -
echo "deb https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1804/x86_64//" > /etc/apt/sources.list.d/cuda.list

> cudnn、tensorRT在腾讯源的nvidia-machine-learning中有,软件的对应的版本可以在腾讯源中搜索查到。 https://mirrors.cloud.tencent.com/nvidia-machine-learning/ubuntu1804(1604)/x86_64/

安装所需版本的 cudnn

以cuda10.2下cudnn 8.0.3版本为例,根据Dockerfile得出安装命令如下

矩池云安装/修改 cuda、cudnn、nvcc、tensorRT 教程-LMLPHP

# 这里以cudnn 8.0.3.33版本为例
apt-get update && apt-get install -y --no-install-recommends
    libcudnn8=8.0.3.33-1+cuda10.2
    && apt-mark hold libcudnn8 &&
    rm -rf /var/lib/apt/lists/*

安装所需版本的 tensorRT

根据TensorFlow的官方文档得出安装命令如下

> https://www.tensorflow.org/install/gpu

矩池云安装/修改 cuda、cudnn、nvcc、tensorRT 教程-LMLPHP

# 这里以tensorRT 7.1.3版本为例
apt-get install -y --no-install-recommends libnvinfer7=7.1.3-1+cuda11.0
    libnvinfer-dev=7.1.3-1+cuda11.0
    libnvinfer-plugin7=7.1.3-1+cuda11.0
05-29 18:22