我的博客

Ubuntu 18.04 安装 RTX 2080ti 驱动和 CUDA

目录
  1. 背景
  2. 准备
  3. 安装驱动
  4. 安装 CUDA
  5. 安装 cuDNN
    1. 验证安装
  6. 安装 Tensorflow
  7. 问题解决

背景

Dell R720
Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz 24 核心 32 GB 内存。
电源 1000 W
Ubuntu 18.04.3 LTS

RTX 2080 Ti 公版,拟安装驱动版本 NVIDIA-Linux-x86_64-440.44,拟安装 CUDA 版本 10.2

准备

GeForce 驱动
CUDA
cuDNN

安装驱动

官网提供了驱动的安装包,后缀名是 run,是一个可执行文件,我选择 440.44 版本。官方安装指南

注意:

  1. 这个安装程序必须使用 root 身份运行

  2. 软件依赖:binutils,GNU make,gcc

    sudo apt install binutils make gcc g++

1
2
wget https://us.download.nvidia.com/XFree86/Linux-x86_64/440.44/NVIDIA-Linux-x86_64-440.44.run
sudo sh NVIDIA-Linux-x86_64-440.44.run

安装完成后尝试使用命令nvidia-smi查看显卡信息,能正常显示则说明安装成功。

因为我使用的是 ubuntu server 版本,本身没有 xserver,官方安装指南里说需要,但是我没有装,虽然安装过程中有相关的提示,但是安装还是成功了,不行再说吧。

安装 CUDA

官网上提供了几种按装方法,我选择了下载离线 run 安装包的方法,版本是 10.2.89_440.33.01

1
wget http://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run

这个安装包有 2.5 G,需要 1 个多小时,所以换成了 aria2,发现快了不少,12分钟就下好了。或许可以试试用在线的 run 包,不知道能不能快,但是我怕不稳定,没试。

安装

sudo sh cuda_10.2.89_440.33.01_linux.run

结果

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
user@server:~$ sudo sh cuda_10.2.89_440.33.01_linux.run
===========
= Summary =
===========

Driver: Installed
Toolkit: Installed in /usr/local/cuda-10.2/
Samples: Installed in /home/user/, but missing recommended libraries

Please make sure that
- PATH includes /usr/local/cuda-10.2/bin
- LD_LIBRARY_PATH includes /usr/local/cuda-10.2/lib64, or, add /usr/local/cuda-10.2/lib64 to /etc/ld.so.conf and run ldconfig as root

To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-10.2/bin
To uninstall the NVIDIA Driver, run nvidia-uninstall

Please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-10.2/doc/pdf for detailed information on setting up CUDA.
Logfile is /var/log/cuda-installer.log

安装 cuDNN

7.6.5.32

官网提供了 deb 格式的安装包,有三个:

libcudnn7_7.6.5.32-1+cuda10.2_amd64.deb
libcudnn7-dev_7.6.5.32-1+cuda10.2_amd64.deb
libcudnn7-doc_7.6.5.32-1+cuda10.2_amd64.deb

先装 libcudnn7_7.6.5.32-1+cuda10.2_amd64.deb,再装 dev,再装 doc,doc 可以不装(如果要验证安装的话还是得装)。

验证安装

1
2
3
4
cp -r /usr/src/cudnn_samples_v7/ $HOME
cd $HOME/cudnn_samples_v7/mnistCUDNN
make clean && make
./mnistCUDNN

正常的话最后显示 Test passed!

安装 Tensorflow

1
2
3
sudo apt update
sudo apt install python3-dev python3-pip
sudo pip3 install tensorflow-gpu

python3 -c "import tensorflow as tf; print(tf.reduce_sum(tf.random.normal([1000, 1000])))"

python3 -c "import tensorflow as tf;print('GPU:', tf.test.is_gpu_available())"

测试不行,错误见问题解决,决定编译安装,官方文档

具体操作在这里

问题解决

Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are installed properly if you would like to use GPU. Follow the guide at https://www.tensorflow.org/install/gpu for how to download and setup the required libraries for your platform.

有可能是 CUDA 版本和这个 tensorflow 版本对不上。

评论无需登录,可以匿名,欢迎评论!