I am Charmie

メモとログ

PyTorch 1.9.0 on Ubuntu 20.04

ここを参考にして,以下の構成でCUDA, gpytorch, botorch, axのインストールに成功

  • nvidia-driver: 470
  • CUDA: 11.1
  • cuDNN: 8.20
  • PyTorch: 1.9.0の組み合わせ
  • GPyTorch:
  • botorch:

0. バックアップ

timeshiftをインストールして,システムバックアップを取る.

sudo apt install timeshift

1. Nvidia driver

Step 1: 既存の全ドライバを削除

sudo apt purge nvidia*

Step 2: ドライバのPPAを追加

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update

Step 3: 使用可能なドライバを検索

ubuntu-drivers devices

Step 4: ドライバをインストール

  • この対応表を見ると,450か460にするとCUDA11.1と互換性あるのかな
  • 470はCUDA 11.4までサポートしているという意味らしい
  • nvidia-smiで表示されるCUDA ver.も最大で11.4までサポートしてるよという意味で,別にCUDA 11.4をインストールしちゃったというわけではない(はず)
  • 最後に再起動する
sudo apt install nvidia-driver-470
systemctl reboot

CUDA

## cuda toolkitのインストール

CUDA 11.1.0 for Ubuntu 20.04

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.1.1/local_installers/cuda-repo-ubuntu2004-11-1-local_11.1.1-455.32.00-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-1-local_11.1.1-455.32.00-1_amd64.deb
sudo apt-key add /var/cuda-repo-ubuntu2004-11-1-local/7fa2af80.pub
sudo apt-get update
sudo apt-get -y install cuda

パス設定

以下の2行を~/.bashrcの末尾に追加してsource ~/.bashrc

export PATH="/usr/local/cuda-11.1/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH"

cuDNN

ここからcuDNNの8.2のファイルをダウンロードしてインストール

# install run-time library
sudo dpkg -i libcudnn8_x.x.x-1+cudax.x_amd64.deb

# Install the developer library
sudo dpkg -i libcudnn8-dev_8.x.x.x-1+cudax.x_amd64.deb

# Install the code samples and the cuDNN library documentation
sudo dpkg -i libcudnn8-samples_8.x.x.x-1+cudax.x_amd64.deb

サンプルの実行

サンプルをコンパイルしたらFreeImage.hが見つからないエラーが起きたので,以下の手順で確認

sudo apt install libfreeimage3 libfreeimage-dev
cp -r /usr/src/cudnn_samples_v8/ ~/Downloads/
cd cudnn_samples_v8/mnistCUDNN
make -j8
./mnistCUDNN

Anaconda

全ユーザがアクセス可能な場所にインストール

/opt/anaconda/anaconda3にインストールするため,/opt/anacondaを作成しアクセス権を付与

sudo mkdir /opt/anaconda
sudo chmod ugo+w /opt/anaconda

wget https://repo.anaconda.com/archive/Anaconda3-2021.05-Linux-x86_64.sh
bash Anaconda3-2021.05-Linux-x86_64.sh

pythonを3.9にアップグレード

conda create -n py39 python=3.9
echo 'conda activate py39' >> ~/.bashrc 

conda install pytorch torchvision cudatoolkit=11.1 -c pytorch -c nvidia
conda install botorch -c pytorch -c gpytorch
pip install ax-platform

CUDAのインストールエラー

  • nvidia-driver-470をインストールしたらapt install cudaを実行したときに以下のエラーが発生
  • OSのクリーンインストール後にnvidia-driver-455とCUDA 11.1.0の組み合わせでインストールしたら成功
  • apt install cudaでエラーが出た後,nvidia-driver-455のインストールにも失敗するようになったが,nvidia-driver-470はインストールできる
Errors were encountered while processing:
nvidia-dkms-455
cuda-drivers-455
cuda-drivers
nvidia-driver-455
cuda-runtime-11-1
cuda-demo-suite-11-1
cuda-11-1
E: Sub-process /usr/bin/dpkg returned an error code (1)