3行で
- nvidiaのドライバを削除
- cuda関係のファイルを削除
- 再インストール
経緯
ubuntuのパッケージマネージャでupgradeをした時に,nvidiaのドライバをupgradeしてしまったっぽく,pytorchでcudaを使った処理ができなくて困った.
(実は未だに)状況を完全に把握していないんだけど,cuDNNとDriverの整合性の問題なのかな?
対処
ここに書いてある方法でいける.
インストール済みドライバ・ファイルの削除
- conda uninstall pytorch torchvision
- sudo apt purge nvidia-*
- sudo apt purge cuda-*
- sudo apt autoremove
ドライバ・ファイルの再インストール
- sudo dpkg -i cuda-repo-ubuntu1804_10.0.130-1_amd64.deb
- sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
- sudo apt update
- sudo apt-get install cuda
- reboot
- sudo dpkg -i libcudnn7_7.6.1.34-1+cuda10.0_amd64.deb
- sudo dpkg -i libcudnn7-dev_7.6.1.34-1+cuda10.0_amd64.deb
- sudo dpkg -i libcudnn7-doc_7.6.1.34-1+cuda10.0_amd64.deb
pytorchの再インストール
- conda install pytorch torchvision cudatoolkit=10.0 -c pytorch
PyTorchのインストール中にcuDNN7.5.1でコンパイルしてあるバイナリがインストールされていて一瞬焦ったけど,cuDNN7.6.1でも問題なく動いている.