Ubuntu 20.04 + Nvidia 460.39 Hang issue
우분투 20.04, Nvidia 460 Hang
오늘은 슈퍼마이크로 4124GS-TNR Test 상황에서 Hang issue가 확인 되어 공유하게 되었습니다.
2020.12.20 - [supermicro] - 슈퍼마이크로 AS-4124GS-TNR 상세정보 PCI-E 4.0
Server SPEC
OS : Ubuntu 20.04.x server
Nvidia-Driver : 460.39
GPU: A100
Ubuntu에서 Nvidia driver 설치 하는 방법은 크게 3가지 있습니다.
- Run file을 통한 설치
- deb 파일을 통한 local repo 설치
- add-apt를 통한 repository 등록 후 설치
(하단 참조)
일반 적으로는 Run file을 많이 사용하지만, 최근들어 Repository 등록을 하여 설치를 선호하는 편입니다. (물론 제 개인적인 의견입니다.)
1. Run file을 통해 설치를 하게 되면, nouveau로 1번 고생을 하게 되며, 2번째로는 kernel update시 nvidia driver가 깨져서 nvidia-smi 커맨드가 사용할 수 없게 되는 상황이 많습니다.
2. 보통 저희 엔지니어는 사용하지 않습니다.
3. repository를 추가하면 최신 드라이버 및 기존 드라이버 설치가 가능하며, kernel update시에도 kernel에 맞는 드라이버로 update가 되어 사용하기 좋습니다. 또한 nouveau에 대한 스트레스 없이 사용 할 수 있습니다.
Hang 증상
- Ubuntu Desktop이 Server 버전 사용 시 현재 글 쓴 기준으로 하여 3번 repository를 추가하여 nvidia driver 460 버전을 설치 시 460.39버전이 설치되며 GUI가 같이 설치가 됩니다.
- GUI가 설치 되며, 로컬화면을 GUI 상태로 두고 ssh를 접속하여 사용하게 되면 ssh 접속이 끊기며 blackscreen이 등장하게 됩니다.
- 서버가 절전모드로 빠지며, power button을 눌렀을 때 서버가 활성화 되게 되며, ubuntu 20 설치가 매끄럽게 되지않은상황에서는 절전모드가 아닌 Hang 증상이 발생하게 됩니다.
2020.12.18 - [linux] - NVIDIA-SMI 확인방법 및 활용하기
해결방법
add-apt를 통한 설치
# add-apt-repository ppa:graphics-drivers/ppa
# apt-get update
# apt-get install nvidia-driver-4xx
apt-get install nvidia-driver 설치 시 nvidia-driver-(tab) 키를 누르게 되면 자동완성이 되지만 여러가의 버전이 있기 때문에 Tab 더블클릭 해줍니다.
double click시 nvidia-driver-($Version)이 여러개 나오는데요.
ex) nvidia-driver-440, nvidia-driver440-server, nvidia-driver-450, nvidia-driver-450-server, nvidia-driver-460
위와 같이 나오게 된다면 nvidia-driver460은 베타버전이기 때문에 server버전이 별도로 있지 않습니다. 그러므로 GUI환경인 데스크톱 버전이 설치 되기 때문에, 450-server 버전을 설치 하시기 바랍니다.
'linux' 카테고리의 다른 글
Docker 교육 2일차 정리 (310) | 2021.03.24 |
---|---|
Docker 교육 1일차 정리 (310) | 2021.03.23 |
cuda 11.0 및 cudnn 설치 방법 - 리눅스(ubuntu18.04) (382) | 2021.02.17 |
nvidia nvswitch install - 설치 과정 오류 해결 (415) | 2021.01.13 |
Raid 구성 알아보기 R0, R1, R5 등 (465) | 2021.01.10 |
최근댓글