반응형

딥러닝 서버 추천 사양 및 슈퍼마이크로 GPU 서버 NGC 인증

AI용 딥러닝 서버를 구축하기 전 어느 정도의 SPEC이 적당한지, 또는 GPU 사양만 고려하면 되는지 등의 고민이 많은데요. 오늘은 딥러닝 서버를 구축하기 위해 NGC(NVIDIA GPU CLOUD) 사용에 대한 가이드라인과 NGC 지원 서버 목록 및 추천 사양에 대해 알아보겠습니다.

 

딥러닝 GPU 서버 사양

1. NGC 지원 권장 기본 구성

2. NGC 지원 서버 목록

3. NVIDIA 인증 서버

딥러닝 GPU 서버 사양

1. NGC 지원 권장 기본 구성

아래 표에는 NGC 컨테이너를 실행하도록 서버를 설정하는데 권장되는 기본 구성입니다. 이러한 기본 권장 사항에 추가 하드웨어 리소스를 추가하면 성능이 향상될 수 있습니다.

 


이러한 권장 기본 구성은 NVIIDA의 테스트를 기반으로 하며, 성능은 작업량에 따라 달라질 수 있습니다.

딥러닝기본구성

1-1 NGC 지원 서버 구성의 예

아래는 이전 표에 나열된 권장 사항을 충족하는 예제 구성입니다.

딥러닝서버사양
example NGC-Ready Server Configurations

딥러닝 GPU 서버를 구성할 때 많은 사람들이 궁금해 할 수 있는 부분인데요. 기본적으로 메모리 할당이 왜 그렇게 많은지에 대해 의구심을 갖는 분들이 많습니다.

위에 NGC(Nvidia GPU CLOUD)에서 제공하는 추천 사양은 위와 같으며, 시스템 메모리는 GPU의 모든 메모리를 합한 것의 2.5배 이상을 권장하고 있습니다.

 

위 사진처럼 V100 GPU가 32GB이며, 8 GPU 시스템이라면 32 x 8 x 2.5를 계산하여 시스템 메모리는 Total 640GB 이상이 나와야 합니다.

 

2. NGC 지원 서버 목록

다음은 Nvidia에서 NGC-Ready로 검증된 타사 시스템 목록이며, NGC-Ready 서버는 NGC 컨테이너를 실행하는 고성능을 제공하는 능력을 검증하는 광범위한 테스트를 통과했습니다.

  • Tensorflow, PyTorch 및 NVIDIA DeepStream Transfer Learing Toolkit을 사용한 단일 및 다중 GPU 딥러닝 교육
  • NVIDIA TensorRT, TensorRT Inference Server 및 Deep Stream을 사용한 대용량, 저 지연 추론
  • RAPIDS 및 XGBoost를 사용하는 Data Science
  • CUDA Toolkit을 사용한 애플리케이션 개발

 

NGC-Ready for Edge 서버는 NGC-Ready 테스트를 통과한 것 외에도 하드웨어 기반 키 관리를 위한 TPM 및 원격 시스템 관리를 위한 Redfish의 산업 표준을 사용하는 NVIDIA EGX 플랫폼을 지원하는 능력을 입증하였습니다.

 

NGC 지원 서버

ngc검증서버1
ngc검증서버2
ngc검증서버3
NGC-Ready Servers

NGC 지원 서버에는 정말 다양한 브랜드의 서버회사들이 보이는데요.

제가 빨간 영역으로 체크해 놓은 슈퍼마이크로 GPU 서버는 보시는 것처럼 많은 GPU 서버군이 검증을 받았다는 것을 알 수 있을 것입니다.

 

그만큼 국내 시장에서는 요즘 어딜 가나 GPU 서버를 보시면 Supermicro 서버임을 확인하실 수 있습니다. 그만큼 슈퍼마이크로 GPU 서버는 안정적이며, 높은 효율을 낼 수 있기 때문에 많은 기업에서 찾아주시고 있습니다.

 

대표적인 슈퍼마이크로 GPU 서버는 4029GP-TRT2, 4029GP-TVRT가 있으며, 현재는 위에 업데이트되지 않은 모델이지만 가장 큰 관심을 받고 있는 A100서버인 4124GS-TNR 모델과 4124GO-NART 모델이 있습니다.

 

엣지서버
Edge Servers

또한 Edge 서버군에서도 Supermicro 서버는 5개의 목록이 Update 되어 있습니다.

 

3. NVIDIA 인증 시스템

마지막으로 2021년 1월 25일 기준으로 update가 된 NVIDIA 인증 시스템인데요. NVIDIA Ampere GPU(A100) 및 NVIDIA Mellanox 네트워킹으로 테스트되고 NVIDIA 엔지니어가 성능 및 기능, 확장성과 보안을 평가한 시스템입니다.

 

 

NVIDIA 인증 시스템은 엄격한 기능 및 성능 테스트를 성공적으로 완료했으며 독립형 AI 시스템과 네트워크 다중 노드 클러스터의 일부로서 고성능을 제공할 수 있는 능력을 입증했습니다.

 

NVIDIA 인증 시스템 테스트 항목

  • Tensorflow 및 Pytorch를 사용한 단일 및 다중 GPU 딥러닝 학습 성능
  • NVIDIA TensorRT 및 TRITON을 사용한 대용량, 저지연 추론
  • RAPIDS를 사용한 GPU 가속 데이터 분석 및 기계 학습
  • NVIDIA CUDA Toolkit 및 NVIDIA HPC SDK를 사용한 애플리케이션 개발
  • 다중 노드 딥러닝 훈련 성능
  • 고 대여폭, 저 대기 시간 네트워킹 및 가속화된 패킷 처리
  • 시스템 수준 보안 및 하드웨어 기반 키 관리

nvidia인증

NVIDIA 인증 서버

nvidia인증서버
NVIDIA-Certified Servers

위 NVIDIA 인증 서버에 Supermicro의 4124GS-TNR 모델은 PCIe 4.0을 사용하는 8 GPU 서버입니다. 또한 아래 2124GQ-NART는 HGX A100(NVLink) 4 GPU 서버이며, 위에 항목에는 Update가 되지 않았지만 당연히 목록에 포함되어야 할 GPU 서버가 있습니다.

 

4124GO-NART 서버는 HGX A100(NVLink) 8 GPU 서버이며, DGX A100과 같은 Architecture 이기 때문에 많은 관심을 받으며, 문의가 가장 많은 슈퍼마이크로의 대표 GPU 서버입니다.

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기