블로그로 돌아가기
GPU CloudAI InfrastructureL40SA100H100H200B200GB200B300

2026년 GPU 선택 가이드 — L40S부터 B300까지

VESSL AI
VESSL AI
||9분 소요
2026년 GPU 선택 가이드 — L40S부터 B300까지

"H100이면 충분할까, B200으로 가야 하나?" — GPU를 선택할 때 가장 많이 하는 고민이에요. 모델이 커지고, 워크로드가 다양해지면서 GPU 선택지도 한 세대 전과는 비교할 수 없이 넓어졌어요.

이 글에서는 현재 클라우드에서 사용할 수 있는 주요 GPU 8종의 스펙을 비교하고, 워크로드별로 어떤 GPU가 적합한지를 정리했어요. 기준은 단순해요 — VRAM, 연산 성능, 메모리 대역폭, 그리고 GPU 간 연결 방식이에요.

핵심 스펙 비교

먼저 8종 GPU의 핵심 스펙을 한 표로 정리했어요. 워크로드 선택에 가장 큰 영향을 주는 4가지 — VRAM, 메모리 대역폭, 연산 성능(FP8 기준), GPU 간 인터커넥트 — 를 중심으로 비교했어요.

GPU아키텍처VRAM대역폭FP8 (dense)인터커넥트TDP
L40SAda Lovelace48 GB GDDR6864 GB/s733 TFLOPSPCIe 4.0350W
RTX Pro 6000Blackwell96 GB GDDR71.6 TB/s—*PCIe 5.0600W
A100 SXMAmpere80 GB HBM2e2.0 TB/s312 (FP16)*NVLink 3.0 (600 GB/s)400W
H100 SXMHopper80 GB HBM33.35 TB/s1,979 TFLOPSNVLink 4.0 (900 GB/s)700W
H200 SXMHopper141 GB HBM3e4.8 TB/s1,979 TFLOPSNVLink 4.0 (900 GB/s)700W
B200 SXMBlackwell180 GB HBM3e8.0 TB/s4,500 TFLOPSNVLink 5.0 (1,800 GB/s)1,000W
GB200 NVL72Blackwell13.4 TB HBM3e (랙 전체)8.0 TB/s / GPU4,500 / GPUNVLink 풀메시 (72 GPU)—**
B300Blackwell Ultra288 GB HBM3e8.0 TB/s~7,000 TFLOPSNVLink 5.0 (1,800 GB/s)1,400W

* RTX Pro 6000은 Blackwell 아키텍처 기반 5세대 Tensor Core를 탑재했어요. Server Edition 기준 FP32 120 TFLOPS이며, FP4 Tensor 성능은 약 4,000 TFLOPS (dense)로 공개되어 있어요. A100은 FP8 미지원으로 FP16 기준 312 TFLOPS예요.

** GB200 NVL72는 랙 단위 시스템이에요. Grace CPU 36개 + Blackwell GPU 72개로 구성되며, 랙 전체 기준 13.4 TB HBM3e 메모리를 제공해요. 개별 GB200 Grace Blackwell Superchip 기준으로는 372 GB HBM3e예요.

스펙을 읽는 법 — 뭐가 중요할까?

VRAM: 모델이 들어가느냐의 문제

가장 먼저 확인해야 할 건 VRAM이에요. 모델 파라미터와 활성화 메모리가 GPU 메모리에 올라가야 학습이든 추론이든 가능하거든요. 대략적인 기준으로, 7B 모델 추론에 FP16 기준 약 14GB, 70B 모델에는 약 140GB가 필요해요. 학습은 옵티마이저 상태까지 포함하면 추론의 3~4배 메모리가 필요하고요.

메모리 대역폭: 토큰이 얼마나 빨리 나오느냐

추론에서 토큰 생성 속도는 대부분 메모리 대역폭에 의해 결정돼요. H100(3.35 TB/s)과 H200(4.8 TB/s)은 연산 성능은 같지만, H200의 추론 처리량(throughput)이 더 높은 이유가 바로 대역폭 차이예요.

연산 성능 (FP8 TFLOPS): 학습 속도의 핵심

학습에서는 연산 성능이 직접적으로 학습 속도에 영향을 줘요. FP8은 최신 모델 학습에서 표준이 되고 있고, Blackwell 세대부터 FP4까지 지원해요. A100은 FP8을 지원하지 않아서 FP16 기준으로 비교해야 해요.

인터커넥트: 멀티 GPU 확장의 병목

GPU 1장으로 안 되는 워크로드라면, GPU끼리 얼마나 빨리 데이터를 주고받을 수 있는지가 중요해요. NVLink은 GPU 간 직접 연결이고, PCIe는 메인보드를 경유해서 느려요. 멀티 GPU 학습이 필요하다면 NVLink이 있는 SXM 폼팩터가 맞아요.

인터커넥트대역폭해당 GPU
PCIe 4.0 / 5.064~128 GB/sL40S, RTX Pro 6000
NVLink 3.0600 GB/sA100 SXM
NVLink 4.0900 GB/sH100, H200
NVLink 5.01,800 GB/sB200, B300
NVLink 5.0 (풀메시)72 GPU 전체 연결GB200 NVL72

워크로드별 GPU 추천

이제 실제 워크로드에 어떤 GPU가 맞는지 정리해 볼게요. "정답"은 없지만, 모델 크기와 작업 유형에 따라 합리적인 출발점은 있어요.

워크로드추천 GPU핵심 이유
LLM 추론 (7B~13B)L40S, RTX Pro 600048~96GB VRAM이면 충분. 가격 대비 성능이 좋고, 양자화(INT8/INT4) 적용 시 더 큰 모델도 가능
LLM 추론 (70B+)H200, RTX Pro 6000141GB/96GB VRAM으로 대형 모델 로드 가능. H200은 HBM3e 대역폭(4.8 TB/s)으로 토큰 생성이 빠름
파인튜닝 (LoRA/QLoRA)A100, H10080GB VRAM + NVLink으로 70B 모델까지 LoRA 가능. 가격 대비 가장 검증된 조합
풀 파인튜닝 (70B+)H200, B200141~180GB VRAM + 높은 대역폭. 옵티마이저 상태까지 GPU 메모리에 올릴 수 있어 학습 효율이 높음
사전학습 (중규모, ~30B)H100, B200높은 FP8 연산 + NVLink + InfiniBand 멀티 노드 구성. H100은 성숙한 에코시스템, B200은 2.3배 빠른 연산
사전학습 (대규모, 100B+)GB200 NVL72, B300GB200은 72개 GPU를 하나의 NVLink 도메인으로 연결한 13.4 TB HBM3e 랙 시스템이에요. B300은 단일 GPU 288GB + 최고 연산
이미지/비전 모델H100, B200Diffusion 모델 학습엔 높은 연산 + 대역폭이 핵심. B200의 8 TB/s 대역폭이 큰 배치 처리에 유리
데이터 전처리 / 임베딩L40S, A100연산 부담이 크지 않은 배치 작업. 합리적 가격대에서 충분한 성능
비용 우선 실험L40S, A100시간당 비용이 가장 낮은 구간. 빠른 프로토타이핑과 반복 실험에 적합

VESSL Cloud에서의 가용성

위 GPU들은 VESSL Cloud에서 사용할 수 있어요. GPU에 따라 바로 시작할 수 있는 것과 세일즈 팀을 통해 이용 가능한 것으로 나뉘어요.

GPU가용성비고
L40S✅ 바로 사용 가능플랫폼에서 즉시 프로비저닝
RTX Pro 6000🔜 곧 입고 예정관심 있으시면 미리 문의해 주세요
A100 SXM✅ 바로 사용 가능플랫폼에서 즉시 프로비저닝
H100 SXM✅ 바로 사용 가능플랫폼에서 즉시 프로비저닝
H200 SXM💬 세일즈 문의세일즈 팀을 통해 이용 가능
B200 SXM💬 세일즈 문의세일즈 팀을 통해 이용 가능
GB200 NVL72💬 세일즈 문의워크로드에 맞는 구성 상담 후 제공
B300💬 세일즈 문의워크로드에 맞는 구성 상담 후 제공

VESSL Cloud의 GPU는 전량 SXM 기반(L40S, RTX Pro 6000 제외)이에요. 워크스페이스 환경이 유지되는 Persistent GPU Cloud라서, GPU를 Pause해도 환경(패키지, 데이터, 설정)이 그대로 보존돼요.

VESSL Cloud 바로가기

FAQ

H100을 쓰고 있는데, B200으로 갈아타야 할까요?

워크로드에 따라 달라요. 현재 H100으로 학습 시간이나 VRAM이 부족하다면 B200이 확실한 업그레이드예요 — 연산 2.3배, VRAM 2.3배, 대역폭 2.4배. 하지만 H100으로 충분히 돌아가고 있다면 무리하게 바꿀 필요는 없어요. H100 에코시스템이 가장 성숙하고, 시간당 비용도 B200보다 낮으니까요.

GB200과 B300 중 어떤 걸 선택해야 하나요?

두 GPU는 용도가 좀 달라요. GB200 NVL72는 72개 GPU를 하나의 NVLink 도메인으로 연결한 랙 시스템이라, 단일 랙 안에서 초대형 모델을 학습하거나 추론할 때 유리해요. 더 큰 규모는 InfiniBand/Ethernet 기반 클러스터로 확장하는 방식이 맞아요. B300은 단일 GPU의 VRAM(288GB)과 연산 성능이 극대화된 칩이에요. "GPU 수를 최소화하면서 각 GPU의 효율을 극대화하고 싶다"면 B300, "72-GPU NVLink 도메인이 필요한 대규모 단일 랙 워크로드"라면 GB200 구성이 맞아요.

L40S와 RTX Pro 6000은 학습에도 쓸 수 있나요?

소규모 모델의 파인튜닝이나 실험에는 충분히 쓸 수 있어요. 다만 PCIe 폼팩터라 NVLink이 없어서, 멀티 GPU 학습 시 GPU 간 통신이 느려요. 싱글 GPU로 LoRA 파인튜닝하거나, 추론 실험을 돌리는 용도로 가장 잘 맞아요. 특히 RTX Pro 6000은 96GB VRAM 덕에 꽤 큰 모델도 단일 GPU에서 다룰 수 있어요.

우리 모델에 VRAM이 얼마나 필요한지 어떻게 알 수 있나요?

대략적인 기준이에요:

  • FP16 추론: 파라미터 수 × 2바이트. 7B 모델 ≈ 14GB, 70B 모델 ≈ 140GB
  • INT8 추론: 파라미터 수 × 1바이트. 70B 모델 ≈ 70GB
  • 학습 (FP16 + Adam): 파라미터 수 × 약 18바이트. 7B 모델 ≈ 126GB
  • LoRA 파인튜닝: 기본 모델 메모리 + 약 10~20% 추가

활성화 메모리, 배치 크기, 시퀀스 길이에 따라 실제 사용량은 더 늘어날 수 있어요. 정확한 추정이 어렵다면 편하게 문의해 주세요 — 워크로드에 맞는 구성을 제안해 드릴게요.

어떻게 시작하면 되나요?

L40S, A100, H100은 VESSL Cloud에서 바로 시작할 수 있어요. H200, B200, GB200, B300은 세일즈 팀을 통해 이용 가능해요. 정확한 조건이 없어도 괜찮아요 — 지금 상황만 알려주시면 현실적인 옵션부터 제안드릴게요.

워크로드 상담 요청하기

참고 자료

VESSL AI

VESSL AI