2026년 GPU 선택 가이드 — L40S부터 B300까지

"H100이면 충분할까, B200으로 가야 하나?" — GPU를 선택할 때 가장 많이 하는 고민이에요. 모델이 커지고, 워크로드가 다양해지면서 GPU 선택지도 한 세대 전과는 비교할 수 없이 넓어졌어요.
이 글에서는 현재 클라우드에서 사용할 수 있는 주요 GPU 8종의 스펙을 비교하고, 워크로드별로 어떤 GPU가 적합한지를 정리했어요. 기준은 단순해요 — VRAM, 연산 성능, 메모리 대역폭, 그리고 GPU 간 연결 방식이에요.
핵심 스펙 비교
먼저 8종 GPU의 핵심 스펙을 한 표로 정리했어요. 워크로드 선택에 가장 큰 영향을 주는 4가지 — VRAM, 메모리 대역폭, 연산 성능(FP8 기준), GPU 간 인터커넥트 — 를 중심으로 비교했어요.

스펙을 읽는 법 — 뭐가 중요할까?
VRAM: 모델이 들어가느냐의 문제
가장 먼저 확인해야 할 건 VRAM이에요. 모델 파라미터와 활성화 메모리가 GPU 메모리에 올라가야 학습이든 추론이든 가능하거든요. 대략적인 기준으로, 7B 모델 추론에 FP16 기준 약 14GB, 70B 모델에는 약 140GB가 필요해요. 학습은 옵티마이저 상태까지 포함하면 추론의 3~4배 메모리가 필요하고요.
메모리 대역폭: 토큰이 얼마나 빨리 나오느냐
추론에서 토큰 생성 속도는 대부분 메모리 대역폭에 의해 결정돼요. H100(3.35 TB/s)과 H200(4.8 TB/s)은 연산 성능은 같지만, H200의 추론 처리량(throughput)이 더 높은 이유가 바로 대역폭 차이예요.
연산 성능(FP8 TFLOPS): 학습 속도의 핵심
학습에서는 연산 성능이 직접적으로 학습 속도에 영향을 줘요. FP8은 최신 모델 학습에서 표준이 되고 있고, Blackwell 세대부터 FP4까지 지원해요. A100은 FP8을 지원하지 않아서 FP16 기준으로 비교해야 해요.
인터커넥트: 멀티 GPU 확장의 병목
GPU 1장으로 안 되는 워크로드라면, GPU끼리 얼마나 빨리 데이터를 주고받을 수 있는지가 중요해요. NVLink은 GPU 간 직접 연결이고, PCIe는 메인보드를 경유해서 느려요. 멀티 GPU 학습이 필요하다면 NVLink이 있는 SXM 폼팩터가 맞아요.

워크로드별 GPU 추천
이제 실제 워크로드에 어떤 GPU가 맞는지 정리해 볼게요. "정답"은 없지만, 모델 크기와 작업 유형에 따라 합리적인 출발점은 있어요.

VESSL Cloud에서의 가용성
위 GPU들은 VESSL Cloud에서 사용할 수 있어요. GPU에 따라 바로 시작할 수 있는 것과 세일즈 팀을 통해 이용 가능한 것으로 나뉘어요.

VESSL Cloud의 GPU는 전량 SXM 기반(L40S, RTX Pro 6000 제외)이에요. 워크스페이스 환경이 유지되는 Persistent GPU Cloud라서, GPU를 Pause해도 환경(패키지, 데이터, 설정)이 그대로 보존돼요.
FAQ
H100을 쓰고 있는데, B200으로 갈아타야 할까요?
GB200과 B300 중 어떤 걸 선택해야 하나요?
L40S와 RTX Pro 6000은 학습에도 쓸 수 있나요?
우리 모델에 VRAM이 얼마나 필요한지 어떻게 알 수 있나요?
어떻게 시작하면 되나요?
관련 글
참고 자료
VESSL AI