2026년 GPU 선택 가이드 — L40S부터 B300까지

GPU 선택, 어디서부터 시작해야 할까요?
"H100이면 충분할까, B200으로 가야 하나?" — GPU를 선택할 때 가장 많이 하는 고민이에요. 모델이 커지고, 워크로드가 다양해지면서 GPU 선택지도 한 세대 전과는 비교할 수 없이 넓어졌어요.
이 글에서는 현재 클라우드에서 사용할 수 있는 주요 GPU 8종의 스펙을 비교하고, 워크로드별로 어떤 GPU가 적합한지를 정리했어요. 기준은 단순해요 — VRAM, 연산 성능, 메모리 대역폭, 그리고 GPU 간 연결 방식이에요.
2026년 주요 GPU 한눈에 비교
먼저 8종 GPU의 핵심 스펙을 한 표로 정리했어요. 워크로드 선택에 가장 큰 영향을 주는 4가지 — VRAM, 메모리 대역폭, 연산 성능(FP8 기준), GPU 간 인터커넥트 — 를 중심으로 비교했어요.
| GPU | 아키텍처 | VRAM | 메모리 대역폭 | FP8 (dense) | 인터커넥트 | TDP |
|---|---|---|---|---|---|---|
| L40S | Ada Lovelace | 48 GB GDDR6 | 864 GB/s | 733 TFLOPS | PCIe 4.0 | 350W |
| RTX Pro 6000 | Blackwell | 96 GB GDDR7 | 1.6 TB/s | —* | PCIe 5.0 | 600W |
| A100 SXM | Ampere | 80 GB HBM2e | 2.0 TB/s | -(FP16:312) | NVLink 3.0 | 400W |
| H100 SXM | Hopper | 80 GB HBM3 | 3.35 TB/s | 1,979 TFLOPS | NVLink 4.0 | 700W |
| H200 SXM | Hopper | 141 GB HBM3e | 4.8 TB/s | 1,979 TFLOPS | NVLink 4.0 | 700W |
| B200 SXM | Blackwell | 180 GB HBM3e | 8.0 TB/s | 4,500 TFLOPS | NVLink 5.0 | 1000W |
| GB200 NVL72 | Blackwell | 180 GB × 72 | 8.0 TB/s / GPU | 4,500 / GPU | NVLink Full Mesh | —** |
| B300 | Blackwell Ultra | 288 GB HBM3e | 8.0 TB/s | ~7,000 TFLOPS | NVLink 5.0 | 1400W |
*RTX Pro 6000: FP32 120 TFLOPS, FP4 ~4,000 TFLOPS (dense). Server Edition 기준.
** GB200 NVL72: Grace CPU 36 + B200 GPU 72. 전체 메모리 ~13.5 TB, 전력 ~120kW.
스펙을 읽는 법 — 뭐가 중요할까?
VRAM: 모델이 들어가느냐의 문제
가장 먼저 확인해야 할 건 VRAM이에요. 모델 파라미터와 활성화 메모리가 GPU 메모리에 올라가야 학습이든 추론이든 가능하거든요. 대략적인 기준으로, 7B 모델 추론에 FP16 기준 약 14GB, 70B 모델에는 약 140GB가 필요해요. 학습은 옵티마이저 상태까지 포함하면 추론의 3~4배 메모리가 필요하고요.
메모리 대역폭: 토큰이 얼마나 빨리 나오느냐
추론에서 토큰 생성 속도는 대부분 메모리 대역폭에 의해 결정돼요. H100(3.35 TB/s)과 H200(4.8 TB/s)은 연산 성능은 같지만, H200의 추론 처리량(throughput)이 더 높은 이유가 바로 대역폭 차이예요.
연산 성능(FP8 TFLOPS): 학습 속도의 핵심
학습에서는 연산 성능이 직접적으로 학습 속도에 영향을 줘요. FP8은 최신 모델 학습에서 표준이 되고 있고, Blackwell 세대부터 FP4까지 지원해요. A100은 FP8을 지원하지 않아서 FP16 기준으로 비교해야 해요.
인터커넥트: 멀티 GPU 확장의 병목
GPU 1장으로 안 되는 워크로드라면, GPU끼리 얼마나 빨리 데이터를 주고받을 수 있는지가 중요해요. NVLink은 GPU 간 직접 연결이고, PCIe는 메인보드를 경유해서 느려요. 멀티 GPU 학습이 필요하다면 NVLink이 있는 SXM 폼팩터가 맞아요.
| 인터커넥트 | 대역폭 | 해당 GPU |
|---|---|---|
| PCIe 4.0 / 5.0 | 64~128 GB/s | L40S, RTX Pro 6000 |
| NVLink 3.0 | 600 GB/s | A100 SXM |
| NVLink 4.0 | 900 GB/s | H100, H200 |
| NVLink 5.0 | 1,800 GB/s | B200, B300 |
| NVLink 5.0 (Full Mesh) | 72 GPU 전체 연결 | GB200 NVL72 |
내 AI 워크로드에 맞는 GPU는?
이제 실제 워크로드에 어떤 GPU가 맞는지 정리해 볼게요. "정답"은 없지만, 모델 크기와 작업 유형에 따라 합리적인 출발점은 있어요.
| 워크로드 | 추천 GPU | 핵심 이유 |
|---|---|---|
| LLM 추론(7B~13B) | L40S, RTX Pro 6000 | 48~96 GB VRAM이면 충분. 양자화 시 더 큰 모델 가능 |
| LLM 추론(70B+) | H200, RTX Pro 6000 | 141/96 GB VRAM. H200은 4.8 TB/s로 토큰 생성 빠름 |
| 파인튜닝(LoRA) | A100, H100 | 80 GB + NVLink으로 70B까지 LoRA. 가격 대비 검증된 조합 |
| 풀 파인튜닝(70B+) | H200, B200 | 141~180 GB + 높은 대역폭. 옵티마이저까지 GPU 메모리에 수용 |
| 사전학습(~30B) | H100, B200 | 높은 FP8 + NVLink + IB 멀티 노드. B200은 2.3× 연산 |
| 사전학습(100B+) | GB200, B300 | GB200: 72 GPU NVLink ~13.5 TB. B300: 단일 288 GB |
| 이미지/비전 모델 | H100, B200 | Diffusion엔 높은 연산 + 대역폭. B200 8 TB/s 강점 |
| 데이터 전처리 | L40S, A100 | 연산 부담 적은 배치 작업. 합리적 가격대 |
| 비용 우선 실험 | L40S, A100 | 가장 낮은 시간당 비용. 빠른 프로토타이핑에 적합 |
같은 성능, 더 낮은 비용: GPU 비용 최적화 팁
GPU 비용을 줄이는 건 올바른 GPU를 올바르게 쓰는 것에서 시작해요.
- 온디맨드 vs 예약 인스턴스: 학습처럼 일시적으로 몰리는 워크로드는 온디맨드, 추론처럼 상시 운영이 필요한 워크로드는 예약·전용 인스턴스가 유리해요.
- 오버스펙 피하기: 34B 모델 추론은 수십 GB 수준에서도 운영 가능한 경우가 많아, B200(192GB)을 쓰면 메모리 여유가 크게 남을 수 있어요. 모델 크기에 맞는 GPU를 고르는 것만으로도 불필요한 인프라 비용 절감이 가능해요.
- 스팟 활용: 체크포인트 저장이 가능한 학습 워크로드라면 적극 활용해 보세요. 중단되더라도 이어서 재개할 수 있어서 비용 대비 효율이 높아요.
- 네오클라우드 활용: 네오클라우드는 하이퍼스케일러 대비 동일 GPU 기준 30~50% 저렴한 경우도 있어요.
- B200 vs H100 $/토큰 비교: B200은 H100에 비해 비싸지만, FP4 추론 기준 처리량이 3~4배 높아요. 대규모 추론 환경에서는 $/토큰 기준으로 B200이 더 유리해질 수 있어요.
클라우드 유형별 비용 구조를 더 자세히 알고 싶다면 하이퍼스케일러 vs 네오클라우드 비교 글을 확인해 보세요.
VESSL Cloud에서의 가용성
위에서 언급되었던 GPU들은 VESSL Cloud에서 사용할 수 있어요. GPU에 따라 바로 시작할 수 있는 것과 세일즈 팀을 통해 이용 가능한 것으로 나뉘어요.
| GPU | 가용성 | 비고 |
|---|---|---|
| L40S | 바로 사용 가능 | 플랫폼에서 바로 사용 가능 |
| RTX Pro 6000 | 곧 입고 예정 | 관심 있으시면 미리 문의해 주세요 |
| A100 SXM | 바로 사용 가능 | 플랫폼에서 바로 사용 가능 |
| H100 SXM | 바로 사용 가능 | 플랫폼에서 바로 사용 가능 |
| H200 SXM | 세일즈 문의 | 세일즈 팀을 통해 이용 가능 |
| B200 SXM | 세일즈 문의 | 세일즈 팀을 통해 이용 가능 |
| GB200 NVL72 | 세일즈 문의 | 워크로드 맞춤 구성 상담 후 제공 |
| B300 | 세일즈 문의 | 워크로드 맞춤 구성 상담 후 제공 |
VESSL Cloud의 GPU는 전량 SXM 기반(L40S, RTX Pro 6000 제외)이에요. 워크스페이스 환경이 유지되는 Persistent GPU Cloud라서, GPU를 Pause해도 환경(패키지, 데이터, 설정)이 그대로 보존돼요.
FAQ
H100을 쓰고 있는데, B200으로 갈아타야 할까요?
워크로드에 따라 달라요. 현재 H100으로 학습 시간이나 VRAM이 부족하다면 B200이 확실한 업그레이드예요 — 연산 2.3배, VRAM 2.3배, 대역폭 2.4배. 하지만 H100으로 충분히 돌아가고 있다면 무리하게 바꿀 필요는 없어요. H100 에코시스템이 가장 성숙하고, 시간당 비용도 B200보다 낮으니까요.
GB200과 B300 중 어떤 걸 선택해야 하나요?
두 GPU는 용도가 좀 달라요. GB200 NVL72는 72개 GPU를 NVLink 풀메시(full mesh)로 전체 연결한 시스템이라, 초대형 모델을 하나의 메모리 풀에서 학습할 때 유리해요. B300은 단일 GPU의 VRAM(288GB)과 연산 성능이 극대화된 칩이에요. "GPU 수를 최소화하면서 각 GPU의 효율을 극대화하고 싶다"면 B300, "수백~수천 GPU를 하나의 도메인으로 묶어야 한다"면 GB200 구성이 맞아요.
L40S와 RTX Pro 6000은 학습에도 쓸 수 있나요?
소규모 모델의 파인튜닝이나 실험에는 충분히 쓸 수 있어요. 다만 PCIe 폼팩터라 NVLink이 없어서, 멀티 GPU 학습 시 GPU 간 통신이 느려요. 싱글 GPU로 LoRA 파인튜닝하거나, 추론 실험을 돌리는 용도로 가장 잘 맞아요. 특히 RTX Pro 6000은 96GB VRAM 덕에 꽤 큰 모델도 단일 GPU에서 다룰 수 있어요.
우리 모델에 VRAM이 얼마나 필요한지 어떻게 알 수 있나요?
대략적인 기준이에요:FP16 추론: 파라미터 수 × 2바이트. 7B 모델 ≈ 14GB, 70B 모델 ≈ 140GBINT8 추론: 파라미터 수 × 1바이트. 70B 모델 ≈ 70GB학습(FP16 + Adam): 파라미터 수 × 약 18바이트. 7B 모델 ≈ 126GBLoRA 파인튜닝: 기본 모델 메모리 + 약 10~20% 추가활성화 메모리, 배치 크기, 시퀀스 길이에 따라 실제 사용량은 더 늘어날 수 있어요. 정확한 추정이 어렵다면 편하게 문의해 주세요 — 워크로드에 맞는 구성을 제안해 드릴게요.
어떻게 시작하면 되나요?
L40S, A100, H100은 VESSL Cloud에서 바로 시작할 수 있어요. H200, B200, GB200, B300은 세일즈 팀을 통해 이용 가능해요. 정확한 조건이 없어도 괜찮아요 — 지금 상황만 알려주시면 현실적인 옵션부터 제안드릴게요.워크로드 상담 요청하기
관련 글
참고 자료
VESSL AI