블로그로 돌아가기
insight

2026년 GPU 선택 가이드 — L40S부터 B300까지

VESSL AI
VESSL AI
||7분 소요
2026 GPU 선택 가이드

"H100이면 충분할까, B200으로 가야 하나?" — GPU를 선택할 때 가장 많이 하는 고민이에요. 모델이 커지고, 워크로드가 다양해지면서 GPU 선택지도 한 세대 전과는 비교할 수 없이 넓어졌어요.

이 글에서는 현재 클라우드에서 사용할 수 있는 주요 GPU 8종의 스펙을 비교하고, 워크로드별로 어떤 GPU가 적합한지를 정리했어요. 기준은 단순해요 — VRAM, 연산 성능, 메모리 대역폭, 그리고 GPU 간 연결 방식이에요.

핵심 스펙 비교

먼저 8종 GPU의 핵심 스펙을 한 표로 정리했어요. 워크로드 선택에 가장 큰 영향을 주는 4가지 — VRAM, 메모리 대역폭, 연산 성능(FP8 기준), GPU 간 인터커넥트 — 를 중심으로 비교했어요.

8종 GPU 핵심 스펙 비교표 — L40S: Ada Lovelace, 48GB GDDR6, 864 GB/s, 733 TFLOPS FP8, PCIe 4.0, 350W. RTX Pro 6000: Blackwell, 96GB GDDR7, 1.6 TB/s, PCIe 5.0, 600W. A100 SXM: Ampere, 80GB HBM2e, 2.0 TB/s, FP16 312 TFLOPS, NVLink 3.0, 400W. H100 SXM: Hopper, 80GB HBM3, 3.35 TB/s, 1,979 TFLOPS FP8, NVLink 4.0, 700W. H200 SXM: Hopper, 141GB HBM3e, 4.8 TB/s, 1,979 TFLOPS FP8, NVLink 4.0, 700W. B200 SXM: Blackwell, 180GB HBM3e, 8.0 TB/s, 4,500 TFLOPS FP8, NVLink 5.0, 1,000W. GB200 NVL72: Blackwell, 180GB x 72, 8.0 TB/s per GPU, 4,500 TFLOPS per GPU, NVLink Full Mesh. B300: Blackwell Ultra, 288GB HBM3e, 8.0 TB/s, ~7,000 TFLOPS FP8, NVLink 5.0, 1,400W.

스펙을 읽는 법 — 뭐가 중요할까?

VRAM: 모델이 들어가느냐의 문제

가장 먼저 확인해야 할 건 VRAM이에요. 모델 파라미터와 활성화 메모리가 GPU 메모리에 올라가야 학습이든 추론이든 가능하거든요. 대략적인 기준으로, 7B 모델 추론에 FP16 기준 약 14GB, 70B 모델에는 약 140GB가 필요해요. 학습은 옵티마이저 상태까지 포함하면 추론의 3~4배 메모리가 필요하고요.

메모리 대역폭: 토큰이 얼마나 빨리 나오느냐

추론에서 토큰 생성 속도는 대부분 메모리 대역폭에 의해 결정돼요. H100(3.35 TB/s)과 H200(4.8 TB/s)은 연산 성능은 같지만, H200의 추론 처리량(throughput)이 더 높은 이유가 바로 대역폭 차이예요.

연산 성능(FP8 TFLOPS): 학습 속도의 핵심

학습에서는 연산 성능이 직접적으로 학습 속도에 영향을 줘요. FP8은 최신 모델 학습에서 표준이 되고 있고, Blackwell 세대부터 FP4까지 지원해요. A100은 FP8을 지원하지 않아서 FP16 기준으로 비교해야 해요.

인터커넥트: 멀티 GPU 확장의 병목

GPU 1장으로 안 되는 워크로드라면, GPU끼리 얼마나 빨리 데이터를 주고받을 수 있는지가 중요해요. NVLink은 GPU 간 직접 연결이고, PCIe는 메인보드를 경유해서 느려요. 멀티 GPU 학습이 필요하다면 NVLink이 있는 SXM 폼팩터가 맞아요.

GPU 인터커넥트 비교표 — PCIe 4.0/5.0: 64~128 GB/s, L40S와 RTX Pro 6000. NVLink 3.0: 600 GB/s, A100 SXM. NVLink 4.0: 900 GB/s, H100과 H200. NVLink 5.0: 1,800 GB/s, B200과 B300. NVLink 5.0(Full Mesh): 72 GPU 전체 연결, GB200 NVL72.

워크로드별 GPU 추천

이제 실제 워크로드에 어떤 GPU가 맞는지 정리해 볼게요. "정답"은 없지만, 모델 크기와 작업 유형에 따라 합리적인 출발점은 있어요.

워크로드별 GPU 추천표 — LLM 추론(7B~13B): L40S 또는 RTX Pro 6000, 48~96GB VRAM이면 충분하고 양자화 시 더 큰 모델 가능. LLM 추론(70B+): H200 또는 RTX Pro 6000, 141/96GB VRAM에 H200은 4.8 TB/s로 토큰 생성 빠름. 파인튜닝(LoRA): A100 또는 H100, 80GB+NVLink으로 70B까지 LoRA 가능한 검증된 조합. 풀 파인튜닝(70B+): H200 또는 B200, 141~180GB+높은 대역폭으로 옵티마이저까지 GPU 메모리에 수용. 사전학습(~30B): H100 또는 B200, 높은 FP8+NVLink+IB 멀티 노드에 B200은 2.3배 연산. 사전학습(100B+): GB200 또는 B300, GB200은 72 GPU NVLink ~13.5TB이고 B300은 단일 288GB. 이미지/비전 모델: H100 또는 B200, Diffusion에 높은 연산+대역폭 필요하며 B200 8 TB/s 강점. 데이터 전처리: L40S 또는 A100, 연산 부담 적은 배치 작업에 합리적 가격대. 비용 우선 실험: L40S 또는 A100, 가장 낮은 시간당 비용으로 빠른 프로토타이핑에 적합.

VESSL Cloud에서의 가용성

위 GPU들은 VESSL Cloud에서 사용할 수 있어요. GPU에 따라 바로 시작할 수 있는 것과 세일즈 팀을 통해 이용 가능한 것으로 나뉘어요.

VESSL Cloud GPU 가용성 — L40S: 바로 사용 가능, 플랫폼에서 바로 사용 가능. RTX Pro 6000: 곧 입고 예정, 관심 있으시면 미리 문의. A100 SXM: 바로 사용 가능, 플랫폼에서 바로 사용 가능. H100 SXM: 바로 사용 가능, 플랫폼에서 바로 사용 가능. H200 SXM: 세일즈 문의, 세일즈 팀을 통해 이용 가능. B200 SXM: 세일즈 문의, 세일즈 팀을 통해 이용 가능. GB200 NVL72: 세일즈 문의, 워크로드 맞춤 구성 상담 후 제공. B300: 세일즈 문의, 워크로드 맞춤 구성 상담 후 제공.

VESSL Cloud의 GPU는 전량 SXM 기반(L40S, RTX Pro 6000 제외)이에요. 워크스페이스 환경이 유지되는 Persistent GPU Cloud라서, GPU를 Pause해도 환경(패키지, 데이터, 설정)이 그대로 보존돼요.

VESSL Cloud 바로가기

FAQ

H100을 쓰고 있는데, B200으로 갈아타야 할까요?

워크로드에 따라 달라요. 현재 H100으로 학습 시간이나 VRAM이 부족하다면 B200이 확실한 업그레이드예요 — 연산 2.3배, VRAM 2.3배, 대역폭 2.4배. 하지만 H100으로 충분히 돌아가고 있다면 무리하게 바꿀 필요는 없어요. H100 에코시스템이 가장 성숙하고, 시간당 비용도 B200보다 낮으니까요.

GB200과 B300 중 어떤 걸 선택해야 하나요?

두 GPU는 용도가 좀 달라요. GB200 NVL72는 72개 GPU를 NVLink 풀메시(full mesh)로 전체 연결한 시스템이라, 초대형 모델을 하나의 메모리 풀에서 학습할 때 유리해요. B300은 단일 GPU의 VRAM(288GB)과 연산 성능이 극대화된 칩이에요. "GPU 수를 최소화하면서 각 GPU의 효율을 극대화하고 싶다"면 B300, "수백~수천 GPU를 하나의 도메인으로 묶어야 한다"면 GB200 구성이 맞아요.

L40S와 RTX Pro 6000은 학습에도 쓸 수 있나요?

소규모 모델의 파인튜닝이나 실험에는 충분히 쓸 수 있어요. 다만 PCIe 폼팩터라 NVLink이 없어서, 멀티 GPU 학습 시 GPU 간 통신이 느려요. 싱글 GPU로 LoRA 파인튜닝하거나, 추론 실험을 돌리는 용도로 가장 잘 맞아요. 특히 RTX Pro 6000은 96GB VRAM 덕에 꽤 큰 모델도 단일 GPU에서 다룰 수 있어요.

우리 모델에 VRAM이 얼마나 필요한지 어떻게 알 수 있나요?

대략적인 기준이에요:FP16 추론: 파라미터 수 × 2바이트. 7B 모델 ≈ 14GB, 70B 모델 ≈ 140GBINT8 추론: 파라미터 수 × 1바이트. 70B 모델 ≈ 70GB학습(FP16 + Adam): 파라미터 수 × 약 18바이트. 7B 모델 ≈ 126GBLoRA 파인튜닝: 기본 모델 메모리 + 약 10~20% 추가활성화 메모리, 배치 크기, 시퀀스 길이에 따라 실제 사용량은 더 늘어날 수 있어요. 정확한 추정이 어렵다면 편하게 문의해 주세요 — 워크로드에 맞는 구성을 제안해 드릴게요.

어떻게 시작하면 되나요?

L40S, A100, H100은 VESSL Cloud에서 바로 시작할 수 있어요. H200, B200, GB200, B300은 세일즈 팀을 통해 이용 가능해요. 정확한 조건이 없어도 괜찮아요 — 지금 상황만 알려주시면 현실적인 옵션부터 제안드릴게요.워크로드 상담 요청하기

관련 글

GPU 클라우드, 어디서 빌릴까? — 네오클라우드 비교 가이드
AWS, GCP, Azure 같은 하이퍼스케일러와 CoreWeave, Lambda, VESSL Cloud 같은 네오클라우드의 GPU 가격과 특징을 비교했어요.

참고 자료

VESSL AI

VESSL AI