인사이트

2026년 GPU 선택 가이드 — L40S부터 B300까지

VESSL AI

|2026년 4월 9일|10분 소요

GPU 선택, 어디서부터 시작해야 할까요?

"H100이면 충분할까, B200으로 가야 하나?" — GPU를 선택할 때 가장 많이 하는 고민이에요. 모델이 커지고, 워크로드가 다양해지면서 GPU 선택지도 한 세대 전과는 비교할 수 없이 넓어졌어요.

이 글에서는 현재 클라우드에서 사용할 수 있는 주요 GPU 8종의 스펙을 비교하고, 워크로드별로 어떤 GPU가 적합한지를 정리했어요. 기준은 단순해요 — VRAM, 연산 성능, 메모리 대역폭, 그리고 GPU 간 연결 방식이에요.

2026년 주요 GPU 한눈에 비교

먼저 8종 GPU의 핵심 스펙을 한 표로 정리했어요. 워크로드 선택에 가장 큰 영향을 주는 4가지 — VRAM, 메모리 대역폭, 연산 성능(FP8 기준), GPU 간 인터커넥트 — 를 중심으로 비교했어요.

GPU	아키텍처	VRAM	메모리 대역폭	FP8 (dense)	인터커넥트	TDP
L40S	Ada Lovelace	48 GB GDDR6	864 GB/s	733 TFLOPS	PCIe 4.0	350W
RTX Pro 6000	Blackwell	96 GB GDDR7	1.6 TB/s	—*	PCIe 5.0	600W
A100 SXM	Ampere	80 GB HBM2e	2.0 TB/s	-(FP16:312)	NVLink 3.0	400W
H100 SXM	Hopper	80 GB HBM3	3.35 TB/s	1,979 TFLOPS	NVLink 4.0	700W
H200 SXM	Hopper	141 GB HBM3e	4.8 TB/s	1,979 TFLOPS	NVLink 4.0	700W
B200 SXM	Blackwell	180 GB HBM3e	8.0 TB/s	4,500 TFLOPS	NVLink 5.0	1000W
GB200 NVL72	Blackwell	180 GB × 72	8.0 TB/s / GPU	4,500 / GPU	NVLink Full Mesh	—**
B300	Blackwell Ultra	288 GB HBM3e	8.0 TB/s	~7,000 TFLOPS	NVLink 5.0	1400W

*RTX Pro 6000: FP32 120 TFLOPS, FP4 ~4,000 TFLOPS (dense). Server Edition 기준.

** GB200 NVL72: Grace CPU 36 + B200 GPU 72. 전체 메모리 ~13.5 TB, 전력 ~120kW.

스펙을 읽는 법 — 뭐가 중요할까?

VRAM: 모델이 들어가느냐의 문제

가장 먼저 확인해야 할 건 VRAM이에요. 모델 파라미터와 활성화 메모리가 GPU 메모리에 올라가야 학습이든 추론이든 가능하거든요. 대략적인 기준으로, 7B 모델 추론에 FP16 기준 약 14GB, 70B 모델에는 약 140GB가 필요해요. 학습은 옵티마이저 상태까지 포함하면 추론의 3~4배 메모리가 필요하고요.

메모리 대역폭: 토큰이 얼마나 빨리 나오느냐

추론에서 토큰 생성 속도는 대부분 메모리 대역폭에 의해 결정돼요. H100(3.35 TB/s)과 H200(4.8 TB/s)은 연산 성능은 같지만, H200의 추론 처리량(throughput)이 더 높은 이유가 바로 대역폭 차이예요.

연산 성능(FP8 TFLOPS): 학습 속도의 핵심

학습에서는 연산 성능이 직접적으로 학습 속도에 영향을 줘요. FP8은 최신 모델 학습에서 표준이 되고 있고, Blackwell 세대부터 FP4까지 지원해요. A100은 FP8을 지원하지 않아서 FP16 기준으로 비교해야 해요.

인터커넥트: 멀티 GPU 확장의 병목

GPU 1장으로 안 되는 워크로드라면, GPU끼리 얼마나 빨리 데이터를 주고받을 수 있는지가 중요해요. NVLink은 GPU 간 직접 연결이고, PCIe는 메인보드를 경유해서 느려요. 멀티 GPU 학습이 필요하다면 NVLink이 있는 SXM 폼팩터가 맞아요.

인터커넥트	대역폭	해당 GPU
PCIe 4.0 / 5.0	64~128 GB/s	L40S, RTX Pro 6000
NVLink 3.0	600 GB/s	A100 SXM
NVLink 4.0	900 GB/s	H100, H200
NVLink 5.0	1,800 GB/s	B200, B300
NVLink 5.0 (Full Mesh)	72 GPU 전체 연결	GB200 NVL72

내 AI 워크로드에 맞는 GPU는?

이제 실제 워크로드에 어떤 GPU가 맞는지 정리해 볼게요. "정답"은 없지만, 모델 크기와 작업 유형에 따라 합리적인 출발점은 있어요.

워크로드	추천 GPU	핵심 이유
LLM 추론(7B~13B)	L40S, RTX Pro 6000	48~96 GB VRAM이면 충분. 양자화 시 더 큰 모델 가능
LLM 추론(70B+)	H200, RTX Pro 6000	141/96 GB VRAM. H200은 4.8 TB/s로 토큰 생성 빠름
파인튜닝(LoRA)	A100, H100	80 GB + NVLink으로 70B까지 LoRA. 가격 대비 검증된 조합
풀 파인튜닝(70B+)	H200, B200	141~180 GB + 높은 대역폭. 옵티마이저까지 GPU 메모리에 수용
사전학습(~30B)	H100, B200	높은 FP8 + NVLink + IB 멀티 노드. B200은 2.3× 연산
사전학습(100B+)	GB200, B300	GB200: 72 GPU NVLink ~13.5 TB. B300: 단일 288 GB
이미지/비전 모델	H100, B200	Diffusion엔 높은 연산 + 대역폭. B200 8 TB/s 강점
데이터 전처리	L40S, A100	연산 부담 적은 배치 작업. 합리적 가격대
비용 우선 실험	L40S, A100	가장 낮은 시간당 비용. 빠른 프로토타이핑에 적합

같은 성능, 더 낮은 비용: GPU 비용 최적화 팁

GPU 비용을 줄이는 건 올바른 GPU를 올바르게 쓰는 것에서 시작해요.

온디맨드 vs 예약 인스턴스: 학습처럼 일시적으로 몰리는 워크로드는 온디맨드, 추론처럼 상시 운영이 필요한 워크로드는 예약·전용 인스턴스가 유리해요.
오버스펙 피하기: 34B 모델 추론은 수십 GB 수준에서도 운영 가능한 경우가 많아, B200(192GB)을 쓰면 메모리 여유가 크게 남을 수 있어요. 모델 크기에 맞는 GPU를 고르는 것만으로도 불필요한 인프라 비용 절감이 가능해요.
스팟 활용: 체크포인트 저장이 가능한 학습 워크로드라면 적극 활용해 보세요. 중단되더라도 이어서 재개할 수 있어서 비용 대비 효율이 높아요.
네오클라우드 활용: 네오클라우드는 하이퍼스케일러 대비 동일 GPU 기준 30~50% 저렴한 경우도 있어요.
B200 vs H100 $/토큰 비교: B200은 H100에 비해 비싸지만, FP4 추론 기준 처리량이 3~4배 높아요. 대규모 추론 환경에서는 $/토큰 기준으로 B200이 더 유리해질 수 있어요.

클라우드 유형별 비용 구조를 더 자세히 알고 싶다면 하이퍼스케일러 vs 네오클라우드 비교 글을 확인해 보세요.

VESSL Cloud에서의 가용성

위에서 언급되었던 GPU들은 VESSL Cloud에서 사용할 수 있어요. GPU에 따라 바로 시작할 수 있는 것과 세일즈 팀을 통해 이용 가능한 것으로 나뉘어요.

GPU	가용성	비고
L40S	바로 사용 가능	플랫폼에서 바로 사용 가능
RTX Pro 6000	곧 입고 예정	관심 있으시면 미리 문의해 주세요
A100 SXM	바로 사용 가능	플랫폼에서 바로 사용 가능
H100 SXM	바로 사용 가능	플랫폼에서 바로 사용 가능
H200 SXM	세일즈 문의	세일즈 팀을 통해 이용 가능
B200 SXM	세일즈 문의	세일즈 팀을 통해 이용 가능
GB200 NVL72	세일즈 문의	워크로드 맞춤 구성 상담 후 제공
B300	세일즈 문의	워크로드 맞춤 구성 상담 후 제공

VESSL Cloud의 GPU는 전량 SXM 기반(L40S, RTX Pro 6000 제외)이에요. 워크스페이스 환경이 유지되는 Persistent GPU Cloud라서, GPU를 Pause해도 환경(패키지, 데이터, 설정)이 그대로 보존돼요.

VESSL Cloud 바로가기

FAQ

H100을 쓰고 있는데, B200으로 갈아타야 할까요?

워크로드에 따라 달라요. 현재 H100으로 학습 시간이나 VRAM이 부족하다면 B200이 확실한 업그레이드예요 — 연산 2.3배, VRAM 2.3배, 대역폭 2.4배. 하지만 H100으로 충분히 돌아가고 있다면 무리하게 바꿀 필요는 없어요. H100 에코시스템이 가장 성숙하고, 시간당 비용도 B200보다 낮으니까요.

GB200과 B300 중 어떤 걸 선택해야 하나요?

두 GPU는 용도가 좀 달라요. GB200 NVL72는 72개 GPU를 NVLink 풀메시(full mesh)로 전체 연결한 시스템이라, 초대형 모델을 하나의 메모리 풀에서 학습할 때 유리해요. B300은 단일 GPU의 VRAM(288GB)과 연산 성능이 극대화된 칩이에요. "GPU 수를 최소화하면서 각 GPU의 효율을 극대화하고 싶다"면 B300, "수백~수천 GPU를 하나의 도메인으로 묶어야 한다"면 GB200 구성이 맞아요.

L40S와 RTX Pro 6000은 학습에도 쓸 수 있나요?

소규모 모델의 파인튜닝이나 실험에는 충분히 쓸 수 있어요. 다만 PCIe 폼팩터라 NVLink이 없어서, 멀티 GPU 학습 시 GPU 간 통신이 느려요. 싱글 GPU로 LoRA 파인튜닝하거나, 추론 실험을 돌리는 용도로 가장 잘 맞아요. 특히 RTX Pro 6000은 96GB VRAM 덕에 꽤 큰 모델도 단일 GPU에서 다룰 수 있어요.

우리 모델에 VRAM이 얼마나 필요한지 어떻게 알 수 있나요?

대략적인 기준이에요:FP16 추론: 파라미터 수 × 2바이트. 7B 모델 ≈ 14GB, 70B 모델 ≈ 140GBINT8 추론: 파라미터 수 × 1바이트. 70B 모델 ≈ 70GB학습(FP16 + Adam): 파라미터 수 × 약 18바이트. 7B 모델 ≈ 126GBLoRA 파인튜닝: 기본 모델 메모리 + 약 10~20% 추가활성화 메모리, 배치 크기, 시퀀스 길이에 따라 실제 사용량은 더 늘어날 수 있어요. 정확한 추정이 어렵다면 편하게 문의해 주세요 — 워크로드에 맞는 구성을 제안해 드릴게요.

어떻게 시작하면 되나요?

L40S, A100, H100은 VESSL Cloud에서 바로 시작할 수 있어요. H200, B200, GB200, B300은 세일즈 팀을 통해 이용 가능해요. 정확한 조건이 없어도 괜찮아요 — 지금 상황만 알려주시면 현실적인 옵션부터 제안드릴게요.워크로드 상담 요청하기

GPU 클라우드, 어디서 빌릴까? — 네오클라우드 비교 가이드

AWS, GCP, Azure 같은 하이퍼스케일러와 CoreWeave, Lambda, VESSL Cloud 같은 네오클라우드의 GPU 가격과 특징을 비교했어요.

VESSL AI

참고 자료

VESSL AI

GPU 선택, 어디서부터 시작해야 할까요?

2026년 주요 GPU 한눈에 비교

스펙을 읽는 법 — 뭐가 중요할까?

VRAM: 모델이 들어가느냐의 문제

메모리 대역폭: 토큰이 얼마나 빨리 나오느냐

연산 성능(FP8 TFLOPS): 학습 속도의 핵심

인터커넥트: 멀티 GPU 확장의 병목

내 AI 워크로드에 맞는 GPU는?

같은 성능, 더 낮은 비용: GPU 비용 최적화 팁

VESSL Cloud에서의 가용성

FAQ

H100을 쓰고 있는데, B200으로 갈아타야 할까요?

GB200과 B300 중 어떤 걸 선택해야 하나요?

L40S와 RTX Pro 6000은 학습에도 쓸 수 있나요?

우리 모델에 VRAM이 얼마나 필요한지 어떻게 알 수 있나요?

어떻게 시작하면 되나요?

관련 글

참고 자료