GTC 2026 현장에서 본 GPU 인프라 3가지 구조적 전환 — 추론, 에이전틱 AI, Physical AI

GTC 2026에서 Jensen Huang은 한 마디로 한 주 전체를 관통하는 프레임을 제시했어요: "2025년은 추론(inference)의 해였다." 2025년이 추론이 본격화된 해였다면, GTC 2026은 그 다음을 가속하는 것이 훨씬 더 빠르게 움직이고 있다는 점을 분명히 했어요.
한 주를 지배한 세 가지 테마가 있었어요: AI 개발 사이클을 수 주에서 수 시간으로 압축하는 에이전틱 도구, 진정한 의미의 연속적 GPU 워크로드로 부상한 Physical AI, 그리고 추론 수요에 상한이 없다는 전제 위에 설계된 하드웨어 로드맵이에요.
VESSL AI 팀은 GTC 2026에 부스를 운영하며 키노트와 세션 전반을 함께했어요. 이 글에서는 추론 인프라를 재설계하고 있는 하드웨어 전환, 에이전틱 도구가 AI 개발 속도를 구체적으로 어떻게 바꾸고 있는지, Physical AI가 연속적 GPU 워크로드로 부상한 배경, 기업의 Physical AI 도입 현황, 그리고 네오클라우드 지형의 현재 위치에 대해 정리해 볼게요.
1. 추론(Inference)이 학습(Training)을 넘어선다는 건 인프라에 어떤 의미일까요?
출처: Jensen Huang 키노트 — GTC 2026, 3월 17일
추론(inference)은 학습(training)과 근본적으로 다른 인프라 문제예요. 학습은 시작과 끝이 있는 프로젝트 비용이지만, 추론은 사용자 수와 쿼리 복잡도에 비례해 24/7 확장되는 운영 비용이에요. GTC 2026에서 NVIDIA의 하드웨어 로드맵은 이 전환에 올인하고 있다는 것을 확인시켜 줬어요.
학습에서 추론으로의 전환은 단순한 수요 변화가 아니라 구조적 전환이에요. 학습은 프로젝트예요. 추론은 모든 사용자, 모든 쿼리, 모든 에이전틱 워크플로우에 비례해 확장되는 영구적인 운영 비용이에요. 이 둘은 근본적으로 다른 인프라 문제예요:
| 기준 | 학습(Training) | 추론(Inference) |
|---|---|---|
| 수요 패턴 | 프로젝트 기반, 일회성 | 24/7, 트래픽 비례 |
| 병목 | FLOPS | 메모리 대역폭, 지연 시간 |
| 비용 구조 | 단기 CapEx | 장기 OpEx |
| 추론 모델 영향 | 제한적 | KV 캐시 폭발 → 수요 급증 |
| 예산 영향 | 범위가 정해진 CapEx: 계획, 학습, 완료 | 열린 OpEx: 사용자, 에이전트, 쿼리 복잡도에 따라 확장 |
| 조달 결정 | 프로젝트 타임라인 기반 용량 계획 | 지속적인 벤더 선택, 비용 최적화, 장애 대응 전략 |
| 인프라 리스크 | 작업 실패 시 재시작 및 재시도 | 지속적 다운타임 = 매출 손실, 사용자 경험 저하 |
GTC에서 가장 눈에 띄는 신호는 새로운 스펙 숫자가 아니었어요. 폼 팩터의 변화였어요. 수년간 기본은 표준 서버에 장착되는 GPU 모듈이었어요. Blackwell에서는 플래그십 제품이 CPU와 GPU를 긴밀하게 통합한 랙 스케일 시스템인 GB200이 되었어요. 이유는 간단해요: 모델이 커지고 추론 트레이스가 길어지면서 GPU 메모리만으로는 충분하지 않게 되었고, 아키텍처가 워크로드에 맞춰 확장되어야 했기 때문이에요.
더 먼 미래를 보면, GTC에서 발표된 NVIDIA의 차세대 플랫폼 Vera Rubin은 GB300 대비 메가와트당 처리량을 35배 향상시켜요 (출처: NVIDIA GTC 2026 키노트, 2026.3.17). 상시 가동되는 에이전틱 워크로드, 즉 꺼지지 않는 연속적 멀티 모델 추론을 위해 명시적으로 설계되었어요.
클라우드 제공업체에게 실질적인 시사점은 포트폴리오 문제예요. GB200과 GB300은 대규모 추론과 Physical AI에 적합해요. 더 모듈형이고 기존 인프라와 호환되는 HGX B200은 대다수의 파인튜닝과 일반 추론 워크로드에 여전히 올바른 선택이에요.
방향은 명확해요. 하드웨어 로드맵은 추론이 지배적이고 상시 가동되는 세계에 올인하고 있어요.
이런 추론 수요의 구조적 변화는 다양한 GPU를 유연하게 조합할 수 있는 GPU 클라우드의 역할을 더 중요하게 만들어요. VESSL Cloud는 A100부터 H100, B200, GB200까지 워크로드 특성에 맞는 GPU를 선택할 수 있도록 지원하고 있어요.
2. 에이전틱 AI는 GPU 수요를 어떻게 바꾸고 있을까요?
출처: "Open Models: Where We Are and Where We're Headed" — GTC 2026 패널 세션
패널리스트: Jensen Huang (NVIDIA), Arvind Srinivas (Perplexity), Harrison Chase (LangChain), Arthur Mensch (Mistral), Misha Laskin (Reflection AI), Robin Rombach (Black Forest Labs), Hanna Hajishirzi (AI2) 외
에이전틱 AI의 핵심 변화는 AI 개발의 병목이 엔지니어링 시간에서 컴퓨트로 이동한 거예요. 에이전트가 자율적으로 실험을 설계·실행·평가하면서, 팀이 수행하는 실험의 수는 인원수가 아니라 GPU 컴퓨트에 비례해 확장되기 시작했어요.
GTC 2026에서 드러난 가장 중요한 변화는 하드웨어에 관한 것이 아니었어요. AI 개발의 병목이 엔지니어링 시간에서 컴퓨트로 이동했을 때 무슨 일이 일어나는가에 관한 것이었어요.
NVIDIA의 두 가지 새로운 인프라가 이를 구체적으로 보여줘요. OpenClaw는 AI 에이전트가 도구를 사용하고, 파일을 관리하고, 하위 에이전트를 생성하며, 다단계 작업을 자율적으로 완료할 수 있게 하는 오픈소스 에이전틱 운영체제예요. NemoClaw는 그 위에 엔터프라이즈급 정책 샌드박싱과 외부 가드레일 적용을 추가하여, 이러한 에이전트를 안전하게 대규모 배포할 수 있게 해요. 이 둘은 응답하는 AI에서 실행하는 AI로의 전환을 의미해요.
시사점은 구조적이에요: 에이전트가 자율적으로 실험을 설계하고, 실행하고, 결과를 평가하고, 반복할 수 있게 되면, 팀이 수행하는 실험의 수는 더 이상 인원수에 의해 제한되지 않아요. 컴퓨트에 비례해 확장돼요. 팀 스택에 추가되는 모든 에이전틱 워크플로우는 각 단계에서 추론 호출을 생성하며, 사람이 트리거할 때만이 아니라 연속적으로 작동해요.
실제로 어떤 모습인지는 GTC에서 헬스케어 AI 팀들과의 대화에서 명확하게 드러났어요. 대표적인 사례 하나를 소개할게요: 단일 사용자 프롬프트로 트리거되는 완전한 MCP 오케스트레이션 신약 발견 파이프라인이 FDA 데이터베이스 검색, OpenFold 3을 통한 단백질 구조 분석, BioNeMo를 통한 화합물 생성(수천 개의 SMILES 후보를 수 분 내 생성), 도킹 시뮬레이션, 결합 평가, 최종 보고서 생성을 자동으로 연결했어요. 파인튜닝 없이 에이전트는 MCP 도구 호출만으로 Nemotron Super 위에서 실행되었어요. 이전에 연구팀이 거의 일주일이 걸렸던 작업이 한 번의 자동화된 파이프라인 실행으로 압축된 거예요.
에이전틱 워크플로우가 늘어날수록 추론 호출도 연속적으로 증가해요. 이런 환경에서는 필요한 만큼 GPU를 탄력적으로 확보하고, 비용을 예측 가능하게 관리하는 것이 핵심이에요.
3. Physical AI는 왜 '꺼지지 않는' GPU 수요를 만들까요?
출처: "Physical AI in Enterprises: What's Real, What Scales, What's Next" — GTC 2026 패널 세션 (Siemens, Volkswagen Mexico, Deloitte)
Physical AI는 기존 AI 워크로드와 근본적으로 달라요. 학습은 시작과 끝이 있는 프로젝트이지만, Physical AI는 시뮬레이션, 합성 데이터 생성, 검증, 재배포가 병렬로 계속 돌아가는 연속적인 GPU 수요를 만들어요. GTC 2026에서 가장 실질적인 새 테마였어요.
Physical AI가 기존 AI 워크로드와 다른 점은 에피소딕하지 않다는 거예요. 학습은 시작과 끝이 있는 프로젝트예요. Physical AI는 연속적인 GPU 수요를 만들어내요: 시뮬레이션, 합성 데이터 생성, 검증, 재배포가 병렬로, 지속적으로 실행돼요. NVIDIA의 COSMOS 플랫폼(월드 모델 추론, 예측, 비디오 전환)은 정확히 이 패턴을 위해 설계되었어요.
로보틱스, 헬스케어, 제조 분야 팀들에서 공통적인 테마가 나타났어요: 병목은 컴퓨트 가용성이 아니라 통합이에요. Physical AI 개발은 대규모 클라우드 학습, 시뮬레이션 기반 검증, 엣지 배포라는 세 가지 영역에 걸쳐 있으며, 대부분의 팀은 이를 여전히 수동으로 연결하고 있어요. 몇 가지 대표적인 사례를 볼게요:

- Noble Machines (휴머노이드 로보틱스): 학습에 Jetson Thor, 추론에 DGX Spark 사용. 음성 명령으로 물체를 선별
- LEM Surgical (수술 로보틱스): Isaac for Healthcare를 실행하는 Jetson Thor
- Luminary (Physical AI 시뮬레이션): H100 기반, 범용 VLM 대신 Physical NeMo 활용
- Digital Biology (단백질 구조 예측): 추론에 RTX PRO 6000 사용
수직 범위는 로보틱스를 넘어 자율주행, 수술 시뮬레이션, 공장 모니터링, 신약 발견으로 확장되고 있어요. 각 수직 시장마다 컴퓨트 프로파일은 다르지만, 모두 같은 특성을 공유해요: 꺼지지 않는 GPU 수요예요.
기업의 Physical AI 도입, 현실은 어디까지 와 있을까요?
기업 도입의 현실은 좀 더 복잡해요. Siemens와 Volkswagen Mexico가 참여한 패널은 이번 주 가장 현실적인 관점을 제시했으며, 한 문장으로 요약할 수 있어요: "이것은 혁명이 아니라 진화다."
기회는 실재해요. 패널에서 Siemens는 향후 10년간 수천억 달러 규모의 공장 생산성 향상 가능성을 언급했어요. 하지만 경로는 단계적이에요: 현재 특정 작업을 수행하는 물리적 로봇에서, GenAI 기반 스케줄링과 유연한 자동화를 거쳐, 운영 의사결정을 위한 실시간 디지털 트윈으로 나아가요. 가장 어려운 단계는 로봇을 배포하는 것이 아니에요. 디지털 트윈을 라이브로 유지하는 거예요. 공장 데이터는 설계 단계에서 멈추는 경향이 있고, 이를 실제 생산 조건에 맞춰 지속적으로 반영하는 것이 대부분의 팀이 막히는 지점이에요.
인프라 제공업체에 대한 시사점은 직접적이에요: Physical AI 기업 도입은 일회성 학습 스파이크가 아닌 지속적이고 장기적인 GPU 수요를 만들어내요. 시뮬레이션, 디지털 트윈 유지보수, 지속적 재배포에는 탄력적이고 상시 가동되는 컴퓨트가 필요해요.
Physical AI 워크로드는 "잠깐 쓰고 끄는" 패턴이 아니라 상시 가동 패턴이에요. 이런 연속적 수요에 대응하려면 장기 예약 할인과 탄력적 확장을 함께 지원하는 GPU 클라우드가 필요해요.
4. 네오클라우드 시장에서 실제 GPU 수요는 어디에 있을까요?
출처: GTC 2026 — 하이퍼스케일러 및 네오클라우드 팀과의 현장 대화
GTC 부스 현장에서 확인한 패턴은 명확해요: 모든 네오클라우드가 B200, GB200, B300을 마케팅 전면에 내세웠지만, 실제 가장 많이 사용되는 GPU는 여전히 H100과 A100이에요. 마케팅 메시지와 실제 수요 사이의 격차를 이해하는 것이 GPU 클라우드 선택의 핵심이에요.
부스마다 B200, GB200, B300을 마케팅 전면에 내세웠어요. 하지만 한 하이퍼스케일러 엔지니어가 솔직하게 말했어요: "가장 많이 사용되는 리소스는 여전히 H100, 그 다음이 A100이에요. B300 규모의 수요는 최대 규모의 파운데이션 모델 연구소에 한정돼요."
마케팅과 실제 수요 사이의 격차는 의도적이며 모순이 아니에요:
- 기업 신뢰도: 최첨단 하드웨어 접근성과 긴밀한 NVIDIA 관계를 시그널링
- 수요 선점: B200/GB300 수요가 보편화될 때, 기존 운영 경험이 있는 벤더가 선점
- 가격 앵커링: 눈에 보이는 B200이 H100을 합리적이고 비용 효율적인 선택으로 만들어줘요
동시에, 주요 네오클라우드들은 온프레미스 기업 수요를 확보하기 위해 프라이빗 클라우드 서비스를 구축하고 있어요: 노드 수준의 단일 테넌트 격리, 하이퍼스케일 고객을 위한 전용 캠퍼스 구축, 고객 데이터센터 내 설치형 풀 클라우드 스택, 그리고 데이터 주권과 거주 요건을 겨냥한 프라이빗 클라우드 전문 업체 등이에요.
이는 규제 시장에서 특히 중요해요. 기업 고객이 "온프레미스"를 원한다고 말할 때, 실제로 원하는 것은 물리적 하드웨어 소유가 아니라 통제와 컴플라이언스 보장인 경우가 많아요. "온프레미스 느낌, 클라우드 관리 운영"으로 포지셔닝된 프라이빗 클라우드 아키텍처는 진정한 온프레미스의 운영 부담 없이 이를 직접 해결해요.
VESSL Cloud는 A100부터 H100, B200, GB200, B300까지 다양한 GPU 라인업을 제공하면서, 실제 워크로드에 맞는 GPU 선택을 도와드려요. 최신 GPU만이 답이 아니라, 워크로드 특성에 맞는 GPU를 골라 쓰는 것이 비용 효율의 핵심이에요.

GTC 2026에서 가져온 핵심 인사이트
GTC 2026은 하나의 돌파구를 제시하지 않았어요. 방향을 확인시켜 주었고, 그 방향의 속도를 무시하기 어렵게 만들었어요.
에이전틱 도구는 AI 개발 자체의 속도를 바꿨어요. Physical AI는 진정으로 연속적인 GPU 수요 카테고리를 만들어냈고, 기업 도입은 단계적이지만 구조적으로 장기에 걸쳐 진행되고 있어요. 추론은 더 이상 워크로드 유형이 아니에요. 계속 가속하는 전체 시스템의 산출물이에요. 그리고 GB200에서 Vera Rubin으로 이어지는 하드웨어 로드맵은 그 가속이 멈추지 않는 세계를 위해 설계되었어요.
GTC가 분명히 한 것은, 추론·에이전틱 시스템·Physical AI에 걸친 이 전환의 폭이 단일 제공업체 안에 편하게 담기지 않는다는 점이에요. 워크로드는 너무 다양하고, 수요는 너무 탄력적이며, 변화의 속도는 하나의 클러스터나 클라우드가 흡수하기에 너무 빠르거든요.
GPU 인프라의 구조적 전환이 궁금하거나, 우리 팀의 워크로드에 맞는 GPU 구성이 필요하다면, VESSL Cloud에서 시작해보세요.
FAQ
Q. 추론(Inference) 워크로드에 가장 적합한 GPU는 무엇인가요?
워크로드 규모에 따라 달라요. 대부분의 파인튜닝과 일반 추론에는 H100이 가장 범용적인 선택이에요. 대규모 추론이나 Physical AI에는 GB200이 적합하고, B300은 최대 규모 파운데이션 모델 연구에 한정돼요.
Q. 에이전틱 AI 도입 시 GPU 비용은 어떻게 달라지나요?
에이전틱 워크플로우는 사람이 트리거할 때만이 아니라 연속적으로 추론 호출을 생성해요. 기존 배치 학습 대비 GPU 사용 시간이 크게 늘어나기 때문에, 온디맨드와 장기 예약을 조합한 비용 관리 전략이 중요해요.
Q. Physical AI 개발에 GPU 클라우드를 사용할 수 있나요?
네, 시뮬레이션과 합성 데이터 생성은 클라우드에서 탄력적으로 처리하고, 학습된 모델은 엣지 디바이스에 배포하는 하이브리드 구성이 일반적이에요. 다만 연속적 수요 패턴이라 장기 예약 할인을 활용하는 것이 비용 효율적이에요.
VESSL AI