블로그로 돌아가기
News

같은 GPU인데 결과가 다른 이유, AI 인프라는 산업별로 설계하는 시대예요

VESSL AI
VESSL AI
||7분 소요
같은 GPU인데 결과가 다른 이유, AI 인프라는 산업별로 설계하는 시대예요

GPU만 많이 확보하면 AI 경쟁에서 앞선다고 생각하기 쉬워요. 그런데 막상 현장을 들여다보면 같은 H100을 써도 누가, 어떤 일을, 어디서 돌리느냐에 따라 결과가 완전히 달라져요. 로봇을 학습시키는 팀과 신약을 설계하는 팀, AI 에이전트를 운영하는 팀이 필요로 하는 인프라가 전부 다르거든요.

최근 ZDNet [AI 고속도로] 기획에서 베슬AI(VESSL AI) 안재만 대표가 이 변화를 짚었는데요. 오늘은 그 내용을 저희가 플랫폼에서 실제로 관측한 데이터와 함께 풀어볼게요.

핵심 요약

  • GPU를 얼마나 확보하느냐보다 누가, 어떻게, 어디서 쓰는지가 인프라 설계를 가르는 시대예요.
  • 베슬AI 플랫폼 데이터를 보면 대학은 동시 사용 GPU가 중앙값 1.8장, 기업은 46%가 8장 이상, 크게는 32장 멀티노드까지 써요.
  • 피지컬 AI는 시뮬레이션·VLA 학습·온보드 탑재까지, 바이오와 AI 에이전트는 보안과 격리가 관건이에요.
  • 스토리지·네트워크·보안 인증까지 함께 설계해야 산업별 워크로드가 제대로 굴러가요.

GPU 확보 경쟁, 그다음이 시작됐어요

지난 몇 년은 GPU를 얼마나 확보하느냐가 곧 경쟁력이던 시기였어요. 엔비디아 젠슨 황 CEO가 시장을 끌고 갈 만큼 GPU 그 자체가 귀했으니까요. 그런데 공급이 조금씩 풀리면서 질문이 바뀌고 있어요. 이제는 GPU를 얼마나 확보하느냐 못지않게 누가, 어떻게, 어디서 쓰는지가 인프라 설계를 가르거든요.

안재만 대표의 표현을 빌리면, AI 인프라 수요는 더 이상 하나의 덩어리로 움직이지 않아요. 워크로드가 산업별로 쪼개지면서 인프라도 거기에 맞춰 갈라지고 있어요.

데이터로 보면 워크로드가 이렇게 갈려요

저희가 플랫폼에서 본 사용 패턴은 양극화가 뚜렷해요.

  • 대학·연구기관은 한 번에 동시에 쓰는 GPU가 중앙값 기준 1.8장 정도예요. 실험과 검증 위주라 가볍게 돌리는 경우가 많거든요.
  • 반면 기업 고객은 46%가 한 번에 8장 이상을 써요. 학습 규모 자체가 다른 거죠.
  • 큰 곳은 32장 멀티노드 환경까지 확장해서 돌리고 있어요.

같은 GPU 클라우드를 쓰는데도 한쪽은 1~2장, 한쪽은 수십 장 멀티노드로 갈려요. 평균 한 줄로는 절대 안 보이는 차이죠.

피지컬 AI는 GPU만으로 안 돼요

요즘 가장 빠르게 인프라 요구가 까다로워지는 분야가 피지컬 AI예요. 로봇이나 자율주행처럼 물리 세계의 데이터를 다루는 AI인데요. 작업 흐름이 일반 LLM과 많이 달라요.

먼저 시뮬레이션 환경에서 학습 데이터를 대량으로 만들고, 그걸로 VLA(Vision-Language-Action) 모델을 학습시킨 다음, 최종적으로 로봇의 온보드 컴퓨터에 모델을 올려야 해요. 이 과정을 GPU 장수만 늘려서 해결할 수는 없어요. 안재만 대표 말처럼 스토리지, 네트워크, 데이터 공급 구조까지 같이 설계해야 학습 효율이 올라가거든요.

바이오와 AI 에이전트는 보안과 격리가 관건이에요

산업이 바뀌면 신경 써야 하는 지점도 달라져요.

바이오·신약 쪽은 데이터 민감도가 높아서 프라이빗 환경과 클라우드 자원을 유연하게 오가는 구조가 필요해요. 저희가 SOC 2 Type II 인증을 제공하는 것도 이런 요구 때문이에요. 방산, 금융, 통신처럼 규제가 강한 분야도 보안 인증을 갖춘 클라우드를 적극적으로 검토하고 있고요.

B2B AI 에이전트를 만드는 팀은 또 달라요. 격리된 개발 환경과 여러 워크스페이스를 동시에 운영할 수 있는지가 중요하거든요.

결국 인프라는 GPU 그 이상이에요

정리하면, AI 인프라 시장은 GPU를 빌려주는 단계를 넘어서고 있어요. 산업별 워크로드가 실제로 굴러갈 수 있는 환경을 통째로 설계하는 방향으로 진화하는 중이에요. 피지컬 AI든 바이오든 AI 에이전트든, 각자의 일에 맞는 유연한 GPU 인프라 운영 모델이 점점 더 중요해질 거예요.

혹시 우리 팀 워크로드에는 어떤 구성이 맞을지 고민된다면, 편하게 상담 신청해 주세요. 어떤 일을, 어떤 규모로 돌리는지부터 같이 짚어볼게요.

워크로드에 맞는 인프라 상담받기

자주 묻는 질문

대학은 GPU를 적게 쓰고 기업은 많이 쓴다는 게 무슨 의미예요?

워크로드 성격이 달라서예요. 연구와 실험은 가볍게 1~2장으로 돌리는 경우가 많고, 기업의 본격 학습은 8장 이상, 크게는 32장 멀티노드까지 가요. 그래서 두 집단에 같은 인프라 구성을 권하기 어려워요.

피지컬 AI 인프라는 일반 LLM 학습과 뭐가 달라요?

시뮬레이션으로 데이터를 만들고, VLA 모델을 학습시키고, 로봇 온보드 컴퓨터에 올리는 단계가 추가돼요. GPU 장수뿐 아니라 스토리지와 네트워크, 데이터 공급 구조까지 함께 설계해야 효율이 나요.

바이오나 금융처럼 보안이 중요한 분야도 클라우드를 쓸 수 있어요?

네. 프라이빗 환경과 클라우드를 유연하게 섞는 구성이 가능하고, SOC 2 Type II 같은 보안 인증을 갖춘 환경을 검토할 수 있어요. 방산, 금융, 통신 분야에서도 이런 인증 클라우드 활용을 늘려가는 추세예요.

우리 팀에 맞는 GPU 구성은 어떻게 정해요?

동시에 쓰는 GPU 장수, 학습인지 추론인지, 데이터 민감도, 멀티노드 필요 여부를 먼저 점검해 보세요. 기준이 잡히면 상담을 통해 구체적인 구성을 함께 설계할 수 있어요.

이 글은 ZDNet [AI 고속도로] 기획 기사 내용을 바탕으로 베슬AI 플랫폼 데이터와 함께 재구성했어요.

참고 기사: https://zdnet.co.kr/view/?no=20260621080538

VESSL AI

VESSL AI

뉴스레터 구독

AI 인프라 구축 노하우와 최신 GPU 소식을 매달 보내드려요.

구독하면 개인정보처리방침에 동의하는 것으로 간주돼요.

같은 GPU, 다른 결과: 산업별 AI 인프라 설계 | VESSL Cloud