AI Breaks Out of the Cloud: Computex 2026's Big Chip Demand Signal
At Computex 2026, Nvidia and Qualcomm highlighted the shift of AI from cloud to edge devices, emphasizing the potential for AI agents to run on PCs, smartphones, and more, reshaping chip demand.
이번 Computex 2026에서 가장 인상적이었던 점은 “새로운 제품이 많이 나왔다”는 것이 아니었습니다. 오히려 신규 제품 발표 자체는 생각보다 많지 않았습니다. 핵심은 다른 곳에 있었습니다. 바로 AI 에이전트가 어디에서 실행될 것인가 입니다. 지난 몇 년간 AI 컴퓨팅의 중심은 거의 전적으로 클라우드였습니다. 대형 언어모델은 데이터센터에서 돌고, 사용자는 브라우저나 앱을 통해 결과만 받아보는 구조였습니다. 하지만 이번 Computex에서 $NVDA와 $QCOM이 공통적으로 보여준 방향은 조금 달랐습니다. 앞으로 AI 에이전트는 클라우드에만 머물지 않고, PC, 스마트폰, 워크스테이션, 로봇, 자동차, 산업 장비 등 다양한 디바이스로 내려올 가능성이 큽니다. 그리고 이 변화는 단순히 “AI PC가 나온다”는 수준을 넘어섭니다. AI가 클라우드에서 엣지로 확산되면, GPU뿐 아니라 CPU, DRAM, LPDDR, HBM, DPU, 네트워크, 냉각, 패키징, 기판, 전력 인프라까지 수요 구조가 바뀔 수 있습니다. 1. 신규 제품보다 중요한 것은 “에이전트를 클라이언트 디바이스로 가져오는 것” 이번 행사에서 $NVDA가 공개한 가장 중요한 제품 중 하나는 미디어텍과 협력해 개발한 Windows PC용 프로세서 N1X , 그리고 이를 기반으로 한 RTX Spark 였습니다. 이 제품은 단순한 AI PC 칩이 아니라, 고성능 AI 에이전트를 로컬 디바이스에서 실행하기 위한 시도에 가깝습니다. $NVDA는 RTX Spark가 약 1페타플롭스의 AI 성능 과 최대 100만 컨텍스트 윈도 에서 1,200억 파라미터급 LLM 을 실행할 수 있는 능력을 제공한다고 설명했습니다. 이 말은 꽤 중요합니다. 지금까지 개인용 PC는 AI를 “사용하는 장치”에 가까웠습니다. 하지만 앞으로는 PC 자체가 AI 모델을 실행하고, 에이전트를 돌리고, 개인 데이터를 기반으로 작업을 수행하는 개인용 AI 서버 가 될 수 있습니다. 물론 성공 여부는 아직 확실하지 않습니다. 핵심 변수는 두 가지입니다. 첫째, 에이전틱 AI를 전제로 한 애플리케이션 생태계가 실제로 재구성될 수 있는가. 둘째, 기존 x86 Windows 애플리케이션과의 호환성을 얼마나 자연스럽게 해결할 수 있는가. 이 문제는 $QCOM의 ARM PC 성장에서도 계속 제약 요인으로 작용해 왔습니다. 하드웨어 성능만 좋아서는 부족합니다. 사용자가 기존에 쓰던 앱이 잘 돌아가야 하고, 동시에 AI 에이전트가 개입할 수 있는 새로운 사용 경험이 만들어져야 합니다. 미디어텍 입장에서 이 제품은 단기 매출 기여도가 아주 큰 프로젝트는 아닐 수 있습니다. 매출 기여도는 1 2% 수준의 작은 성장 요인으로 볼 수 있습니다. 하지만 Chrome/Chromebook 영역에서 존재감을 키운 이후, Windows Compute 영역에서도 이름을 알리는 계기가 될 수 있습니다. 2. Qualcomm의 메시지: 에이전트는 하나의 디바이스에 묶이지 않는다 $QCOM은 이번 기조연설에서 대형 신규 제품을 발표하지는 않았습니다. 대신 6월 말 애널리스트 데이에서 더 자세히 공개될 가능성이 있는 Dragonfly AI Server rack 을 간단히 언급했습니다. 흥미로운 점은 $QCOM이 추론 중심 ASIC과 데이터센터 CPU 영역에 진입하려는 흐름입니다. 공급망 점검상 $QCOM의 추론 ASIC과 데이터센터 CPU는 바이트댄스와 미국 하이퍼스케일러 한 곳을 대상으로 할 가능성이 있으며, 물량은 2027년부터 본격적으로 램프될 것으로 보입니다. $QCOM의 큰 그림은 명확합니다. 스마트폰 시대에 강했던 회사가, 이제는 AI 에이전트 시대에도 자신들의 역할을 찾고 있습니다. $QCOM CEO 크리스티아노 아몬은 2026년부터 2030년까지 토큰 소비량이 40배 증가 할 수 있다고 전망했습니다. 이 말은 곧 AI 추론 수요가 폭발적으로 늘어난다는 뜻입니다. 다만 $QCOM은 모든 추론이 클라우드에서만 일어나지는 않을 것이라고 봅니다. 시간이 지나면서 에이전틱 AI 워크로드는 온디바이스와 클라우드로 분산 될 가능성이 높습니다. 예를 들어 코딩, 웹페이지 생성, 개인화 작업 같은 일부 워크로드는 디바이스와 클라우드를 함께 활용하면 토큰 사용량을 30 60% 줄이면서 더 빠르게 실행될 수 있다는 설명입니다. 이 관점은 중요합니다. AI가 클라우드에서만 실행되면 수혜는 주로 데이터센터 GPU, HBM, 네트워크, 전력 인프라에 집중됩니다. 하지만 AI가 엣지로 내려오면 스마트폰, PC, 노트북, 워크스테이션, 온디바이스 메모리, 저전력 CPU/GPU/NPU, LPDDR 수요까지 같이 움직입니다. 즉 AI 반도체 투자의 지도가 넓어집니다. 3. Agentic AI는 이제 소프트웨어가 아니라 하드웨어 스택의 문제다 이번 Computex에서 $NVDA와 $QCOM이 공통적으로 강조한 것은 Agentic AI , 즉 에이전틱 AI였습니다. $NVDA는 AI 에이전트를 네 가지 구성요소로 설명했습니다. LLM Brain Harness Tools / Runtime / 작업 환경 이 설명이 중요한 이유는, 에이전트를 단순 챗봇으로 보지 않기 때문입니다. 에이전트는 모델 하나로 끝나는 것이 아니라, 모델이 도구를 호출하고, 외부 환경에서 작업하고, 오케스트레이션되고, 실행 결과를 다시 반영하는 구조입니다. 그러면 필요한 하드웨어도 GPU 하나로 끝나지 않습니다. $NVDA는 에이전틱 AI에 필요한 하드웨어 스택에는 GPU, CPU, DPU 가 모두 포함된다고 설명했습니다. 이제 AI 인프라는 단순히 “GPU를 더 많이 산다”가 아닙니다. CPU가 데이터를 준비하고, GPU가 연산하고, DPU가 네트워크와 데이터 이동을 처리하고, 스토리지와 메모리가 이를 받쳐주고, 냉각과 전력이 전체 시스템을 지탱해야 합니다. 이 관점에서 보면 $NVDA는 단순 GPU 회사가 아니라 AI 팩토리 전체의 풀스택 설계자 가 되려 하고 있습니다. CUDA X 라이브러리, Nemotron 오픈 모델, DPU, CPU, 네트워킹, 스토리지, 랙 디자인, 냉각 최적화까지 모두 하나의 시스템으로 묶으려는 것입니다. Cadence와의 칩 설계 슈퍼 에이전트 협력 사례도 상징적입니다. 검증 주기를 수주에서 수시간으로 줄여 약 40배 가속하는 사례는, 에이전틱 AI가 단순 사무 자동화가 아니라 반도체 설계와 같은 고부가 산업에도 깊게 들어갈 수 있음을 보여줍니다. 이 관점에서는 $CDNS, $SNPS 같은 EDA 기업도 계속 중요해질 수 있습니다. AI가 칩 설계를 가속하면, 그 AI가 사용할 설계 데이터와 툴체인을 가진 기업들의 가치도 다시 볼 필요가 있습니다. 4. Vera Rubin: GPU 랙은 이제 조립품이 아니라 공동 설계된 시스템이다 $NVDA는 Vera Rubin이 현재 본격 양산 중이라고 확인했습니다. $MSFT와 $DELL, CoreWeave는 이미 엔지니어링 랙을 구축하고 있으며, 더 큰 규모의 생산 램프는 올해 4분기에 시작될 가능성이 높습니다. Vera Rubin에서 중요한 점은 성능만이 아닙니다. 더 중요한 것은 랙 전체가 공동 설계된 시스템 이 되고 있다는 점입니다. 이전 Blackwell 세대에서는 랙 조립에 약 2시간이 걸렸지만, Vera Rubin 랙은 조립 시간이 약 5분으로 단축될 수 있다고 합니다. 이는 케이블과 팬 수를 줄이고, 액체냉각과 인터커넥션용 미드플레인 PCB를 활용했기 때문입니다. 이 변화는 공급망 관점에서 매우 중요합니다. AI 서버는 더 이상 GPU 카드 몇 장을 꽂는 단순 서버가 아닙니다. GPU, CPU, DPU, 스토리지, 스위치, 광통신, 액체냉각, 전력공급장치, PCB, 콜드플레이트, QD, 랙 통합이 모두 맞물린 고밀도 시스템입니다. Vera Rubin은 Vera GPU, Vera CPU, BlueField DPU, 스토리지 랙, Co packaged Optics를 탑재한 Spectrum SPX 랙, 빠른 토큰 처리를 위한 LPX를 함께 묶습니다. 목표는 GB300 대비 10배 높은 토큰 처리량과 GW당 매출 극대화입니다. 여기서 중요한 병목은 여전히 남아 있습니다. HBM4 공급, CoWoS L 패키징, 고급 기판, 액체냉각, 전력 인프라입니다. 따라서 $NVDA가 아무리 강해져도 공급망 전체의 수혜가 같이 따라갈 가능성이 큽니다. 미국 쪽에서는 $TSM, $AMKR, $ASX, $COHR, $VRT, $DELL, $SMCI, $CLS 같은 기업들을 같이 봐야 합니다. 한국에서는 $K000660 SK하이닉스, $K005930 삼성전자, $K009150 삼성전기, $K042700 한미반도체, $K089030 테크윙, $K095340 ISC, $K140860 파크시스템스 같은 기업들이 연결됩니다. 5. Vera CPU: AI 추론은 GPU에서 CPU로 확장된다 이번 행사에서 젠슨 황이 상당한 시간을 할애한 부분은 Vera CPU 였습니다. $NVDA는 Vera CPU를 에이전틱 AI 워크로드에 특화된 CPU로 포지셔닝하고 있습니다. 경영진에 따르면 Vera CPU는 x86 대비 약 1.8배의 에이전틱 AI 샌드박스 성능을 제공하며, 세계 최고 수준의 IPC를 갖추고 있습니다. 기술적으로도 흥미로운 지점이 많습니다. Vera CPU는 PCIe 6와 1.2TB/s LPDDR5X 메모리를 구현하고, 내부와 외부 모두에서 3배의 대역폭을 제공하면서도 피크 메모리 지연시간은 40% 낮췄습니다. 데이터베이스 워크로드에서는 x86보다 SQL을 3배 빠르게 실행한다고 설명했습니다. 이 말은 AI 반도체 시장에서 CPU가 다시 중요해질 수 있다는 뜻입니다. 지난 몇 년간 AI 투자는 사실상 GPU 중심이었습니다. 하지만 에이전틱 AI는 다릅니다. 에이전트는 모델 추론만 하는 것이 아니라, 데이터를 찾고, 데이터베이스를 조회하고, 도구를 실행하고, 샌드박스 환경에서 코드를 돌리고, 여러 작업을 병렬로 관리해야 합니다. 이 과정에서는 CPU의 역할이 다시 커집니다. 특히 AI 서버 안에서 CPU GPU 대역폭, 메모리 대역폭, 저지연 데이터 처리 능력이 중요해집니다. $NVDA는 Vera CPU 출하를 2026년 하반기부터 램프하기 시작하고, 2026년 60만 유닛, 2027년 300만 유닛