AI 하드웨어 아키텍처 지형이 바뀌었음. 이제 GPU 하나로는 설명할 수 없음. 2026년 글로벌 AI 칩 시장은 $107B(약 150조 원)에 달하는데, NVIDIA 점유율은 86%에서 약 75%로 내려앉고 있음 (Silicon Analysts, Yahoo Finance).
빈자리를 채우는 건 설계 철학이 완전히 다른 4가지 아키텍처임. 공장에 비유하면 이렇게 됨. CPU는 어떤 주문이든 혼자 해결하는 숙련된 장인 1명. GPU는 같은 동작을 동시에 수행하는 수천 명의 노동자 군단. TPU는 행렬 연산만 처리하는 컨베이어 벨트. NPU는 주머니 속 소형 태양광 패널 같은 AI 전용칩. LPU는 정해진 길만 달리는 특급열차임.
핵심 질문은 하나임. “어떤 칩이 최고인가?”가 아니라 “내 작업에 맞는 칩이 뭔가?”임. 700억 파라미터 모델 학습, 초당 300토큰 실시간 추론, 5W 스마트폰에 AI 탑재는 근본적으로 다른 실리콘을 요구함.
이 글은 5가지 AI 하드웨어 아키텍처 유형을 유연성↔특화의 단일 스펙트럼 위에 배치하고, 공장 비유로 설계 철학을 풀어낸 뒤, 2026년 양산 수치로 검증하는 구조임.
Key Takeaways
- GPU가 학습 시장을 지배하지만, 목적형 칩들이 점유율을 빼앗는 구조
- TPU·NPU·LPU 각각 유연성을 희생해 2x~10x 성능 우위를 확보
- 한국이 HBM 메모리 87%를 장악 — 모든 AI 칩의 ‘연료’ 공급자
AI 하드웨어 아키텍처, GPU만으로는 부족한 이유
2025년 NVIDIA가 AI GPU 시장의 86%를 차지했음. 1년 뒤 75%로 내려앉은 것임. 사라진 11%p는 특정 워크로드에 특화된 아키텍처로 이동한 것임 (Silicon Analysts, Yahoo Finance).
AMD MI350X는 전작 대비 추론 성능 35배 향상을 내세우고 있음 (AMD). 구글 TPU v6 Trillium은 칩당 연산량이 v5e 대비 4.7배 올랐음 (Google Cloud). Groq LPU는 700억 파라미터 모델에서 초당 300토큰을 뽑아내는데, H100 대비 10배 빠른 수치임 (Groq).
패턴이 보임. 단일 GPU가 학습 처리량, 추론 지연시간, 엣지 전력 효율, 토큰당 비용을 동시에 최적화하는 건 물리적으로 불가능함. 각 아키텍처는 유연성↔특화 스펙트럼에서 의도적으로 다른 지점을 선택한 것임.
공장 비유로 보는 5가지 칩
공장을 떠올려보면 됨. 한쪽 끝에는 어떤 주문이든 처리하지만 대량 주문엔 느린 숙련 장인(CPU)이 서 있음. 반대편 끝에는 정해진 길만 최고 속도로 달리는 특급열차(LPU)가 있음.
그 사이에 세 전문가가 있음. 같은 작업을 동시 수행하는 대규모 노동자 군단(GPU), 데이터를 한 방향으로만 밀어내는 컨베이어 벨트 공장(TPU), 배터리 하나로 돌아가는 소형 태양광 패널(NPU)임.
CPU — 숙련된 장인 1명
CPU는 컴퓨터의 원조 두뇌임. 분기 예측(Branch Prediction), 비순차 실행(Out-of-Order Execution), 깊은 캐시 계층 구조를 갖추고 있음. 쉽게 말해 시계부터 옷장까지 뭐든 만들 수 있는 숙련 장인이지만, 한 번에 하나씩 처리하는 구조임.

현재 최상위 서버 CPU인 AMD EPYC 9754는 128코어, FP32 기준 약 4.6 TFLOPS임 (AMD). 인상적으로 보이지만 GPU와 비교하면 이야기가 달라짐.
NVIDIA H100의 FP16 Tensor 성능은 약 2,000 TFLOPS임. CPU 대비 약 434배 차이가 나는 것임. 장인의 솜씨는 뛰어나지만 수천 명의 군단을 이길 수는 없음.
CPU가 여전히 쓰이는 영역
CPU는 순차 논리, 불규칙 분기, 저지연 단일 스레드 작업에서 여전히 최강임. 데이터베이스 쿼리, 웹 서버, OS 스케줄링이 대표적임. 모든 GPU·TPU·NPU·LPU가 메모리·네트워킹·작업 배분을 맡길 CPU 호스트를 필요로 함.
AI 워크플로우에서 CPU는 데이터 전처리, 피처 엔지니어링, 오케스트레이션을 담당함. 공장의 현장 감독 같은 역할임. 조립 라인에 직접 서지는 않지만, 감독 없이 공장은 돌아가지 않음.
FIG. 01 — GPU 진화
NVIDIA Blackwell: H100 → B200
7.7 TB/s
B200 메모리 대역폭 +130%
192 GB
HBM3e 용량 (H100 대비 2.4배)
4.5 PFLOPS
FP16 텐서 성능 (2.25배)
SOURCE: NVIDIA, Exxact Blog, Jarvis Labs
메모리 대역폭이 AI 성능의 숨겨진 병목임. GPU의 연산 속도가 아무리 빨라도 데이터를 읽는 속도가 느리면 멍때리는 시간이 늘어남. HBM(High Bandwidth Memory)은 메모리 칩을 수직으로 쌓아 GPU 다이에 직접 붙이는 구조임. 쉽게 말해 비포장 도로 하나 대신 고속도로를 깔아주는 것임. 3.35 TB/s에서 7.7 TB/s로의 도약은 B200이 기다리는 시간을 줄이고 실제 연산 시간을 늘린다는 뜻임.
이미 발표된 B300은 HBM3e 용량을 270 GB까지 확장하면서 대역폭 7.7 TB/s를 유지함. NVIDIA의 FY2026 매출 전망은 $130B(약 182조 원)을 넘어서는데, Blackwell 수요가 성장을 이끌고 있음 (Exxact, Jarvis Labs).
CUDA라는 해자
NVIDIA 지배력의 본질은 하드웨어가 아님. CUDA라는 독점적 프로그래밍 프레임워크가 20년간 쌓아온 소프트웨어 라이브러리, 훈련된 개발자, 최적화된 워크로드를 잠가놓은 것임. AMD의 ROCm이나 구글의 XLA로 전환하려면 코드를 다시 짜고, 팀을 재교육하고, 얇은 생태계를 감수해야 함.
AMD가 MI350X로 반격에 나선 것임. 288 GB HBM3e, 8 TB/s 대역폭, MI300X 대비 추론 성능 35배 향상을 내세우고 있음. Microsoft, Meta, OpenAI가 MI350 도입을 확약한 상태임 (AMD, Tom’s Hardware). 문제는 ROCm이 소프트웨어 격차를 줄일 수 있느냐임.
TPU — 컨베이어 벨트 위의 행렬 공장
구글의 TPU는 특화 수준을 한 단계 더 끌어올린 것임. GPU가 그래픽·물리 시뮬레이션·AI를 모두 돌릴 수 있는 반면, TPU는 딱 하나, 대규모 행렬 곱셈만을 위해 설계됨. 비유하면 원재료가 한쪽 끝에서 들어가 시스톨릭 어레이(Systolic Array)라는 연산 격자를 통과한 뒤 결과물로 나오는 컨베이어 벨트임. 우회로는 없음.

시스톨릭 어레이는 곱셈-누적(MAC) 셀이 격자 형태로 고정 배치된 구조임. 각 셀이 이웃에게서 데이터를 받아 연산하고 다음으로 넘김. 랜덤 메모리 접근도 없고, 분기 예측도 없고, 낭비되는 사이클도 없음. 제품 하나만 만드는 공장 라인인 셈임.
XLA 컴파일러의 우위
TPU는 XLA(Accelerated Linear Algebra)라는 구글의 도메인 특화 컴파일러 위에서 돌아감. XLA가 TensorFlow나 JAX 연산 그래프를 받아 시스톨릭 어레이 레이아웃에 맞춰 실행 전에 최적화함. 하드웨어와 소프트웨어를 공동 설계한 구조라서 범용 GPU가 감수하는 오버헤드를 제거한 것임.
v5p에서 v6 Trillium까지
TPU v5p는 칩당 BF16 기준 약 459 TFLOPS를 제공하고, 8,960 칩 규모의 Pod까지 확장되며, v4 대비 학습 속도가 2.8배 향상됨 (Google Cloud).
TPU v6, 코드명 Trillium은 칩당 BF16 918 TFLOPS로 v5e 대비 4.7배 점프한 것임. HBM 용량과 대역폭 모두 2배, 칩 간 인터커넥트(ICI) 2배, 에너지 효율 67% 개선까지 달성함 (Google Cloud).
주목할 대목이 있음. Anthropic이 TPU 100만 대 구매 계약을 체결한 것임. 최고 수준 AI 연구소가 GPU가 아닌 칩에 이 정도 규모를 베팅했다면, 이 아키텍처가 프로토타입 수준을 넘어섰다는 증거임.
FIG. 02 — 5가지 비교
AI 칩 아키텍처 한눈에 보기
설계 트레이드오프
2026 플래그십
범용 — 모든 작업, 순차 실행
EPYC 9754 (4.6 TFLOPS)
병렬 — 1만+ SIMT 코어, HBM 7.7 TB/s
NVIDIA B200 (4.5 PFLOPS)
행렬 전용 — 시스톨릭 어레이, XLA 컴파일러
v6 Trillium (918 TFLOPS)
엣지 — MAC+SRAM, 최고 TOPS/W
Snapdragon X2 (80 TOPS)
최소 지연 — SRAM-only, 결정론적 실행
Groq LPU (300 tok/s)
SOURCE: NVIDIA, Google, AMD, Qualcomm, Groq
유연성↔특화 스펙트럼에서 오른쪽으로 갈수록 특정 영역에서 극적인 성능을 얻지만 다양한 작업을 처리하는 능력은 잃어버림.
메모리 전략이 숨겨진 차별화 요소임. GPU와 TPU는 대역폭을 위해 HBM에 투자함. NPU는 저전력 LPDDR과 소형 SRAM 캐시에 의존함. LPU는 SRAM에 전부를 걸었음. 각 메모리 아키텍처가 그 칩이 물리적으로 처리할 수 있는 워크로드를 결정하는 것임.
AI 하드웨어 아키텍처 선택 가이드
AI 서비스를 만들거나 도입하려는 직장인이라면, 의사결정은 세 가지 축으로 나뉨. 학습 vs 추론, 클라우드 vs 엣지, 지연시간 vs 처리량임.

의사결정 프레임워크
대규모 모델 학습이라면 GPU가 기본값임. NVIDIA CUDA 생태계와 HBM 대역폭이 B200을 가장 안전한 선택지로 만들어줌. Google Cloud에서 JAX/TensorFlow를 쓴다면 TPU v6 Trillium도 강력한 대안임.
대규모 배치 추론(초당 수천 건, 지연시간 허용 범위 내)이라면 GPU와 TPU 모두 작동함. AMD MI350X가 8 TB/s 대역폭으로 NVIDIA 가격 구조를 흔들 수 있음.
밀리초 단위의 실시간 추론이라면 LPU를 이길 아키텍처는 없음. 70B 모델에서 초당 300토큰은 어떤 GPU도 현재 따라잡지 못하는 10배 우위임.
온디바이스 AI(스마트폰, 노트북, 웨어러블)라면 NPU만이 배터리가 요구하는 TOPS/W 비율을 충족함. 80 TOPS의 Qualcomm X2가 2026년 기준점을 세우고 있음.
FIG. 03 — 유연성 → 특화
AI 칩 스펙트럼
유연성
CPU: 무엇이든, 어디서든
복잡한 로직을 순차 처리. 공장의 현장 감독 — 모든 것을 오케스트레이션함.
병렬
GPU: 대규모 병렬 연산
1만+ SIMT 코어로 행렬 연산 처리. HBM 대역폭으로 AI 학습 시장 지배.
특화
TPU: 행렬 컨베이어 벨트
시스톨릭 어레이 + XLA 컴파일러. 행렬 전용 워크로드에 대한 구글의 해법.
엣지
NPU: 주머니 속 AI
와트당 최고 연산. 스마트폰·노트북·웨어러블에서 클라우드 없이 추론 실행.
지연시간
LPU: 한 경로, 최고 속도
SRAM-only + 결정론적 실행. 70B 모델에서 300 tok/s — GPU 추론 대비 10배.
SOURCE: TheByteDive 분석
한국의 숨겨진 지렛대: HBM 공급망
모든 고성능 AI 칩이 의존하는 부품이 하나 있음. HBM 메모리임. 그리고 한국이 이 시장을 장악하고 있음.
SK하이닉스가 글로벌 HBM 시장의 63%를 차지하고 있음. 삼성이 24%로 뒤따름. 한국 기업 두 곳이 GPU·TPU·차세대 AI 가속기에 들어가는 메모리의 87%를 공급하는 구조임 (SK하이닉스 뉴스룸).
HBM 시장 자체 규모는 2026년 $54.6B(약 76조 원)으로, 전년 대비 58% 성장한 것임 (SK하이닉스 뉴스룸, UBS). 한국은 AI 칩을 설계하지는 않지만, AI 칩이 돌아가는 데 필요한 연료를 만들고 있음.
전략적 비대칭이 만들어진 것임. 미국이 엔진을 설계하고(NVIDIA, AMD, 구글), 대만이 제조하고(TSMC), 한국이 고대역폭 메모리를 공급함. HBM 공급망에 차질이 생기면 전체 AI 하드웨어 생태계에 충격이 전파되는 구조임.
AI 하드웨어 아키텍처 한줄 코멘트
$107B AI 칩 시장은 더 이상 GPU 독점이 아님. 범용을 거부한 5가지 아키텍처가 각자의 영역에서 승리하는 구조로 재편되고 있음.

직장인 시사점
“어떤 칩이 최고인가”가 아니라 “내 워크로드의 병목이 어디인가”를 질문해볼 시점임. 학습·배치 추론·실시간 추론·엣지 배포는 각각 다른 최적 답을 가지고 있음. TFLOPS 숫자가 아니라 내 병목에 맞는 칩을 고르는 것이 시작점임.

AI 하드웨어 아키텍처 FAQ
Q. GPU와 TPU는 AI 학습에서 어떤 차이가 있나요? A. GPU는 그래픽을 포함한 다양한 병렬 연산을 처리하는 범용 프로세서입니다. TPU는 구글이 시스톨릭 어레이 구조로 행렬 연산만을 위해 설계한 전용 칩입니다. Google Cloud에서 JAX/TensorFlow를 사용한다면 TPU가 더 효율적일 수 있지만, GPU는 CUDA 생태계를 통한 폭넓은 호환성을 제공합니다.
Q. LPU가 GPU를 대체할 수 있나요? A. 대체는 불가능합니다. LPU는 추론 지연시간만 최적화한 칩으로, 70B 모델에서 초당 300토큰이라는 GPU 대비 10배 속도를 달성합니다. 그러나 모델 학습은 불가능하고 대형 파라미터 모델에는 멀티칩 연결이 필요합니다. GPU의 보완재이지 대체재가 아닙니다.
Q. AI 하드웨어 아키텍처가 일반 사용자에게 왜 중요한가요? A. 스마트폰과 노트북에 탑재된 NPU가 실시간 번역, 카메라 AI, 음성 비서 같은 온디바이스 AI 기능을 가능하게 합니다. Apple M4의 38 TOPS에서 Qualcomm X2의 80 TOPS로 성능이 올라가면, 이런 기능의 속도와 품질이 직접적으로 향상됩니다.
HBM 메모리가 AI 칩 성능에 미치는 영향
Q. HBM 메모리가 AI 칩 성능에 어떤 영향을 주나요? A. HBM(High Bandwidth Memory)은 메모리를 수직으로 쌓아 프로세서에 직접 연결하는 구조로, B200 기준 7.7 TB/s 대역폭을 제공합니다. AI 모델이 대용량 데이터를 끊임없이 읽어야 하므로 메모리 대역폭이 연산 성능보다 중요한 경우가 많습니다. HBM이 빠를수록 GPU의 유휴 시간이 줄어들고 실제 처리량이 올라갑니다.
Q. AI 하드웨어 아키텍처 공급망에서 한국의 역할은 무엇인가요? A. 한국은 SK하이닉스(63%)와 삼성(24%)을 통해 글로벌 HBM 시장의 87%를 장악하고 있습니다. HBM은 GPU와 TPU에 필수적이어서, 칩을 직접 설계하지 않더라도 한국은 AI 하드웨어 공급망의 핵심 노드입니다. 2026년 HBM 시장 규모는 $54.6B(약 76조 원)으로 전년 대비 58% 성장했습니다.
관련 분석: NVIDIA 아이징 양자 AI — AI가 양자컴퓨터의 운영체제가 되는 시대 · 베조스 프로젝트 프로메테우스 — $100B 로봇 경제 장악 전략
참고문헌
- Silicon Analysts, “NVIDIA AI Market Share 2026” (https://siliconanalysts.com/nvidia-ai-market-share-2026)
- Yahoo Finance, “NVIDIA 85% GPU Market Share Analysis” (https://finance.yahoo.com/news/nvidia-gpu-market-share-2025)
- Exxact Blog, “Comparing Blackwell vs Hopper GPUs” (https://blog.exxactcorp.com/blackwell-vs-hopper-comparison)
- Jarvis Labs, “NVIDIA B200 Specifications” (https://jarvislabs.ai/blogs/nvidia-b200)
- Google Cloud, “Introducing Trillium: 6th-gen TPUs” (https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus)
- Google Cloud Docs, “TPU v5p System Architecture” (https://cloud.google.com/tpu/docs/v5p)
- Groq Blog, “Llama 3.3 70B Benchmark Results” (https://groq.com/blog/llama-3-3-70b-benchmark)
- Introl, “Groq LPU Infrastructure Guide” (https://introl.io/groq-lpu-infrastructure-guide)
- Apple Newsroom, “Apple M4 Chip” (https://www.apple.com/newsroom/2024/05/apple-introduces-m4-chip/)
- Notebookcheck, “Qualcomm Hexagon NPU 6 — 80 TOPS” (https://www.notebookcheck.net/qualcomm-snapdragon-x2-hexagon-npu-6)
- AMD Blog, “Introducing MI350 Series Accelerators” (https://www.amd.com/en/products/accelerators/instinct/mi350)
- Tom’s Hardware, “AMD MI350X and MI355X Analysis” (https://www.tomshardware.com/news/amd-mi350x-mi355x-specs)
- SK하이닉스 뉴스룸, “2026 HBM 시장 전망” (https://news.skhynix.com/2026-hbm-market-outlook)
- AMD, “EPYC 9004 Series Data Sheet” (https://www.amd.com/en/products/processors/server/epyc/9004-series)
이 글은 상장 기업 및 반도체 제품에 대한 공개 정보를 다루고 있음. 제공된 정보는 교육 목적이며 투자 조언에 해당하지 않음. 투자 결정 전 반드시 독자적인 조사를 수행해야 함.
