2026년 2월, OpenAI가 발표한 숫자 하나에 엔지니어링 매니저들이 두 번 놀라게 됨. 엔지니어 3명, 5개월, 약 100만 줄의 프로덕션 코드, 그리고 수기로 작성된 코드는 0줄. 모든 코드가 Codex 에이전트가 찍어낸 것이었고, 엔지니어 한 명당 하루 3.5개의 PR을 올리고 있었음. 생산성 개선이 아니라 소프트웨어의 산수 자체가 다시 쓰여진 사건임.
같은 달, HashiCorp 공동창업자 Mitchell Hashimoto가 “My AI Adoption Journey”를 발표하며 이 현상에 이름을 붙이게 됨 — 하네스 엔지니어링(harness engineering). 6주 뒤인 2026년 4월 2일, Google이 Gemma 4를 Apache 2.0으로 풀었음. 같은 주, Nous Research의 자율 Hermes Agent가 $5짜리 VPS에서도 돌아가기 시작한 것임. 각각 따로 보면 뉴스지만, 합쳐서 보면 LLM 시대 제2막의 개막임. 모델은 더 이상 경쟁의 전선이 아님. 하네스가 본체인 셈임.
이 글의 논지는 구체적임. 2026년의 지속 가능한 AI 우위는 세 개의 축이 만나는 지점에서 만들어지고 있음 — 하네스 엔지니어링, 허용적 라이선스의 오픈 가중치 모델, 그리고 온프레미스 자가개선 루프. 각 축만 떼어봐도 흥미롭지만, 셋을 합치면 엔터프라이즈 AI가 하이퍼스케일러 API에서 조용히 빠져나와 책상 위에 올려놓을 수 있는 워크스테이션으로 이주하는 그림이 완성되는 것임.
TL;DR — 다음 AI 경쟁력은 더 큰 모델이 아닌 하네스에서 나옴.
- OpenAI가 2026년 2월 수기 코드 0줄로 100만 줄을 뽑아낸 뒤 하네스 엔지니어링이 공식 디시플린으로 확정됨. 프롬프트→컨텍스트→하네스로 스택이 한 층 올라감.
- Hermes 4 405B(Llama 3 라이선스)와 Gemma 4 31B(Apache 2.0)는 허용적 라이선스 + 네이티브 도구 사용 + 강한 추론을 동시에 만족하는 첫 오픈 가중치 쌍두마차임. 프런티어 API가 필요했던 온프레미스 에이전트의 전제가 바뀌는 것임.
- Mac Mini 24GB + Gemma 4 8B = 30+ tok/s가 현실적 시작 Tier. H100 기준 $780K짜리 구성이 $40K Mac Studio 클러스터 한 번에 무너지게 됨.
1. 프롬프트 → 컨텍스트 → 하네스, 8개월의 언어 이동
LLM으로 쓸 만한 작업을 뽑아내기 위한 어휘가 1년도 안 되는 사이에 세 번 바뀌게 됨. 각 전환은 구체적인 엔지니어 한 명이 구체적인 날짜에 구체적인 불편함을 언어화한 순간임.
1.1 “프롬프트”에서 “컨텍스트”로 — Karpathy가 선 긋기
2023~2024년 대부분의 시기 동안 “프롬프트 엔지니어링”이 지배적 기술이었음. 그러다 2025년 6월 25일, Andrej Karpathy가 X에 지금은 널리 인용되는 주장을 올리게 됨. 진짜 디시플린은 프롬프트 문구를 다듬는 것이 아니라 컨텍스트 윈도우 전체를 설계하는 것이라는 주장이었음. LLM을 새로운 종류의 운영체제에, 컨텍스트 윈도우를 그 RAM에 비유하면서, 질문이 “어떤 표현이 잘 먹히나”에서 “이 유한한 토큰 슬랩에 어떤 정보·메모리·도구·구조를 넣을 것인가”로 바뀌게 된 것임.
3개월 뒤인 2025년 9월 29일, Anthropic이 Claude Sonnet 4.5 출시와 함께 “Effective context engineering for AI agents”라는 긴 엔지니어링 포스트를 올리며 용어를 공식화함. 컨텍스트 엔지니어링이 트위터 밈에서 모범 사례를 갖춘 디시플린으로 넘어가게 된 것임.
1.2 “컨텍스트”에서 “하네스”로 — Hashimoto가 링을 명명함
2026년 초, 본격적인 에이전트 워크로드를 돌리던 팀들이 완벽하게 큐레이션된 컨텍스트만으로도 충분하지 않다는 것을 알게 됨. 스캐폴딩도 필요했던 것임 — 프리 커밋 훅, 검증 루프, 도구 호출 샌드박스, 재시도 정책, 에이전트 체크포인트 분기 전략. 2026년 2월 5일 Mitchell Hashimoto가 “My AI Adoption Journey”를 공개했고, 그 여정의 Stage 5 제목이 바로 “Engineer the Harness”였음. 이름이 박힌 이유는 이전 용어가 잡아내지 못한 무언가를 포착했기 때문임. 에이전트는 올바른 토큰만 필요한 게 아니라, 자신을 받아주고 고쳐주고 보상해 주는 환경이 필요하다는 것임.
같은 달에 OpenAI가 “Harness engineering: leveraging Codex in an agent-first world”를 공개하며 내부적으로 이 디시플린을 공식화하게 됨. 거기 붙은 숫자가 이제는 유명함 — 100만 줄 코드, 엔지니어 3명, 5개월, 수기 코드 0줄, 엔지니어당 하루 3.5 PR. 이제 패러다임 전환은 가설이 아닌 것임.
1.3 지식 노동의 75~99%는 스캐폴딩이었다는 불편한 진실
2026년 4월 GeekNews Korea에서 회자된 한 에세이가 Karpathy의 2025 Year in Review를 인용하며 논지를 더 날카롭게 다듬은 구절이 있음. 대부분의 지식 노동에서 시간의 75~99%는 스캐폴딩에 쓰이고 있음 — 재포매팅, 라우팅, 권한 체크, 보일러플레이트, 상태 업데이트, 그리고 진짜 사고 주변을 감싸는 메타 작업. 전통 소프트웨어는 그중 5~25%에 해당하는 “코어”만 자동화했음. 하네스 엔지니어링은 나머지를 겨냥하게 되는 것임.
이 재프레이밍이 중요한 이유는, 잘 만든 하네스 안의 작고 저렴한 모델이 순진한 API 호출로 노출된 크고 똑똑한 모델을 왜 일상적으로 이기게 됐는지 설명해 주기 때문임. 병목이 지능에서 안무(choreography)로 옮겨간 것임.
FIG. 1 — 프롬프트 → 컨텍스트 → 하네스
"프롬프트 엔지니어링" 시대
ChatGPT 시대의 첫 어휘가 자리잡음. 문장을 다듬는 것이 기술이었던 것임.
Karpathy "컨텍스트 엔지니어링" 선언
X 포스트에서 "LLM = 새 OS, 컨텍스트 윈도우 = RAM" 비유를 내놓음. 작업 단위가 문장에서 정보 설계로 이동하게 된 것임.
Anthropic 공식 가이드 발표
"Effective context engineering for AI agents"가 Claude Sonnet 4.5와 함께 출시되어 기업 레퍼런스로 굳어지게 됨.
Hashimoto + OpenAI, "하네스 엔지니어링" 명명 CURRENT
"My AI Adoption Journey" Stage 5에서 용어가 등장함. OpenAI의 100만 줄·3명·5개월·수기 코드 0줄 Codex 사례가 논지를 확정짓는 것임.
출처: Karpathy X 포스트 (2025-06), Anthropic Engineering (2025-09), Mitchell Hashimoto (2026-02-05), OpenAI "Harness Engineering" 블로그 (2026-02)
2. 오픈 가중치 2026 쌍두마차 — Hermes 4 vs Gemma 4
하네스 엔지니어링이 소프트웨어 디시플린이라면, 이 시대의 하드웨어 이야기는 오픈 가중치 모델임. 정확히는, 법무팀을 부르지 않고도 자체 하드웨어에서 돌리고 수정할 수 있을 만큼 라이선스가 허용적인 모델을 의미함. 2026년 4월 기준, 그 틈새를 지배하는 두 패밀리가 있음.
2.1 Hermes 4 405B — Nous Research가 크게 간 것임
2025년 8월 26일, Nous Research가 Hermes 4 패밀리를 공개하게 됨. 14B(Qwen3 기반) / 70B / 405B(Llama 3.1 기반)의 3종 구성임. 405B 플래그십 벤치마크는 MMLU 87.2, MATH-500 96.3, AIME’24 81.9, GPQA Diamond 70.5, LiveCodeBench 61.3(arXiv 2508.18255). 원 수치보다 중요한 설계 선택이 두 가지 있음. 첫째, Hermes 4는 하이브리드 리즈너임 — 프롬프트를 <think>…</think> 태그로 감싸면 추론 모드로 전환되고, 태그를 빼면 빠른 대화형 모델처럼 동작하게 됨. 둘째, 포스트 트레이닝 코퍼스가 Hermes 3의 100만 샘플/12억 토큰에서 500만 샘플/600억 토큰으로 확장됨 — 50배 점프이고, 도구 사용과 지시 따르기 평가에서 가장 두드러지게 나타나는 것임.
약점은 라이선스임. Hermes 4는 Llama 3 커뮤니티 라이선스를 상속받음. 상업·연구 사용은 허용되지만 OSI 의미의 완전한 오픈소스는 아님. 대부분의 엔터프라이즈 배포에는 문제가 없음. 다만 컴플라이언스 팀이 레터헤드에 Apache 2.0이 찍히길 원하는 경우에는 문제가 되는 것임.
2.2 Gemma 4 31B — Apache 2.0이 판을 바꿈
이 글을 쓰기 9일 전인 2026년 4월 2일, Google DeepMind가 Gemma 4를 4개 variant로 풀었음. E2B(~2.3B 유효 파라미터) / E4B(~4.5B 유효) / 26B A4B MoE(~4B 활성) / 31B Dense의 구성임. 네 종 모두 Apache 2.0이고, 작은 변종은 128K 컨텍스트, 26B·31B는 256K 컨텍스트임. Gemma 3 → Gemma 4의 벤치마크 점프는 일반적인 버전업 수준이 아니라 범주가 바뀐 수준임. AIME 2026 20.8% → 89.2%, LiveCodeBench v6 29.1% → 80.0%, GPQA 42.4% → 84.3%. 가장 인상적인 것은 에이전트 도구 체이닝 능력을 측정하는 τ2-bench가 6.6%에서 86.4%로 13배 뛴 것임. Gemma가 채팅 장난감에서 에이전트 프리미티브로 넘어간 순간임.
Gemma 4 31B는 현재 Arena AI 텍스트 리더보드 #3(1452 Elo)에 올라 있음. 자기보다 20배 큰 모델들을 제치고 있는 것임. VentureBeat의 4월 3일 커버리지는 Apache 2.0으로의 전환 자체가 기사의 본질이라고 주장함. 벤더 락인을 걱정하는 어떤 엔터프라이즈에게도, 프런티어급 능력의 31B에 붙은 오픈 라이선스는 구조적 이벤트인 것임.
2.3 라이선스가 승부를 가르게 됨
실무에서 두 모델이 영역을 나누는 방식은 이렇게 됨. 이미 보유한 하드웨어에서 원시 추론력이 필요하고 Llama 계열 라이선스가 받아들여진다면 Hermes 4 405B가 깊이에서 이기는 것임 — 하이브리드 <think> 토글과 600억 토큰 포스트 트레이닝이 어려운 벤치마크에서 드러남. 에이전틱 도구 사용, 롱 컨텍스트 검색, 혹은 Apache 2.0 라이선스가 조달을 실질적으로 단순화하는 환경이 필요하다면 Gemma 4 31B가 이기는 것임. Makebot의 2026년 1분기 엔터프라이즈 LLM 리포트에 따르면, APAC 기업의 86%가 AI 보안을 최대 우려로 꼽음. 그중 거의 절반이 “라이선스 허용성”을 게이팅 요건으로 명시하게 됨. Gemma 4는 그 기준을 넘는 첫 번째 이 급의 모델인 것임.
한 가지 디테일을 더 짚을 필요가 있음. 2026년 4월 1일 Qwen Meetup Korea의 발표 “Function Calling Harness, turning success rate from 6.75% to 100%”에서 한국 팀이 AutoBe(AST 레벨 function calling)와 Typia(컴파일타임 스키마 검증)을 조합해 내부 벤치마크에서 도구 사용 성공률을 한 자릿수에서 100%로 끌어올린 사례를 공유함. 박힌 한 줄이 이것임 — “결정론적 검증기가 있는 도메인이라면, 확률적 모델을 어디서든 실용화할 수 있음.” 하네스 엔지니어링 논지를 11단어로 요약한 셈임.
표 1 — 오픈 가중치 에이전트 모델 비교 (2026년 4월 기준)
| 모델 | 파라미터 | 컨텍스트 | 라이선스 | MMLU | 수학 | 코딩 | τ2-bench | 출시 |
|---|---|---|---|---|---|---|---|---|
| Hermes 4 405B | 405B dense | 131K | Llama 3 | 87.2 | 96.3 (MATH-500) | 61.3 (LCB) | — | 2025-08-26 |
| Hermes 4 70B | 70B dense | 131K | Llama 3 | ~85 | ~93 | ~55 | — | 2025-08 |
| Hermes 4 14B | 14B (Qwen3) | 131K | Qwen | — | — | — | — | 2025-08 |
| Gemma 4 31B | 31B dense | 256K | Apache 2.0 | 85.2 | 89.2 (AIME’26) | 80.0 (LCB v6) | 86.4 | 2026-04-02 |
| Gemma 4 26B MoE | 26B (4B active) | 256K | Apache 2.0 | ~83 | ~86 | ~76 | ~82 | 2026-04-02 |
| Gemma 4 E4B | ~4.5B effective | 128K | Apache 2.0 | — | — | — | — | 2026-04-02 |
| Gemma 4 E2B | ~2.3B effective | 128K | Apache 2.0 | — | — | — | — | 2026-04-02 |
출처: Hermes 4 arXiv 2508.18255 (Nous Research), Gemma 4 릴리스 노트 (Google DeepMind, 2026-04-02), Arena AI 리더보드.
FIG. 2 — 자가성장 루프 (2025–2026)
대표 개선폭
업데이트 단위
데이터 요구
주요 한계
출처: SEAL arXiv 2506.10943 (MIT, 2025-06), ACE arXiv 2510.04618 (Stanford+SambaNova+UCB, 2025-10), AlphaEvolve (DeepMind, 2025-05) — 4×4 복소 행렬곱 Strassen 기록을 56년 만에 경신.
3. 자가성장의 세 갈래 — SEAL, ACE, AlphaEvolve
모델은 하네스의 일부일 뿐임. 더 흥미로운 질문은 따로 있음 — 하네스 자체가 사람의 매 스텝 개입 없이 시간이 갈수록 더 좋아질 수 있는가? 2025~2026년 세 개의 연구 프로그램이 이 질문을 완전히 다른 각도에서 공략하게 됨. 서로 경쟁한다기보다는 검색 공간을 나눠 정의하는 관계인 것임.
3.1 SEAL — 가중치 자체를 편집하는 길
2025년 6월, MIT의 Zweiger, Pari, Guo, Akyürek, Kim, Agrawal 연구팀이 SEAL(arXiv 2506.10943)을 공개함. 접근이 매섭음. 모델이 스스로 “self-edit”을 생성하게 하고, 그것을 실제로 지도 학습(SFT) 예제로 써서 가중치를 업데이트하게 됨. RL 보상은 업데이트된 모델의 다운스트림 성능임. 결국 시스템이 “자신을 더 똑똑하게 만드는 편집을 쓰는 법”을 배우게 되는 것임. Llama-3.2-1B few-shot 과제에서 베이스라인 0%, 기본 self-edit 20%를 지나 풀 SEAL 루프로 72.5%까지 끌어올렸음. QA 정확도는 약 15%p 개선됨.
한계는 익숙한 것임 — catastrophic forgetting. 모든 가중치 업데이트는 이전에 알고 있던 것을 깎을 위험을 동반함. SEAL은 통제된 루프 안에서 엔드투엔드 가중치 레벨 자가개선이 작동함을 증명함. 다만 그 루프를 몇 개월 내내 드리프트 없이 돌릴 수 있음을 증명한 것은 아님.
3.2 ACE — 가중치가 아니라 컨텍스트를 진화시키는 길
2025년 10월, Stanford·SambaNova·UC Berkeley 팀이 ACE(Agentic Context Engineering, arXiv 2510.04618)를 공개함. 정반대 베팅임. 가중치는 그대로 두게 됨. 대신 진화하는 플레이북(evolving playbook), 즉 전략과 실패 패턴을 담은 구조화된 문서를 유지하고, Generation·Reflection·Curation 세 모듈이 협력해 이것을 키우는 것임. 새 과제가 들어오면 플레이북의 관련 부분이 컨텍스트에 주입되게 됨.
ACE의 결과가 놀라운 이유는 밑에 깔린 모델이 작다는 점 때문임. AppWorld 리더보드에서 ACE를 얹은 오픈소스 모델이 프런티어 폐쇄 모델 위에 구축된 톱 에이전트와 동급을 찍게 됨. 에이전트 과제 평균 +10.6%p, 금융 추론 과제 +8.6%p의 개선이 나타났음. 핵심 novelty는 “컨텍스트 붕괴(context collapse)”의 해결임. 순진한 플레이북 업데이트가 컨텍스트를 일관성 없게 만드는 실패 모드를, 전면 재작성 없이 큐레이션 단계로 막는 것임.
대가는 분명함. 이 방식의 천장은 컨텍스트 윈도우에 들어가는 유용한 지식의 양이 정함. 다만 Gemma 4에서 256K 컨텍스트가 표준이 된 지금, 그 천장은 빠르게 올라가고 있는 것임.
3.3 AlphaEvolve — 검증기에 탐색을 맡기는 길
Google DeepMind가 2025년 5월에 공개한 AlphaEvolve는 또 다른 경로임. Gemini Flash(폭)와 Gemini Pro(깊이)를 진화적 알고리즘에 엮고, 어떤 도메인이든 상관없는 자동 평가기(evaluator)를 꽂는 구조임. 대표적 결과가 56년 묵은 Strassen의 4×4 복소 행렬 곱 알고리즘을 개선한 것임 — 스칼라 곱 횟수를 49회에서 48회로 줄였음. 각주처럼 들릴 수 있지만, 피어 리뷰를 통과한 행렬 곱 최적화는 지구상 거의 모든 선형대수 라이브러리에 박히게 됨. AlphaEvolve는 50개 미해결 수학 문제 중 75%에서 SOTA를 재발견했고, 20%에서 그것을 개선한 것임. Google은 자체 데이터센터 스케줄링에 이것을 배포해 이전에 낭비되던 컴퓨트의 0.7%를 회복하게 됨.
AlphaEvolve의 제약이 곧 강점임. 신뢰할 만한 검증기가 있는 도메인에서만 작동함. 수학은 있음. 코드 실행은 있음. 대부분의 엔터프라이즈 워크플로 — 고객 응대, 법무 초안, 전략 메모 — 에는 없음. Karpathy가 2025 Year in Review에서 그 해의 가장 큰 기술 변화가 RLVR(Reinforcement Learning from Verifiable Rewards)이라고 주장한 이유가 여기에 있는 것임. 어떤 도메인이 검증기를 얻는 순간, 자가개선 플라이휠이 돌기 시작하게 됨.
3.4 Absolute Zero와 천장의 문제
LeapLabTHU의 “Absolute Zero Reasoner”(arXiv 2505.03335, NeurIPS 2025 spotlight)는 검증기 논지를 극단까지 밀고 가게 됨. 외부 데이터 0건, 인간 라벨 0건, 증류 데이터 0건. 모델이 검증기로 정의된 환경 안에서 자기대결만으로 수학·코딩 SOTA를 달성하게 되는 것임. 단서는 NeurIPS 2025의 비판적 후속 논문에서 나옴 — RLVR은 “베이스 모델이 이미 잠재적으로 가진 능력을 샘플링 효율적으로 끌어낼 뿐, 근본적으로 새로운 추론 패턴을 만들지는 못한다”는 지적임. 쉽게 말해, 이 루프는 모델을 원래 할 수 있던 일에 더 능숙하게 만들지만, 무에서 새로운 인지를 발명하지는 못하는 것임. 자가개선 위에 몇 년짜리 로드맵을 얹으려는 사람에게는 중요한 구분임. 플라이휠은 실재하지만, 그 천장은 베이스 모델의 사전 지식에 묶여 있는 것임.

4. Mac Mini 클러스터, meme에서 sovereign infra까지
하네스 엔지니어링이 소프트웨어고 오픈 가중치 모델이 스택이라면, 하드웨어 이야기가 셋 중 가장 직관에 어긋나는 파트임. 2024년 말, Apple Silicon 데스크톱에서 프런티어 모델을 돌리는 아이디어는 퍼포먼스 아트 취급을 받았음. 2026년 4월 시점에는 엔터프라이즈 인프라 플랜의 줄 항목이 된 것임.
4.1 농담이기를 거부한 EXO Labs 실험
2024년 12월, EXO Labs가 “12 Days of EXO”를 진행하며 Day 1에 M4 Pro 64GB Mac Mini 8대를 엮어 DeepSeek V3 671B를 약 5 tok/s로 돌리는 장면을 공개함. 인터넷은 이것을 묘기 쇼로 받아들였음. Jeff Geerling의 후속 블로그도 반응이 그랬다고 솔직히 적고 있음. 대부분의 코멘트가 이 처리량은 의미 없는 수치라고 판단한 것임.
1년이 지난 지금 숫자가 완전히 다르게 나타남. DeepSeek V3.1 기준 단일 노드가 21.1 tok/s, 4노드 클러스터가 32.5 tok/s임 — 선형은 아니지만 의미 있는 스케일임. Mac Studio M3 Ultra 512GB 단일 구성은 DeepSeek-R1을 17~18 tok/s로 돌림. 다만 Apple이 2026년 3월에 512GB SKU를 조용히 단종시키면서 이 구체적 빌드 경로는 불확실해진 것임.
4.2 RDMA over Thunderbolt 5가 산수를 다시 씀
게임이 바뀐 사건은 2025년 12월 20일 — macOS 26.2에서 Thunderbolt 5 기반 RDMA를 day-0 지원하게 됨. AppleInsider 커버리지에서 확인 가능함. RDMA(Remote Direct Memory Access)는 한 기기가 다른 기기의 메모리를 OS 네트워킹 스택 없이 직접 읽는 기술임. Mac 클러스터에서 이것이 기기 간 레이턴시를 300µs에서 3µs로, 100배 줄여버렸음. 처리량 숫자가 아니라 토폴로지의 변화인 것임. 3µs에서는 클러스터가 작은 기기들의 네트워크가 아니라 하나의 큰 기기처럼 동작하기 시작함.
RDMA가 살아 있는 상태에서 Jeff Geerling과 EXO Labs가 각각 독립적으로 Mac Studio 4대로 1.5TB 통합 메모리를 확보해 Kimi K2를 25 tok/s로 돌리는 장면을 시연했음. 같은 메모리 풋프린트를 맞추려면 NVIDIA H100 빌드가 약 $780,000 필요함. Mac Studio 클러스터는 대략 $40,000 선임 — 워크로드가 실제로 이 아키텍처에서 이득을 보는 경우에 한해, 95% 할인인 셈임.
4.3 솔직한 단서 — 배치 크기가 승부를 가름
Mac 클러스터 이야기에는 EXO Labs가 Day 2 블로그에 슬쩍 묻어둔 중요한 각주가 있음. 단일 요청 레이턴시에서는 기기를 추가하는 게 오히려 손해인 경우가 많음 — 한 테스트에서 모델을 여러 기기에 분할했더니 처리량이 49.3 tok/s에서 39.7 tok/s로 떨어졌음. 기기 간 조정 비용이 병렬화 이득을 잡아먹은 것임. Mac 클러스터 아키텍처는 병렬 요청이 있을 때 빛을 발함 — 다중 동시 사용자, 배치 RAG 쿼리, 에이전트 플릿이 모델을 동시에 두들기는 상황임. 단일 채팅 세션이라면 여전히 단일 Mac Studio가 이김. 부서 규모의 온프레미스 추론 서비스라면 클러스터가 크게 이기는 것임.
4.4 현실적 시작 Tier — Mac Mini 24GB
여기서 하드웨어 논지가 소프트웨어 논지와 만남. 2026년 4월 4일 GeekNews Korea에 올라온 한 실전 기록이 이것을 정확히 보여줌. 베이스 Mac Mini(24GB 통합 메모리)와 Ollama를 가지고 Gemma 4를 로컬에서 실제로 돌려본 것임. Gemma 4 8B는 9.6GB에 들어감. Mac Mini의 통합 메모리 구조에서 CPU 14% / GPU 86%로 분할되며, 30+ tok/s를 지속적으로 내게 됨 — 인터랙티브 에이전트 작업에는 차고 넘치는 속도임. 반면 Gemma 4 26B는 17GB를 점유하며 시스템을 swap으로 밀어넣음. 블로그 저자는 24GB 구성에서 26B를 실전 사용하는 것을 비추천함. 시작하려는 사람을 위한 실용 처방은 이것임 — Mac Mini 24GB + Ollama v0.19+(MLX 백엔드와 NVFP4 포맷이 자동 활성화됨) + Launch Agent로 OLLAMA_KEEP_ALIVE=-1 설정 + Gemma 4 8B 로드. 그리고 하네스를 쌓기 시작하면 되는 것임. 총 하드웨어 비용은 $1,000 미만임.

5. 오늘 조립하는 온프레미스 자가성장 스택 — 3-Tier 가이드
세 갈래 — 하네스 엔지니어링, 오픈 가중치 모델, Mac Mini 클러스터 — 가 실전 질문 하나로 수렴함. 2026년 4월 현재, 온프레미스 자가개선 에이전트 스택을 쌓으려는 팀이 실제로 무엇을 사고, 설치하고, 연결해야 하는가? 이 글의 데이터에 기반한 Tier 사다리를 정리하게 됨. 아래 어느 것도 하이퍼스케일러 계약이 필요하지 않음.
5.1 Tier 1 — PoC ($1,000 + 주말 하나)
하드웨어. Mac Mini M4 Pro 24GB 1대. 구성에 따라 약 $800~1,000임.
소프트웨어 스택. Ollama v0.19 이상 + Gemma 4 8B. Launch Agent 안에 OLLAMA_KEEP_ALIVE=-1을 설정해 호출 사이에도 모델이 메모리에 상주하게 함. 기존 IDE나 채팅 클라이언트를 localhost:11434로 향하게 하면 되는 것임.
ollama pull gemma4:8b
ollama run gemma4:8b
# Launch Agent plist에 OLLAMA_KEEP_ALIVE=-1
하네스 범위. 검증 가능한 워크플로 1개부터 시작하는 게 좋음 — 단위 테스트 통과, 스키마 검증, SQL 쿼리 실행처럼 내장된 성공 신호가 있는 것이 이상적임. Qwen Meetup Korea의 교훈이 여기 있음. 결정론적 검증기가 있는 도메인부터 고르는 것이 확률적 모델이 가장 빨리 쓸 만해지는 경로인 것임.
이 Tier에서 배우는 것. 팀이 모델 라이프사이클을 엔드투엔드로 실제 소유할 수 있는지. 9.6GB 모델의 30 tok/s가 레이턴시 예산을 맞추는지. 사용자가 현재 돈 주고 쓰는 프런티어 API 대비 품질 격차를 체감하는지. 사내 툴링 사례 다수에서 체감하지 못하게 됨.
5.2 Tier 2 — 프로덕션 파일럿 ($10K 급)
하드웨어. Mac Studio M3 Ultra, 128GB 또는 256GB 구성. 모델 선택에 따라 약 $6,000~12,000임.
소프트웨어 스택. 동일한 Ollama + MLX 백엔드에 Hermes 4 70B 또는 Gemma 4 26B를 로드하게 됨. 256GB 통합 메모리에서 두 모델 모두 컨텍스트 여유를 두고 편안히 들어감. 제대로 된 function calling 프레임워크가 필요함 — Qwen Meetup Korea에서 소개된 AutoBe + Typia 조합이 하나의 선택지고, LangGraph, CrewAI, 혹은 OpenAI 호환 엔드포인트 위에 자체 오케스트레이터를 얹는 방식도 있음. 하네스가 이제 진짜 스캐폴딩을 갖춰야 함 — 재시도 정책, 도구 샌드박스, 로깅, 실패 시 사람이 개입하는 에스컬레이션 경로임.
자가개선 레이어. 가중치를 건드리는 SEAL 방식보다 컨텍스트를 진화시키는 ACE 방식부터 시작하는 게 실용적임. 가중치 드리프트의 운영 리스크는 실재함. ACE는 베이스 모델을 건드리지 않고 에이전트의 플레이북을 개선하게 해줌. 큐레이션된 “학습 데이터베이스”를 에이전트가 과제 시작 시 읽고, ACE 논문의 Reflection/Curation 루프로 업데이트하는 구조가 현실적 시작점임. 한국 레퍼런스로는 KB국민카드의 BELLA QNA — 제한된 지식 베이스 위에 구축된 도메인 특화 내부 에이전트 — 가 규제 산업에서 이 Tier가 실제로 만들어낼 수 있는 예시가 되는 것임.
이 Tier에서 배우는 것. 하네스가 실제 사용 한 분기를 버틸 수 있는지. 어디서 무너지는지. 어떤 검증기부터 먼저 만들어야 하는지.
5.3 Tier 3 — Sovereign Infrastructure ($40K~80K)
하드웨어. Mac Studio M3 Ultra 4대 + Thunderbolt 5 네트워킹 + macOS 26.2 이상에서 RDMA 활성화. 약 1.5TB 통합 메모리가 확보되고, EXO Labs가 시연한 구성에서 Kimi K2 약 25 tok/s, Hermes 4 405B도 비슷한 수준의 처리량이 나오게 됨.
소프트웨어 스택. Hermes 4 405B를 추론 주력으로 둠(빠른 모드와 깊은 모드 사이 전환은 <think> 토글 사용). 더 저렴한 범용 폴백으로 Gemma 4 31B를 옆에 둠. 프로덕션 하네스는 풀 로깅, 재현 가능한 트레이스, 가능한 어디서든 결정론적 검증기를 갖춰야 함. ACE 플레이북이 자가개선 루프의 뼈대가 되고, 신뢰할 만한 평가기가 있는 도메인에서는 타겟 최적화를 위해 AlphaEvolve 스타일 내부 루프도 돌릴 수 있는 것임.
이 Tier에서 배우는 것. 조직이 하이퍼스케일러 의존 없이 AI 인프라를 운영할 수 있는지. GDPR 동등 수준의 데이터 레지던시 규제 아래 있는 APAC 기업, 혹은 모델 입력이 경계 밖으로 나갈 수 없을 만큼 민감한 엔터프라이즈가 이 Tier의 자연스러운 고객임. 2026년 4월 Makebot 리포트에 따르면 APAC 기업 86%가 AI 보안을 최대 우려로 꼽음. Tier 3 빌드는 “우리 데이터가 어디로 가는가”라는 질문의 답이 “아무 데도 안 감”이 되는 첫 번째 구성인 것임.
5.4 Tier는 검증기 수준에 맞추어 고르면 됨
세 Tier를 엮는 공통점에 주목하면 됨. 어느 것도 더 큰 모델 이야기가 아님. 모두 “충분히 능력 있는 모델”과 “그것을 받아주는 하네스” 사이의 결합도를 높이는 이야기임. 2026년 전환의 진짜 교훈이 이것임. 프런티어는 더 이상 파라미터가 가장 많은 쪽이 아님. 가장 좋은 검증기, 가장 깨끗한 컨텍스트, 행동과 교정 사이의 가장 짧은 피드백 루프를 가진 쪽인 것임.

6. 한줄 코멘트와 직장인 시사점
한줄 코멘트. 2026년 AI 경쟁력은 세 다리 의자임 — 하네스 엔지니어링이라는 디시플린, Hermes 4와 Gemma 4 같은 오픈 가중치 모델이라는 원재료, Mac Mini에서 Mac Studio 클러스터까지의 온프레미스 하드웨어라는 기반. 하나만 가지면 토크 포인트임. 셋을 검증기 기반 자가개선 루프로 엮으면, 하이퍼스케일러에서 빌려 오지 않는 지속 가능한 우위가 되는 것임.
직장인 시사점. 현장 엔지니어거나 테크 리드라면, 앞으로 12개월 동안 가장 레버리지가 큰 스킬은 검증기와 하네스를 설계하는 능력임 — 모델을 파인튜닝하거나 영리한 프롬프트를 짜는 것이 아님. Karpathy의 표현을 문자 그대로 받아들일 만함. “새로운 희소 스킬은 의도를 검증 가능한 수준으로 명확히 표현하는 능력임.” 팀이 소유한 워크플로 한 개를 골라 결정론적 검증기를 먼저 만들고, Mac Mini 위에서 돌아가는 9.6GB짜리 Gemma 4 8B에 연결한 뒤, 무슨 일이 일어나는지 측정하면 좋음. 2026년에 이것을 연습한 사람이 2027년의 채용 공고를 쓰게 되는 것임.

자주 묻는 질문 (FAQ)
Q. “하네스 엔지니어링”이 프롬프트/컨텍스트 엔지니어링과 어떻게 다른가요?
하네스 엔지니어링은 LLM 에이전트 주변의 환경 전체 — 검증기, 도구 샌드박스, 재시도 정책, 피드백 루프, 사람 에스컬레이션 경로 — 를 설계하는 디시플린입니다. 컨텍스트 윈도우에 들어가는 텍스트만이 아닙니다. 프롬프트 엔지니어링은 단일 질의의 표현을 다듬는 일에 집중합니다. 2025년 Karpathy와 Anthropic이 공식화한 컨텍스트 엔지니어링은 컨텍스트 윈도우 안에 어떤 정보, 메모리, 도구를 넣을지에 집중합니다. 2026년 2월 Mitchell Hashimoto가 이름 붙인 하네스 엔지니어링은 그 한 층 위입니다. 에이전트의 매 행동을 받아주고 교정하고 보상하는 모든 것이 여기에 포함됩니다.
Q. 2026년 온프레미스 도메인 특화 에이전트에 Hermes 4와 Gemma 4 중 무엇을 써야 하나요?
두 가지 질문에 달려 있습니다. 첫째, Llama 계열 커뮤니티 라이선스를 수용할 수 있나요? 그렇다면 Hermes 4 405B가 원시 추론 깊이에서 더 앞서고, 빠른 모드와 심사숙고 모드를 전환하는 하이브리드 <think> 토글이 장점입니다. 컴플라이언스 팀이 Apache 2.0을 요구한다면 현재 그 라이선스 레벨에서 가장 강한 모델은 Gemma 4 31B이고, τ2-bench 86.4% 스코어는 도구를 쓰는 에이전트에 특히 잘 맞습니다. 86%가 AI 보안을 최대 우려로 꼽는 APAC 엔터프라이즈 다수는 라이선스 사유만으로 Gemma 4를 기본값으로 삼고 있습니다.
Q. Mac Mini 클러스터가 실제 프로덕션 LLM 추론에 쓸 만한가요, 아직 데모 수준인가요?
워크로드의 모양에 달려 있습니다. 병렬·다중 요청 워크로드 — 에이전트 플릿, 배치 RAG, 부서 규모 추론 — 에서는 Thunderbolt 5 RDMA를 장착한 Mac Studio 4대 클러스터가 Kimi K2를 25 tok/s로 돌리며 약 $40,000 선의 실전 프로덕션 옵션입니다. 같은 메모리 규모의 NVIDIA 빌드는 약 $780,000이 듭니다. 다만 단일 요청 레이턴시에서는 기기 추가가 처리량을 떨어뜨릴 수 있습니다(EXO 벤치에서 한 노드 49.3 tok/s가 여러 노드에서 39.7 tok/s로 하락). 헤드라인 tok/s가 아니라 동시성 패턴에 따라 토폴로지를 고르는 게 맞습니다.
Q. “자가성장 에이전트”는 가중치 업데이트인가요, 컨텍스트 업데이트인가요?
둘 다 활발한 연구 트랙이고 리스크 프로필이 다릅니다. 2025년 6월 MIT의 SEAL은 자체 생성 편집으로 가중치를 직접 업데이트해 Llama-3.2-1B few-shot에서 72.5%를 찍었지만 catastrophic forgetting 문제를 안고 있습니다. 2025년 10월 Stanford/UC Berkeley의 ACE는 가중치를 그대로 두고 구조화된 플레이북 컨텍스트를 진화시켜 에이전트 과제에서 평균 10.6%p 개선을 얻었고, 드리프트 리스크가 없습니다. 2026년 프로덕션 사용에는 ACE 스타일 컨텍스트 진화가 실용적 시작점입니다. 베이스 모델을 건드리지 않기 때문입니다. SEAL 스타일 가중치 업데이트는 통제된 루프, 좁은 도메인, 정기적 롤백 능력이 갖춰진 환경에서 의미가 있습니다.
Q. 온프레미스 자가성장 스택을 시작하려면 최소 얼마의 하드웨어 예산이 필요한가요?
$1,000 미만입니다. 24GB 통합 메모리 베이스 Mac Mini에 Ollama v0.19+를 깔고 Gemma 4 8B를 로드하면 9.6GB 메모리 풋프린트에 30+ tok/s 지속 추론이 나옵니다. 실제 워크플로 한 개에 대해 검증기 기반 하네스를 만들고 테스트하기에 충분합니다. Hermes 4 70B나 Gemma 4 26B를 컨텍스트 여유 공간과 함께 돌릴 필요가 생기면 Mac Studio M3 Ultra $6,000~12,000 구간으로 올라갑니다. sovereign 스케일 추론이나 405B 파라미터 추론이 필요할 때만 Mac Studio 4대 클러스터 $40,000 구간으로 움직이는 것이 맞습니다.
참고문헌
- OpenAI. “Harness engineering: leveraging Codex in an agent-first world.” https://openai.com/index/harness-engineering/
- Mitchell Hashimoto. “My AI Adoption Journey.” 2026-02-05. https://mitchellh.com/writing/my-ai-adoption-journey
- Andrej Karpathy. Context engineering 포스트. X, 2025-06-25. https://x.com/karpathy/status/1937902205765607626
- Andrej Karpathy. “Year in Review 2025.” https://karpathy.bearblog.dev/year-in-review-2025/
- Anthropic. “Effective context engineering for AI agents.” 2025-09-29. https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
- Nous Research. “Hermes 4 Technical Report.” arXiv:2508.18255. https://arxiv.org/abs/2508.18255
- Nous Research. Hermes-4-405B 모델 카드. https://huggingface.co/NousResearch/Hermes-4-405B
- Google. “Gemma 4.” Google Developers Blog, 2026-04-02. https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
- Google DeepMind. “Gemma 4.” https://deepmind.google/models/gemma/gemma-4/
- Hugging Face. “Welcome Gemma 4.” https://huggingface.co/blog/gemma4
- VentureBeat. “Google releases Gemma 4 under Apache 2.0 and that license change may matter.” 2026-04-03. https://venturebeat.com/technology/google-releases-gemma-4-under-apache-2-0-and-that-license-change-may-matter
- Zweiger et al. “SEAL: Self-Adapting Language Models.” arXiv:2506.10943. https://arxiv.org/abs/2506.10943
- MIT News. “Teaching large language models to absorb new knowledge.” 2025-11-12. https://news.mit.edu/2025/teaching-large-language-models-to-absorb-new-knowledge-1112
- Stanford/SambaNova/UC Berkeley. “ACE: Agentic Context Engineering.” arXiv:2510.04618. https://arxiv.org/abs/2510.04618
- Google DeepMind. “AlphaEvolve.” 2025-05. https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
- LeapLabTHU. “Absolute Zero Reasoner.” arXiv:2505.03335. https://arxiv.org/abs/2505.03335
- EXO Labs. “Day 1: 12 Days of EXO.” https://blog.exolabs.net/day-1/
- EXO Labs. “Day 2: 12 Days of EXO.” https://blog.exolabs.net/day-2/
- AppleInsider. “AI calculations on Mac cluster get a big boost from new RDMA support on Thunderbolt 5.” 2025-12-20. https://appleinsider.com/articles/25/12/20/ai-calculations-on-mac-cluster-gets-a-big-boost-from-new-rdma-support-on-thunderbolt-5
- Jeff Geerling. “1.5 TB VRAM on Mac Studio.” https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5/
- MarkTechPost. “Nous Research team releases Hermes 4.” 2025-08-27. https://www.marktechpost.com/2025/08/27/nous-research-team-releases-hermes-4-a-family-of-open-weight-ai-models-with-hybrid-reasoning/
- Makebot. “LLM market enterprise trends Q1 2026.” https://www.makebot.ai/blog/llm-market-enterprise-trends
- InfoQ. “Agentic Context Engineering.” 2025-10. https://www.infoq.com/news/2025/10/agentic-context-eng/
- Sakana AI. “Evolutionary Model Merge.” https://sakana.ai/evolutionary-model-merge/
- Unsloth. “Gemma 4 문서.” https://unsloth.ai/docs/models/gemma-4
이 글은 엔터프라이즈 기술 도입을 다루며 재무·투자 자문을 구성하지 않음. 인용된 벤치마크 수치는 위에 열거한 출처에서 가져왔으며, 실제 하드웨어에서의 재현성은 모델 빌드, 펌웨어 버전, 워크로드 패턴에 따라 달라지게 됨. 상업 배포 전 모델 퍼블리셔의 라이선스 조항을 직접 확인하는 것이 좋음.
