psychology DeepThought

2026년 6월 26일 9 nodes #tech#ai

The Inference Silicon Bet

A map of how custom inference ASICs like OpenAI's Jalapeño are redrawing AI's cost economics, design practice, and the short list of players who can afford to build silicon.

The brief, in full

추론이 AI 사업 수익의 한복판에 들어오면서, 모델 사업자가 범용 GPU를 떠나 자기 워크로드 전용 실리콘을 직접 설계하기 시작했다. OpenAI의 할라피뇨가 그 전환을 압축해서 보여준다. 이 맵은 그 베팅이 무엇을 바꾸는지를 칩의 경제학, 설계의 방식, 그리고 누가 이 게임에 낄 수 있는가로 나눠 본다.

Inference vs Training Silicon

추론 칩은 학습 칩과 다르다

학습은 막대한 행렬 연산과 메모리 대역폭을 요구하지만, 추론은 이미 고정된 가중치로 응답을 내는 반복 작업이다. 그래서 추론 전용 ASIC은 범용성을 버리고 특정 데이터플로·정밀도에 회로를 고정해 와트당 효율을 끌어올린다. 할라피뇨가 추론만 겨냥하고 사전학습은 엔비디아 GPU에 남겨둔 이유다.

Hardware-Software Co-Design

칩과 컴파일러를 함께 설계

추론 ASIC은 하드웨어 설계자와 모델 연구자가 따로 일해서는 나오지 않는다. 모델 구조를 가속기 데이터플로에 매핑하고, 양자화로 정밀도를 낮추며, 컴파일러로 그래프를 칩 명령으로 내리는 사람이 필요하다. 새로운 직군이 여기서 생긴다.

9-Month Tape-Out

9개월 만의 테이프아웃

OpenAI는 설계 착수부터 테이프아웃까지 9개월이 걸렸고, 그 설계를 자사 모델이 거들었다고 밝혔다. 고성능 ASIC 사이클로는 이례적으로 빠른 속도다. AI가 자기를 돌릴 칩의 설계를 돕는 루프가 열렸다는 점이 함의다.

Performance per Watt is Margin

와트당 성능이 곧 마진

기가와트 규모로 추론을 돌리는 순간, 같은 답을 더 적은 전력으로 뽑는 칩은 전기요금이 아니라 마진 구조 그 자체가 된다. 할라피뇨는 와트당 성능이 '현재 최고 수준을 상당히 앞선다'고만 했을 뿐 구체 수치는 미공개다 — 주장의 신뢰도는 배포 후 실측에 달렸다.

Reducing the Nvidia Moat

엔비디아 해자 줄이기

추론을 자체 칩으로 옮기면 엔비디아 GPU 의존과 비용 구조가 줄어든다. 다만 사전학습은 여전히 엔비디아 몫으로 남을 가능성이 크다 — 해자가 사라지는 게 아니라 추론 쪽 한 겹이 얇아지는 것이다.

Who Can Afford to Build

누가 칩을 만들 수 있나

맞춤형 ASIC은 설계팀, 브로드컴 같은 공동설계 파트너, 그리고 충분한 추론 물량이라는 세 가지를 동시에 가진 회사만 시도할 수 있다. 구글·아마존·OpenAI로 명단이 짧다. 이 사실이 칩 자체보다 더 중요한 신호다.

Vertical Integration Precedent

구글 TPU·아마존 트레이니엄

구글은 2015년부터 TPU를, 아마존은 트레이니엄을 자체 설계해 써 왔다. OpenAI의 합류는 새 발명이 아니라 굳어지는 흐름에 늦게 올라탄 것이다. 모델을 가진 빅테크가 실리콘까지 손에 쥐는 수직통합이 표준이 되어 간다.

The New Entry Line

창업자가 마주한 진입선

칩까지 내려가는 게임은 자본·물량·설계 인력이 없는 회사에는 닫혀 있다. 창업자에게 의미는 분명하다 — 인프라 층의 경쟁은 손에 꼽는 거대 사업자에게 넘어갔고, 남는 기회는 그들이 차지하지 않는 좁은 응용 틈새다.

open_in_new startupxo.com/ko/news/2026/06/openai-custom-silicon-vertical-integration

Sources & related