psychology DeepThought

2026년 6월 25일 16 nodes #hybrid-models#browser-ml#transformers-js#cross-origin-storage#memory-supercycle#edge-inference#client-side-ai

Inference Moves to the Edge

A map tracing how AI inference is being pushed outward — from how hybrid model internals split prediction work, to running real models in the browser, to the hardware-cost forces and the new engineering role that follow.

The brief, in full

한때 추론은 무조건 데이터센터의 일이었다. 지금은 모델 내부의 어느 층이 무엇을 맡는지부터, 가중치를 브라우저에 둘지, 그 결정을 떠미는 원가까지 — '어디서 계산하느냐'가 설계 변수가 됐다. 이 맵은 그 이동을 모델 내부·실행 위치·경제·직군 네 갈래로 본다.

Inside the Model

Different layers predict different tokens

하이브리드 아키텍처는 어텐션과 상태공간(SSM/DeltaNet) 층을 섞는다. 핵심 질문은 비율이 아니라 분업이다 — 어느 메커니즘이 어떤 토큰 위치를 더 잘 맞히는가. 추론 비용을 가르는 건 이 토큰별 책임 분배다.

Per-Token Loss Attribution

Content words vs function words vs retrieval

토큰별 손실을 메커니즘에 귀속하면 패턴이 드러난다. 어텐션은 검색·긴 의존성에서, 순환 층은 지역적 예측에서 강하다. 내용어와 기능어의 손실 격차가 다르게 나타나며, 닫는 괄호 같은 결정적 토큰에선 격차가 0으로 수렴한다.

Hybrid Layout Tradeoffs

KV-cache cost vs recurrent state

어텐션 층을 줄이면 KV 캐시 메모리가 줄어 추론이 가벼워지지만, 검색 능력을 잃는다. 3:1 같은 층 배치 비율은 이 둘 사이의 타협이다. 같은 정확도를 더 적은 토큰으로 내는 데이터 효율도 이 배치에서 나온다.

Run It in the Browser

The client becomes an inference target

Transformers.js의 WebGPU 백엔드는 양자화된 수GB 모델을 브라우저에서 상호작용 가능한 속도로 돌린다. 추론이 서버를 떠나 사용자 기기에서 일어나면 서버 비용은 0이 되고, 데이터는 기기를 벗어나지 않는다.

Cross-Origin Storage

Share model weights by content hash

브라우저 캐시는 origin별로 격리돼 같은 모델을 사이트마다 다시 받는다. 제안된 Cross-Origin Storage API는 가중치 같은 큰 불변 블롭을 SHA-256 콘텐츠 해시로 식별해 origin을 가로질러 공유한다. 캐시 파티셔닝의 프라이버시 이점과 중복 다운로드 비용 사이의 줄다리기다.

Privacy & Offline by Default

No round trip, no server log

클라이언트 추론은 입력을 서버로 보내지 않는다. 의료·금융처럼 데이터를 기기 밖으로 내보내기 꺼리는 영역, 그리고 오프라인 환경에서 이 속성이 곧 제품 차별점이 된다.

The Cost Push

Compute economics force the move outward

엣지로 미는 힘은 기술만이 아니다. 하드웨어 원가가 오르면 중앙 집중식 추론의 단가가 올라 분산·클라이언트 추론의 상대 매력이 커진다. 메모리 슈퍼사이클이 그 압력의 진원이다.

Memory Supercycle

AI demand reprices DRAM and NAND

AI 데이터센터의 메모리 수요가 DRAM·NAND 가격을 끌어올려, 소비자 기기 부품 원가까지 번졌다. 분석가들은 DRAM/NAND가 기기 BOM에서 차지하는 비중이 2027년 절반 가까이로 뛸 수 있다고 본다.

Apple Raises Prices

The supercycle reaches the checkout

애플이 메모리 부족(이른바 RAMageddon)을 이유로 맥북·아이패드 가격을 모델별 17~25% 올렸다. 창업자에겐 개발 장비·온프렘 컴퓨트 자본지출이 직접 오르는 사건이다 — 클라우드 대 자본지출의 타이밍을 다시 계산해야 한다.

open_in_new startupxo.com/ko/news/2026/06/apple-hardware-price-hike-startup-cost

Who Builds This

A new client-side ML role

모델을 브라우저에서 돌리는 일은 별도 전문성을 만든다 — WebGPU·WASM·양자화·클라이언트 캐싱을 다루는 엔지니어. 추론 위치가 바뀌면 그것을 책임지는 직군도 생긴다.

Browser ML Infrastructure Engineer

WebGPU · quantization · model caching

이 직군은 모델을 클라이언트에 맞게 양자화하고, ONNX Runtime Web·Transformers.js로 실행하며, 가중치 캐싱과 메모리 예산을 설계한다. 프라이버시·무서버 추론·오프라인이라는 세 동기가 수요를 끌어올린다.

Skill Shift

From server fleets to device budgets

서버 추론에선 GPU 풀과 배치 처리를 다뤘다면, 클라이언트 추론에선 기기 메모리 한도·다운로드 크기·시작 지연이 제약이 된다. 같은 '추론 엔지니어'라도 신경 쓰는 병목이 정반대로 바뀐다.

Leisure Footnote

Where people go when the work is done

엣지 추론과 직접 연결되진 않지만, 같은 주에 사람들이 찾은 화제 콘텐츠와 그 촬영지도 이 세션의 산출물이다. 별도 가지로 두어 작업 맥락과 분리한다.

The Trauma Code

Hospital ER drama, real Seoul locations

중증외상센터 촬영지를 이대서울병원·베스티안 오송병원·서울부민병원에서 교차 확인했다. 실제 병원 공간이 어떻게 드라마 세트가 되는지를 보여주는 사례.

open_in_new hizine.net/ko/titles/the-trauma-code

Tantara

A shuttered school rebuilt as a 1960s set

천천히 강렬하게(Tantara)는 옛 홍성여고를 1960~80년대 세트로 개조해 촬영했다. 폐교가 시대극 무대가 되는 로케이션 활용의 전형.

open_in_new hizine.net/ko/titles/tantara

Sources & related