psychology DeepThought

2026년 6월 25일 9 nodes #tech#ai

The Extraction Economy

A map of how frontier-model extraction, the open-weight surge, and inference engineering reshape where AI value actually sits.

The brief, in full

닫힌 프런티어 모델의 능력이 API를 통해 추출·증류되고, 동시에 중국발 오픈웨이트 모델이 그 격차를 메운다. 모델의 가치가 '가중치'가 아니라 '추출 난이도'와 '운영 효율'로 이동한다.

Model Extraction

질의로 능력을 빼낸다

블랙박스 모델에 대량 질의를 던져 응답·로짓을 수확하면, 그 행동을 학생 모델로 증류할 수 있다. Anthropic은 알리바바가 25,000개 계정·2,880만 건 교환으로 Claude 능력을 무단 추출했다고 주장했다.

Distillation Defense

워터마킹·이상탐지

방어는 모델이 아니라 API 경계에서 이뤄진다. 출력 워터마킹(증류돼도 통계적으로 추적), 질의 패턴 이상탐지, ToS 강제. 완벽한 차단은 불가능하고 '추출 비용'을 올리는 게임이다.

The Real Moat

해자는 어디 있나

증류가 가능하다면 가중치는 해자가 아니다. 빠른 추격자(fast-follower)의 경제학이 성립하는 순간, 진짜 방어선은 데이터 파이프라인·운영 효율·유통·신뢰로 옮겨간다.

open_in_new startupxo.com/ko/news/2026/06/model-ip-extraction-distillation-moat

Open-Weight Surge

중국 오픈웨이트의 추격

실리콘밸리가 중국산 오픈웨이트 모델(DeepSeek)을 진지하게 다루기 시작했다. 닫힌 API 대비 원가·통제권·지정학 리스크가 전혀 다른 빌드 선택지를 만든다.

open_in_new startupxo.com/ko/news/2026/06/china-open-weight-model-competition

Build-on-Open Economics

오픈 위에서 짓는 경제학

오픈웨이트 위에 서비스를 올리면 추론 원가를 직접 통제하지만, 운영·정렬·보안의 부담을 떠안는다. 닫힌 API의 '편의 vs 통제' 트레이드오프가 창업자의 핵심 결정으로 떠오른다.

Inference Engineering

추론을 깎는 엔지니어링

오픈웨이트를 직접 운영하든 추격 모델을 돌리든, 승부는 추론 효율에서 갈린다. 커널 퓨전·메모리 대역폭 최적화가 같은 GPU로 더 많은 토큰을 뽑아낸다.

Kernel Fusion

nn.Linear → Fused MLP

선형층+활성함수 스택은 커널을 너무 많이 띄우고 HBM 왕복이 잦다. torch.compile·Triton이 이를 하나의 융합 커널로 접어 커널 런치 오버헤드와 메모리 라운드트립을 줄인다.

Agentic App Harness

에이전트 앱의 뼈대

모델을 제품으로 바꾸려면 경량 하니스가 필요하다. 툴 등록·결정적 제어흐름·체크포인팅·평가 하니스를 갖춘 CUGA류 패턴이 재현 가능한 에이전트 앱을 가능케 한다.

Sources & related