psychology DeepThought

2026년 6월 26일 12 nodes #tech#ai

The Long-Running Agent

A map of what changes when a coding agent runs for hours instead of seconds — the harness that keeps it on-track, the ops layer it still lacks, the new engineering role around it, and the model economics underneath.

The brief, in full

코딩 에이전트가 한두 턴이 아니라 수 시간을 혼자 도는 시대가 열리고 있다. 짧은 자동완성이 아니라, 큰 작업 하나를 받아 계획·구현·검증을 스스로 반복하는 실행이다. 이 전환은 모델 성능만의 문제가 아니라, 오래 돌아도 길을 잃지 않게 붙잡아 주는 구조·운영·인력·비용의 문제를 통째로 새로 던진다.

The Harness

What keeps a multi-hour run from drifting

오래 도는 에이전트는 컨텍스트 창이 차고, 초반 결정을 잊고, 목표에서 미끄러진다. 이를 막는 게 하니스다 — 컨텍스트 압축(compaction), 계획·진행 상태를 외부 마크다운 파일로 빼두기, 마일스톤마다 검증을 끼워 넣어 잘못된 가정 위에 한참 쌓는 일을 차단한다. 모델이 아니라 모델을 감싸는 이 골격이 장시간 실행의 성패를 가른다.

Externalized State

Memory that survives context compaction

컨텍스트 창은 유한하므로, 오래 살아남아야 할 정보는 모델 머릿속이 아니라 디스크에 둔다. 계획·구현 노트·결정 로그를 마크다운 파일로 외부화하면, 압축이 일어나 대화 앞부분이 잘려 나가도 에이전트가 파일을 다시 읽어 자기 의도를 복원한다. 상태를 텍스트로 빼두는 이 단순한 규율이 장시간 일관성의 토대다.

Per-Milestone Verification

Catch wrong assumptions before they compound

사람이 곁에서 봐 주지 않는 몇 시간 동안 가장 위험한 건 틀린 가정 위에 계속 쌓는 것이다. 그래서 매 마일스톤마다 테스트·빌드·자기검토를 강제로 끼워 넣는다. 틀리면 거기서 멈추고 되돌아오게 — 검증 게이트가 촘촘할수록 자율 실행의 신뢰 구간이 길어진다.

Human-in-the-Loop Resumption

Intervention without restarting

완전 자율과 완전 수동 사이가 진짜 운영 모드다. 에이전트가 막히거나 위험한 분기에 도달하면 사람에게 질문을 던지고, 사람은 방향만 주고 다시 위임한다. 멈춤·개입·재개가 매끄러운 루프가 되어야 몇 시간짜리 실행을 실제로 믿고 맡길 수 있다.

The Missing Ops Layer

Production tooling that doesn't exist yet

에이전트를 몇 시간씩 운영에 붙이는 순간, 사람이 곁에 없는 동안의 운영 도구가 통째로 비어 있다는 게 드러난다. 체크포인트·복구, 드리프트·비용 대시보드, 사람이 끊긴 지점부터 다시 잇는 재개 — 이 운영 계층이 시장 공백으로 남아 있다.

open_in_new startupxo.com/ko/ideas/2026/06/long-horizon-agent-dev-workflow-gap

Checkpoint & Resume

Pick up where the agent left off

수 시간짜리 실행이 중간에 끊기거나 길을 잃으면 처음부터 다시 돌리는 건 비싸다. 주기적 체크포인트로 상태를 저장하고, 사람이 끼어들어 방향을 틀거나 실패 지점부터 재개할 수 있어야 한다. 긴 실행일수록 '되감기 가능성'이 곧 안전장치다.

Cost & Drift Dashboards

Watching a run you can't watch live

몇 시간 도는 동안 사람은 매 토큰을 볼 수 없다. 대신 누적 토큰·비용, 목표 대비 이탈(드리프트), 반복 실패 패턴을 보여 주는 관측 계층이 필요하다. 운영자가 개입할 시점을 알려 주는 신호등 — 이게 없으면 자율은 곧 통제 불능이다.

Harness Engineering as a Role

A new specialization on the ladder

오래 도는 에이전트를 안정적으로 굴리는 일은 그 자체로 전문 영역이 되고 있다. 하니스 설계, 검증 게이트, 비용·드리프트 가드, 사람-개입 루프를 짜는 소프트웨어 엔지니어의 새 전문화 — 모델을 만드는 사람과 모델을 운영 가능하게 만드는 사람이 갈라진다.

The Model Economics Underneath

Who prices the hours of autonomy

에이전트를 몇 시간 돌리는 비용은 결국 기반 모델 제공자가 매기는 토큰값에 달려 있다. 그 토큰값은 소수 파운데이션 모델 회사의 경쟁·가격 정책이 정한다 — 자율 실행이 길어질수록 이 밑단의 단가 구조가 제품의 단위경제를 직접 흔든다.

Foundation Model IPO Race

Platform risk as the suppliers go public

앤트로픽과 오픈AI가 상장을 향해 가며 경쟁이 격화되고, 가격 인하와 엔터프라이즈 락인이 동시에 벌어진다. 두 공급자에 의존이 쏠린 구조에서 가격·약관 변화는 그 위에 제품을 올린 모든 팀의 원가표를 바꾼다 — 플랫폼 리스크가 곧 경영 변수다.

open_in_new startupxo.com/ko/news/2026/06/ai-foundation-model-ipo-competition

When Autonomy Pays Off

The break-even of hands-off runs

긴 자율 실행은 공짜가 아니다. 토큰·검증·운영 비용이 사람이 직접 했을 때의 비용을 넘으면 의미가 없다. 어떤 작업이 위임할 만큼 잘 정의돼 있고, 실패 비용이 충분히 낮고, 검증이 자동화 가능한가 — 이 손익분기를 가르는 판단이 장시간 에이전트 도입의 실질적 관문이다.

Sources & related