psychology DeepThought

2026년 6월 25일 10 nodes #tech#ai#research

The Agentic Safety Stack

A map of how AI safety is moving from static jailbreak tests to dynamic red-teaming and runtime guardrail models — and the market layer that follows.

The brief, in full

에이전트가 도구를 호출하고 다단계로 행동하면서, 안전 평가가 고정된 탈옥 프롬프트 목록으로는 따라잡히지 않게 됐다. 평가(레드팀)와 실행 시점 방어(가드레일)가 하나의 스택으로 묶이기 시작한다.

Static Jailbreak Suites

Fixed prompts, fixed answers

초기 안전 벤치마크는 알려진 탈옥 프롬프트 집합을 한 번 돌려 통과율을 잰다. 모델이 그 집합에 적응하면 점수는 올라가지만 새 공격에는 무력하다 — 정적 스냅샷의 한계.

Dynamic Red-Teaming

Adaptive, search-driven attacks

RIFT-Bench는 공격을 그래프로 표현해 탐색(discovery)→스캐닝(scanning) 두 단계로 적응적으로 진행한다. 고정 목록이 아니라 대상 시스템에 맞춰 공격 경로를 새로 찾아내므로, 아키텍처가 달라도 같은 절차로 측정된다.

Agentic Threat Surface

Tool calls, multi-turn, injection chains

에이전트는 도구 호출 결과·외부 문서·기억을 입력으로 받는다. 간접 프롬프트 인젝션이 도구 응답에 숨어 들어오고, 멀티턴으로 누적되며, 메모리에 영속한다 — 단발 프롬프트 테스트가 못 잡는 표면.

Mitigation Comparison

Does the fix actually hold?

동적 레드팀의 쓸모는 점수 한 줄이 아니라, 같은 적응적 공격을 방어 적용 전후로 다시 돌려 완화책이 실제로 버티는지 비교하는 데 있다. 방어가 특정 정적 집합에만 과적합되는 것을 드러낸다.

Runtime Guardrail Models

A moderation layer at inference

Nemotron 3.5 Content Safety 같은 안전 분류기는 입출력을 실행 시점에 검사한다. 사용자 정의 정책을 추론 시 주입하고, 멀티모달(텍스트+이미지)·다국어를 한 모델로 처리해 모더레이션 계층으로 배치된다.

Customizable Taxonomies

Policy injected at inference

안전 범주를 고정하지 않고 조직별 정책을 추론 시 주입한다. 13개 핵심 + 10개 세부 범주, 이진/범주/추론(THINK) 세 가지 출력 모드로 같은 모델이 서로 다른 규정 환경에 맞춰진다.

Deploy Footprint

LoRA base, vLLM/NIM serving

작은 베이스 위에 LoRA로 얹어 128K 컨텍스트·낮은 지연으로 서빙한다. transformers·vLLM·SGLang·NIM 경로로 기존 추론 파이프라인 옆에 모더레이션 게이트로 끼워 넣을 수 있다.

Safety Tooling Market

A sellable B2B layer

기업이 에이전트를 깔수록 안전 분류기·가드레일 API·레드팀 서비스가 별도 제품군으로 굳는다. 모델을 직접 만들지 않아도 팔 수 있는 계층이 생긴다 — 새 진입로.

open_in_new startupxo.com/ko/news/2026/06/ai-safety-guardrail-tooling-market

Eval ↔ Runtime Loop

Red-team finds, guardrail blocks

동적 레드팀이 찾아낸 실패 사례가 가드레일 정책·학습 데이터로 되먹임되고, 갱신된 가드레일은 다시 레드팀으로 검증된다. 평가와 실행 방어가 한 루프로 닫힌다.

Sources & related