2026年5月12日 15 個節點 #InferenceEconomics#AgenticAI#SLM#DefenseTech#ModelRouting#ClaudeCode

推理經濟學

AI的競爭軸心已從模型能力轉向推理經濟。隨著代理式(agentic)工作流讓每個請求的LLM呼叫成倍增加,推理成本成為決定毛利的變數——同時重塑SaaS定價、模型架構與國防AI的部署方式。

完整簡報

AI競爭已從『誰擁有最大的模型』轉向『誰能以最低成本大規模運行AI』。在代理式工作流中,使用者的一次操作會觸發10–100次以上的LLM呼叫。固定訂閱價格與按用量計費的推理成本之間,形成了結構性的單位經濟(unit economics)難題。贏家不是擁有最強前沿模型的人,而是打造出最佳模型路由+SLM+快取架構的人。

模型路由

前沿模型+SLM的混合架構

在生產環境中正在收斂的模式:前沿模型=推理中樞(規劃、複雜判斷、最終整合);SLM=路由/執行/邊緣推理(簡單分類、快速執行、本地處理)。把所有請求都丟給GPT-5等級是一種低效設計。工程上的關鍵問題是:哪些任務類型SLM能以前沿模型的品質處理,又有哪些必須由前沿模型介入?

路由流水線

意圖 → 分類 → 路由 → 快取

①意圖路由:SLM對請求類型分類→簡單任務由SLM處理,複雜任務升級到前沿模型。②上下文壓縮:SLM先對長上下文做摘要再交給前沿模型,減少token。③結果過濾:SLM對前沿模型輸出做驗證與後處理。④快取感知執行:重複模式由快取或SLM承接。設計良好的流水線可將前沿模型呼叫減少60–80%。

Phi-4:作為執行層的SLM

不是妥協,而是設計選擇

微軟Phi-4系列表明,SLM不再是『更小、效能更差的模型』。Phi-4-mini(38億參數)憑藉高品質合成訓練資料,在數學與程式設計基準上比肩更大的模型。轉變在於:把SLM當作分散式代理架構中專門打造的執行層元件,而非獨立的助手。

SLM仍存的弱點

三種失敗模式

①長上下文可靠性:超過數萬token後一致性下降。②幻覺穩定性:在複雜事實推理上的錯誤率更高。③多步代理一致性:步數越多,計畫的連貫性越差。這些不僅是縮小規模帶來的問題,更反映出當前訓練方法的局限。下一代Phi在哪裡彌合這些差距,是關鍵觀察指標。

代理式工作流的成本爆炸

Token消耗以複利成長

傳統聊天機器人:使用者1則訊息→LLM1次回覆。代理式工作流:任務拆解(1–3次)+N個子任務執行呼叫(含工具使用)+M次驗證/重試+最終整合(1–2次)。一個簡單的程式任務會展開成10–50次LLM呼叫。每一步都會帶上先前的上下文——token數隨代理深度呈幾何級數成長。這正是推理成本變成COGS(銷貨成本)問題的原因。

程式代理的單位經濟

固定定價 × 用量膨脹

Cursor、Windsurf、Devin、GitHub Copilot都面臨同一個結構性問題:月度訂閱是固定的,但推理成本隨代理用量上升。創造最多價值的重度使用者,也產生最多成本。走向獲利的路徑要求推理成本下降快於用量成長——而這只能透過模型路由、部署SLM與積極快取來實現。

open_in_new startupxo.com/ko/news/2026/05/claude-code-agentic-workflow-expansion

Claude Code的代理擴展

自動補全 → 自主執行

Anthropic的Claude Code路線圖,瞄準從自動補全到自主多步執行的躍進:丟進一個GitHub issue,代理便分析程式庫、界定改動範圍、撰寫實作、執行測試、提交PR。競爭指標從『每次工作階段生成的程式行數』轉向『從issue到生產部署所節省的工時』。代理的編排層本身成為產品。

新創空白:代理稽核SaaS

可追溯性成為合規要求

當AI代理自主修改生產程式碼時,『哪個決策導致了哪處改動』就成為資安與合規要求。目前尚無主導廠商。三處空白:(1)面向可稽核性的代理行為日誌結構化,(2)面向企業程式庫的領域專用代理微調平台,(3)為同時運行Claude Code+Cursor+Devin的團隊提供的多代理編排中介軟體。

國防AI:同樣的推理問題

只是處在政府級安全約束之下

國防AI面臨完全相同的推理經濟壓力——只是約束嚴苛上若干量級。FedRAMP High、DoD Impact Level 5/6、NATO主權要求、氣隙(air-gap)環境。Palantir的Ontology層+MAVEN/TITAN專案,展示了政府級AI基礎設施的樣貌。Helsing的180億美元募資,標誌著歐洲國防正獨立打造同一套技術堆疊。

Helsing 180億美元:歐洲版Palantir的押注

180億估值募資12億——Daniel Ek加持

總部位於慕尼黑的Helsing以180億美元估值募資12億美元。為NATO各國軍隊提供AI驅動的空中戰術輔助、雷達訊號處理、C2自動化。募資邏輯是:歐洲國防正處於5年前美國Palantir所處的拐點。傳統主承包商(BAE、Rheinmetall)做不出軟體層。180億美元估值證明,國防AI軟體被當作平台業務而非專案服務來定價。

open_in_new startupxo.com/ko/news/2026/05/helsing-defense-ai-18b-funding

氣隙推理架構

政府AI的結構性約束

消費級AI:向Claude/GPT發一次API呼叫即可。政府AI:機密資料不能越過氣隙邊界。FedRAMP High=非敏感的聯邦資料(Azure Government、AWS GovCloud)。Impact Level 5/6=機密的DoD資料(必須實體隔離的氣隙)。Palantir的『主權AI』部署在SIPR/JWICS密級網路中以地端(on-premises)方式運行模型。這正是國防AI擁有結構性護城河的原因——基礎設施壁壘是真實存在的。

LLM推理成本工程師

尚無人正式命名的新興角色

設計AI產品成本結構的工程師。搭建路由流水線(哪個請求走哪個模型),為領域任務微調SLM,實作上下文壓縮與快取。多數職缺描述裡還沒有這個頭銜——它被混在『ML Infrastructure Engineer』與『AI Platform Engineer』的徵才裡。但在AI原生的SaaS公司與大廠AI產品團隊中,這已是最攸關成本的技術職位。

入行路徑

後端+ML+FinOps在此交會

三條有力的入行路線:(1)後端工程師——API設計+成本監控經驗可直接遷移;(2)ML工程師——微調與評測經驗是核心資產;(3)DevOps/基礎設施工程師——已具備FinOps思維。這些都不需要從零開始。這一專長,正誕生於既有技能以新組合方式結合之處。

工具鏈2026

vLLM + Ollama + LangSmith

SLM模型:Phi-4-mini、Llama 3.2 3B/1B、Gemma 2 2B。前沿:GPT-4o、Claude Sonnet。推理伺服器:vLLM、Ollama、TensorRT-LLM、llama.cpp。評測:Promptflow、LangSmith、自建eval。監控:Datadog、Langfuse、Phoenix。入門路徑:用Ollama本地部署→與前沿模型做基準對比→搭一個簡單的複雜度分類器→對真實流量做路由→量測成本差。

來源與相關