2026年5月12日ノード15個 #InferenceEconomics#AgenticAI#SLM#DefenseTech#ModelRouting#ClaudeCode

推論エコノミクス

AIの競争軸はモデル性能から推論の経済性へ移った。エージェント型ワークフローがリクエストごとのLLM呼び出しを何倍にも増やすにつれ、推論コストが粗利益を左右する変数となり、SaaSの価格設定・モデルアーキテクチャ・防衛AIの展開様式を同時に塗り替えている。

インタラクティブマップを見るには JavaScript を有効にしてください。ブリーフの全文は下にすべて記載しています。

ブリーフ全文

AIの競争は『最大のモデルを持つのは誰か』から『大規模に最も安くAIを動かせるのは誰か』へ移った。エージェント型ワークフローでは、ユーザーの1アクションが10〜100回超のLLM呼び出しを誘発する。固定のサブスク料金と従量で膨らむ推論コストの差が、構造的なユニットエコノミクス問題を生む。勝者は最も高性能なフロンティアモデルを持つ者ではなく、最良のモデルルーティング＋SLM＋キャッシュ設計を築いた者だ。

モデルルーティング

フロンティア＋SLMのハイブリッド構成

本番環境で収束しつつあるパターン：フロンティアモデル＝推論の中核（計画立案・複雑な判断・最終統合）、SLM＝ルーティング／実行／エッジ推論（単純な分類・高速実行・ローカル処理）。すべてをGPT-5級に投げるのは非効率な設計だ。エンジニアリング上の問いは『どのタスクならSLMがフロンティア級の品質で処理でき、どこでフロンティアが不可欠か』である。

ルーティング・パイプライン

意図 → 分類 → 振り分け → キャッシュ

①意図ルーティング：SLMがリクエスト種別を分類し、単純タスクはSLMが、複雑タスクはフロンティアへエスカレーション。②コンテキスト圧縮：長い文脈をSLMが要約してからフロンティアへ渡し、トークンを削減。③結果フィルタリング：フロンティアの出力をSLMが検証・後処理。④キャッシュ対応実行：繰り返しパターンはキャッシュかSLMで処理。よく設計されたパイプラインはフロンティア呼び出しを60〜80%削減する。

Phi-4：実行レイヤーとしてのSLM

妥協ではなく設計上の選択

MicrosoftのPhi-4シリーズは、SLMがもはや『小さくて性能の劣るモデル』ではないことを示す。Phi-4-mini（38億パラメータ）は高品質な合成学習データにより、数学やコーディングのベンチマークで大型モデルに匹敵する。転換点は、SLMを単体アシスタントとしてではなく、分散エージェント構成の中の目的特化型の実行レイヤー部品として使うことにある。

SLMに残る弱点

3つの失敗モード

①長文脈の信頼性：数万トークンを超えると一貫性が落ちる。②ハルシネーションの安定性：複雑な事実推論で誤りが増える。③マルチステップ・エージェントの一貫性：手数が増えるほど計画の整合性が崩れる。これらは単なるサイズ縮小の問題ではなく、現行の学習手法の限界を映している。次のPhiがどこでこの差を埋めるかが注目指標だ。

エージェント型ワークフローのコスト爆発

トークン消費が複利で膨らむ

従来のチャットボット：ユーザー1メッセージ→LLM1応答。エージェント型：タスク分解（1〜3回）＋N個のサブタスク実行（ツール利用含む）＋M回の検証・リトライ＋最終統合（1〜2回）。単純なコーディングでも10〜50回のLLM呼び出しになる。各ステップが前の文脈を引き継ぐため、エージェントの深さに応じてトークン数が幾何級数的に増える。これが推論コストを原価（COGS）問題にした理由だ。

コーディングエージェントのユニットエコノミクス

固定料金 × 利用量の膨張

Cursor、Windsurf、Devin、GitHub Copilotはいずれも同じ構造問題を抱える：月額は固定だが、推論コストはエージェント利用量に比例して増える。最も価値を生むヘビーユーザーが、最もコストも生む。黒字化の道は、利用量の増加より速く推論コストを下げること——それはモデルルーティング、SLM導入、積極的なキャッシュでしか実現できない。

open_in_new startupxo.com/ko/news/2026/05/claude-code-agentic-workflow-expansion

Claude Codeのエージェント拡張

自動補完 → 自律実行

AnthropicのClaude Codeのロードマップは、自動補完から自律的なマルチステップ実行への移行を狙う：GitHub issueを投げると、エージェントがコードベースを解析し、変更範囲を定め、実装を書き、テストを走らせ、PRを開く。競争指標は『セッションあたり生成行数』から『issueから本番デプロイまでに削減した時間』へ移る。エージェントのオーケストレーション層こそがプロダクトになる。

スタートアップの空白：エージェント監査SaaS

追跡可能性がコンプライアンス要件に

AIエージェントが本番コードを自律的に変更するとき、『どの判断がどの変更につながったか』がセキュリティとコンプライアンスの要件になる。支配的プレイヤーはまだ存在しない。3つの空白：(1)監査可能なエージェント行動ログの構造化、(2)企業コードベース向けのドメイン特化エージェントのファインチューニング基盤、(3)Claude Code＋Cursor＋Devinを同時運用するチーム向けのマルチエージェント・オーケストレーション・ミドルウェア。

防衛AI：同じ推論問題

ただし政府水準のセキュリティ制約下で

防衛AIも同一の推論経済の圧力に直面する——ただし制約は桁違いに厳しい。FedRAMP High、DoD Impact Level 5/6、NATOの主権要件、エアギャップ環境。PalantirのOntology層＋MAVEN／TITANプログラムは、政府水準のAIインフラの姿を示す。Helsingの180億ドル調達は、欧州の防衛勢が同じスタックを独自に構築している兆候だ。

Helsing 180億ドル：欧州版Palantirへの賭け

180億ドル評価で12億ドル調達——Daniel Ek出資

ミュンヘン拠点のHelsingが180億ドルの評価額で12億ドルを調達。NATO各国軍向けにAIによる空中戦術支援、レーダー信号処理、C2自動化を提供する。投資仮説は『欧州防衛は5年前の米Palantirと同じ転換点にある』。既存の主要防衛企業（BAE、Rheinmetall）はソフトウェア層を作れない。180億ドルという評価は、防衛AIソフトがプロジェクト受託ではなくプラットフォーム事業として評価されている証だ。

open_in_new startupxo.com/ko/news/2026/05/helsing-defense-ai-18b-funding

エアギャップ推論アーキテクチャ

政府AIの構造的制約

コンシューマーAI：Claude／GPTへAPIを1回叩くだけ。政府AI：機密データはエアギャップ境界の外に出せない。FedRAMP High＝非機密の連邦データ（Azure Government、AWS GovCloud）。Impact Level 5/6＝機密のDoDデータ（物理的に隔離されたエアギャップが必須）。Palantirの『ソブリンAI』はSIPR／JWICSの機密ネットワーク内でオンプレミス運用される。だからこそ防衛AIには構造的な堀がある——インフラの参入障壁は本物だ。

LLM推論コストエンジニア

誰もまだ名付けていない新興の職種

AIプロダクトのコスト構造を設計するエンジニア。ルーティング・パイプライン（どのリクエストをどのモデルへ）を構築し、ドメインタスク向けにSLMをファインチューニングし、コンテキスト圧縮とキャッシュを実装する。多くの求人票にはまだこの職名は現れず、『ML Infrastructure Engineer』や『AI Platform Engineer』に紛れている。だがAIネイティブなSaaSや大手のAIプロダクトチームでは、すでに最もコストを左右する技術職だ。

参入経路

バックエンド＋ML＋FinOpsがここで交わる

有力な参入ルートは3つ：(1)バックエンドエンジニア——API設計とコスト監視の経験がそのまま活きる、(2)MLエンジニア——ファインチューニングと評価の経験が中核資産、(3)DevOps／インフラエンジニア——FinOps思考がすでに身についている。いずれもゼロからの出発は不要だ。この専門性は、既存スキルが新しい組み合わせで結びつくところに生まれる。

ツールチェーン2026

vLLM ＋ Ollama ＋ LangSmith

SLMモデル：Phi-4-mini、Llama 3.2 3B/1B、Gemma 2 2B。フロンティア：GPT-4o、Claude Sonnet。推論サーバー：vLLM、Ollama、TensorRT-LLM、llama.cpp。評価：Promptflow、LangSmith、独自eval。監視：Datadog、Langfuse、Phoenix。入口：Ollamaでローカル展開→フロンティアとベンチ比較→単純な複雑度分類器を作る→実トラフィックを振り分け→コスト差を計測。