Forge 用护栏让 8B 模型在智能体任务上从 53% 飙升至 99%

2026-05-20

构建可靠智能体的核心挑战之一，是让较小的本地模型在工具调用和多步骤工作流中保持一致表现。Forge 提供了一个令人印象深刻的答案：用精心设计的护栏将 8B 模型的成功率从 53% 拉到 99%。

Forge 做了什么

Forge 是一个自托管的 LLM 工具调用可靠性层。它不替代模型，而是在模型输出之上叠加多层护栏：响应验证器解析并纠正格式错误的工具调用、重试提示在失败时引导模型修正、步骤强制确保多步骤工作流按序执行。同时，上下文管理器根据 VRAM 预算进行分层次压缩，防止长会话中的上下文污染。

核心配置在 26 个场景的评估套件上达到 86.5%，在最高难度层级为 76%。对比之下，未经护栏的 8B 模型通常在 50% 左右徘徊。

三种使用方式

Forge 提供三个集成层级：WorkflowRunner 是完整的智能体循环，管理系统提示、工具执行、上下文压缩和护栏；护栏中间件可以插入开发者自己的编排循环中；代理服务器则是一个 OpenAI 兼容代理，透明地应用护栏，客户端以为自己在与更聪明的模型对话。

为什么这对 Agent 经济重要

本地模型的可靠性瓶颈是智能体应用规模化的核心障碍。如果每个智能体工作流都需要云端 GPT-4 级别模型才能可靠运行，那么边际成本会限制大规模部署。Forge 证明了一个合理的假设：8B 级别的模型 + 良好的护栏体系 ≈ 可用的智能体。这对隐私敏感、低延迟或离线场景尤为重要。

它支持 Ollama、llama.cpp 和 Anthropic 作为后端，包括一个抢断式工作槽机制，让多个专业智能体共享同一块 GPU——这直接服务于多智能体架构的经济性。