Forge 用护栏让 8B 模型在智能体任务上从 53% 飙升至 99%
构建可靠智能体的核心挑战之一,是让较小的本地模型在工具调用和多步骤工作流中保持一致表现。Forge 提供了一个令人印象深刻的答案:用精心设计的护栏将 8B 模型的成功率从 53% 拉到 99%。
Forge 做了什么
Forge 是一个自托管的 LLM 工具调用可靠性层。它不替代模型,而是在模型输出之上叠加多层护栏:响应验证器解析并纠正格式错误的工具调用、重试提示在失败时引导模型修正、步骤强制确保多步骤工作流按序执行。同时,上下文管理器根据 VRAM 预算进行分层次压缩,防止长会话中的上下文污染。
核心配置在 26 个场景的评估套件上达到 86.5%,在最高难度层级为 76%。对比之下,未经护栏的 8B 模型通常在 50% 左右徘徊。
三种使用方式
Forge 提供三个集成层级:WorkflowRunner 是完整的智能体循环,管理系统提示、工具执行、上下文压缩和护栏;护栏中间件可以插入开发者自己的编排循环中;代理服务器则是一个 OpenAI 兼容代理,透明地应用护栏,客户端以为自己在与更聪明的模型对话。
为什么这对 Agent 经济重要
本地模型的可靠性瓶颈是智能体应用规模化的核心障碍。如果每个智能体工作流都需要云端 GPT-4 级别模型才能可靠运行,那么边际成本会限制大规模部署。Forge 证明了一个合理的假设:8B 级别的模型 + 良好的护栏体系 ≈ 可用的智能体。这对隐私敏感、低延迟或离线场景尤为重要。
它支持 Ollama、llama.cpp 和 Anthropic 作为后端,包括一个抢断式工作槽机制,让多个专业智能体共享同一块 GPU——这直接服务于多智能体架构的经济性。