Modal 将推理冷启动时间压缩 40 倍，挑战无服务器 GPU 极限

2026-05-19

云 GPU 平台 Modal 发布技术博文，详细披露了将其 AI 推理冷启动时间降低 40 倍的工程方案，从分钟甚至小时级别压缩至数十秒。

推理工作负载比训练更不可预测、更易波动，天然适合无服务器架构。但无服务器计算的前提是——新副本必须能快速启动。传统做法中，为一台 B200 GPU 启动 SGLang 服务可能需要数十分钟，甚至因 GPU 资源不足而阻塞数小时。

Modal 的解决方案包含四个关键组件：

这套方案将推理副本扩容从数“千秒”级缩短到数十秒，使按需 GPU 真正接近“即开即用”的体验。

对智能体经济而言，这意义重大。大量智能体工作负载——从代码生成到实时分析——需要频繁的冷启动推理。如果启动成本降至秒级，开发者可以更激进地进行自动扩缩容，大幅降低闲置成本。这也是 AI 基础设施从“大厂专属”走向“人人可用”的重要一步。