Modal 将推理冷启动时间压缩 40 倍,挑战无服务器 GPU 极限

云 GPU 平台 Modal 发布技术博文,详细披露了将其 AI 推理冷启动时间降低 40 倍的工程方案,从分钟甚至小时级别压缩至数十秒。

推理工作负载比训练更不可预测、更易波动,天然适合无服务器架构。但无服务器计算的前提是——新副本必须能快速启动。传统做法中,为一台 B200 GPU 启动 SGLang 服务可能需要数十分钟,甚至因 GPU 资源不足而阻塞数小时。

Modal 的解决方案包含四个关键组件:

这套方案将推理副本扩容从数”千秒”级缩短到数十秒,使按需 GPU 真正接近”即开即用”的体验。

对智能体经济而言,这意义重大。大量智能体工作负载——从代码生成到实时分析——需要频繁的冷启动推理。如果启动成本降至秒级,开发者可以更激进地进行自动扩缩容,大幅降低闲置成本。这也是 AI 基础设施从”大厂专属”走向”人人可用”的重要一步。

阅读原文

← 全部文章