AI Infra

追踪支撑智能体时代的算力、芯片、数据中心与开发基础设施。

主要来源

Anthropic (2)Bloomberg (2)Google (2)TechCrunch (2)Alex Ellis (1)Andrew Nesbitt (1)

文章

AI 智能体2026-07-10

Apple 高管：Mac mini 已成 AI 智能体的首选硬件

Apple 硅谷高级产品经理 Doug Brooks 在采访中透露，Mac mini 和 Mac Studio 是运行 AI 智能体的首选设备——整芯片架构、隐私优先和 24/7 运行能力正推动这股需求。

AI Infra2026-07-10

Colibrì 让 744B 参数模型跑在 25GB 笔记本上——纯 C 实现、零依赖

开源项目 Colibrì 通过磁盘流式传输专家层，在仅 25GB 内存的笔记本上运行 GLM-5.2（744B MoE），推理引擎仅 2400 行 C 代码——本地 AI 部署的成本门槛再次被拉低。

AI Infra2026-07-02

Mixedbread 提出非对称量化：多向量检索存储降至 3%，质量近乎无损

Mixedbread 提出非对称量化方案，将查询向量保留 int8 精度而文档向量压缩为二值符号，使多向量文档存储从 393 KiB 降至 12.28 KiB（压缩 97%），召回质量仅下降 0.61 NDCG@10。

AI Infra2026-06-30

LongCat-2.0：美团开源 1.6T 参数模型，全程国产芯片训练

美团发布 LongCat-2.0，1.6 万亿参数 MoE 模型，使用 5 万块华为昇腾芯片完成预训练和推理，成为首个在国产芯片上完成全流程训练的万亿级开源模型，面向智能体编程场景设计。

行业动态2026-06-28

奥地利推动欧盟在境内部署 Anthropic 以应对美国 AI 出口限制

奥地利正式游说欧盟在境内部署 Anthropic 的 AI 系统，以应对美国对前沿模型实施的出口限制，凸显 AI 模型正成为地缘政治博弈的新焦点。

AI 智能体2026-06-28

Wayfinder Router 让 LLM 查询路由不再依赖模型判断

Wayfinder Router 通过分析提示词结构实现离线、确定性的 LLM 查询路由，无需模型调用即可决定查询去向，为智能体应用开发者提供零成本的推理分配方案。

安全与隐私2026-06-26

一个恶意包如何骗过 7 道 AI 安全防线

Andrew Nesbitt 发布了一份虚构但令人不安的安全事件报告：一个恶意 npm 包逐一绕过了 7 道 AI 驱动的安全网关，每道防线都以不同的方式失效。

AI Infra2026-06-25

OpenAI 推出首款自研推理芯片 Jalapeño，联手 Broadcom 降低推理成本

OpenAI 发布与 Broadcom 合作开发的首款自研推理芯片 Jalapeño，专为实时编码和智能体推理场景优化，性能功耗比显著优于现有方案，标志其 AI 基础设施战略进入芯片层面。

AI 智能体2026-06-22

Sakana Fugu 发布：将多智能体编排封装为一个模型 API

日本 AI 实验室 Sakana AI 推出 Fugu，将多模型动态编排与角色分配内化为一个 API，基于 ICLR 2026 论文 TRINITY 和 Conductor，实现从"手动编排"到"学习编排"的转变。

AI Infra2026-06-21

在同一台 DGX Spark 上运行两个 Qwen3 模型：本地 LLM 的内存分配实战

开发者 Devashish Meena 分享了他将 Qwen3-80B 和 Qwen3-4B 两个模型同时部署到一台 DGX Spark 的实际经验，揭示了 gpu_memory_utilization 的常见陷阱和 vLLM 多模型共存的配置方法论。

AI 智能体2026-06-20

Cloudflare 推出临时部署账号让 AI Agent 无需注册即刻上线

Cloudflare 发布临时账号功能，AI Agent 可通过 wrangler deploy --temporary 在无需注册的情况下直接部署 Worker，60 分钟内可迭代更新并最终转为永久账号，彻底打通 Agent 自主上线的最后障碍。

AI Infra2026-06-18

Browser Use 用 Firecracker 微虚拟机将浏览器 Agent 成本降低三分之二

Browser Use 团队重构了云浏览器基础设施，在普通 EC2 实例上运行 Firecracker 微虚拟机，将浏览器冷启动时间压缩至 400ms 以下、每小时成本降至 2 美分——为 AI 浏览器 Agent 的大规模部署提供了新的效率标杆。

AI 模型2026-06-18

本地模型不是更差的 Opus，而是不同的工具

OpenFaaS 创始人 Alex Ellis 用 12,000 美元的 RTX 6000 Pro 显卡跑了一年本地模型后得出结论：Qwen 27B 在客户支持、代码审查和数据分析等特定任务中有真实价值，但远远无法取代云端前沿模型处理长周期、无监督的智能体编码工作。

AI 模型2026-06-16

SubQ 发布 1.1 Small，支持 1200 万 token 上下文的亚二次注意力模型

SubQ 发布 Subquadratic Sparse Attention（SSA）模型 1.1 Small，在 1200 万 token 上下文长度上实现近乎完美的检索能力，计算量仅为传统密集注意力的 1/64。

AI Infra2026-06-09

xAI GPU 租赁生意年化收入超 260 亿美元

xAI 与 Anthropic 和 Google 达成 GPU 租赁协议，月收入超 21 亿美元，展现出 AI 基础设施从自用到租赁的商业化新范式

安全与隐私2026-06-08

Miasma 蠕虫利用 AI 编程智能体配置文件发起供应链攻击

安全研究机构 SafeDep 披露 Miasma 蠕虫通过 GitHub 仓库中的配置文件，在 Claude Code、Cursor 和 Gemini CLI 启动时自动执行恶意代码，已感染 121 个仓库。

AI Infra2026-06-07

Google 每月 9.2 亿美元租用 SpaceX 算力

Google 与 SpaceX 签署了一份史无前例的计算资源租赁协议，每月支付 9.2 亿美元租用约 11 万块 NVIDIA GPU，用于应对 AI 产品的超额需求。

AI 模型2026-06-06

Google 发布 Gemma 4 QAT 模型，边缘推理内存降至 1GB

Google 推出量化感知训练优化版 Gemma 4 模型，E2B 移动版仅需 1GB 内存，为智能体在手机和笔记本上本地运行扫清了关键障碍。

AI Infra2026-06-06

Microsoft 开源 pg_durable，将持久化执行引擎嵌入 PostgreSQL

Microsoft 发布开源 PostgreSQL 扩展 pg_durable，将持久化执行模式直接引入数据库内部，无需外部编排系统即可实现容错工作流——这对智能体状态管理意义重大。

AI Infra2026-06-05

华为开源 KVarN 实现 vLLM KV 缓存 3-5 倍增容且不损精度

华为 CSL 实验室发布 KVarN，以方差归一化量化技术打破 KV 缓存瓶颈：吞吐量超越 FP16、精度无损、无需校准，专为智能体长上下文场景设计。

安全与隐私2026-06-01

Red Hat 云服务遭恶意 npm 包入侵，供应链安全再敲警钟

Red Hat 云服务的 npm 包仓库被发现包含恶意代码，影响多个企业级 JavaScript 客户端库。事件再次凸显开源供应链中信任机制的脆弱性。

AI Infra2026-05-30

OpenRouter 获 1.13 亿美元 B 轮融资

OpenRouter 完成 1.13 亿美元 B 轮融资，CapitalG、NVIDIA、ServiceNow 等战略投资者集体入场，AI 推理路由层正在成为多模型时代的基础设施关键组件。

AI 智能体2026-05-29

SQLite 足以支撑持久化工作流：智能体基础设施的另一种思路

Obelisk 团队提出，对于大量智能体工作流场景，SQLite 加 Litestream 备份就能满足持久化需求，无需引入完整编排层。这种极简架构特别适合智能体系统常见的突发性、实验性负载。

商业 & 经济2026-05-28

Anthropic 完成 650 亿美元 H 轮融资，估值逼近万亿

Anthropic 宣布完成 650 亿美元 H 轮融资，估值达 9650 亿美元，年化收入已突破 470 亿美元。资金将用于扩大计算基础设施、推进安全研究并拓展企业市场。

AI Infra2026-05-25

内存已占AI芯片组件成本的近三分之二

Epoch AI 最新分析显示，高带宽内存在AI芯片组件中的成本占比从2024年Q1的52%升至2025年Q4的63%，年支出从120亿美元增至320亿美元。

AI Infra2026-05-22

48,000 美元的 GPU 服务器到底值不值一份真实成本分析

一位独立 AI 研究员详细拆解了自建 6×RTX 6000 Ada GPU 服务器与租用云 GPU 的真实经济账，数据跨度 18 个月。

AI Infra2026-05-19

Modal 将推理冷启动时间压缩 40 倍，挑战无服务器 GPU 极限

Modal 发布技术方案，结合云缓冲、自定义文件系统、进程检查点和 CUDA 检查点技术，将 AI 推理服务冷启动从数十分钟降至数十秒。

商业 & 经济2026-05-18

AI 是基础设施，不是产品

约翰·格鲁伯撰文反驳「苹果需要杀手级 AI 产品」的观点，认为 AI 更像无线网络——是渗透一切的技术基础设施，而非独立的产品品类。

AI Infra2026-05-18

Apple Silicon 本地推理成本高于云端 API 三倍

数据分析显示，在 Apple M5 Max 上运行本地 LLM 推理，每百万 token 成本约为云端推理的 3 倍，速度慢 3-7 倍——对开发者而言，租比买更划算。

商业 & 经济2026-05-14

美国在AI商业化竞赛中领先，关键在于基础设施与平台生态

一篇深度分析指出，美国在AI领域的领先并不在于论文数量或工程师规模，而是拥有从芯片、数据中心到云平台和开发者生态的全栈整合能力。

行业动态2026-05-13

Google 发布 Googlebook AI 原生笔记本电脑

Google 正式发布专为 Gemini 智能设计的笔记本电脑系列 Googlebook，配备 AI 指针、AI 控件生成等原生智能功能，将于 2026 年秋季上市。

AI 应用2026-05-11

本地 AI 应当成为常态

开发者过度依赖云端 AI API 正在制造脆弱、侵犯隐私且成本高昂的应用。本地 AI 不仅可行，更是构建可信软件的更优路径。

AI Infra2026-05-07

Anthropic 与 SpaceX 达成计算合作，扩容超 220,000 张 NVIDIA GPU

Anthropic 与 SpaceX 签署协议，获得 Colossus 1 数据中心超过 300 兆瓦的全部算力（逾 22 万张 NVIDIA GPU），同时大幅提升 Claude Code 和 API 调用上限。这是 AI 基础设施军备竞赛中又一关键布局。

AI Infra2026-05-06

计算机视觉操控比结构化 API 贵 45 倍

Reflex 的基准测试显示，基于屏幕截图的任务操控比直接调用 API 贵 45 倍，执行时间长 50 倍且结果不稳定，为智能体架构的经济学选择提供了硬数据。

AI Infra2026-05-05

OpenAI 详解低延迟语音 AI 规模化架构

OpenAI 工程师团队发表深度技术文章，详解如何重构 WebRTC 协议栈，以 Relay + Transceiver 分层架构支撑 9 亿用户的实时语音 AI 交互。

AI 智能体2026-04-24

Google 追加押注 Anthropic 抢占模型与算力双重入口

Google 计划向 Anthropic 投资最高 400 亿美元，其中 100 亿美元立即到账，其余部分与业绩里程碑挂钩。真正值得关注的是这笔交易把股权、云分发和 TPU 需求进一步绑定成了一条基础设施价值链。

AI Infra2026-04-24

Google 推出 TorchTPU 让 PyTorch 开发者更顺滑迁移

Google 发布 TorchTPU，把 PyTorch 原生体验、XLA 编译链和 TPU 硬件能力更紧地绑在一起，核心目标是降低 TPU 生态的开发者迁移摩擦。

AI 智能体2026-04-23

深度学习正在逼近一套真正的科学理论

一篇新的 arXiv 综述提出，深度学习正在形成一套可检验、可量化、以训练动力学为核心的科学理论框架，作者将其称为 learning mechanics。对 AI 产业来说，这意味着模型开发可能逐步从经验主义转向更强的可预测工程。

AI Infra2026-04-22

Google 发布第八代 TPU 用双芯片架构押注智能体时代

Google 推出 TPU 8t 和 TPU 8i，把训练和推理拆成两条更清晰的路线，这反映出智能体时代的基础设施已经需要更强的分工与系统级优化。

AI Infra2026-04-18

AI 需求推动 RAM 短缺或持续数年

据《日经亚洲》报道，即使供应商增加 DRAM 生产，到 2027 年底制造商预计只能满足 60% 的需求。SK 集团主席甚至表示短缺可能持续到 2030 年。

AI Infra2026-04-04

Mintlify 构建虚拟文件系统 ChromaFs：让 AI Agent 秒开文档会话

将文档助手会话启动时间从 46 秒降至 100 毫秒，边际成本从 $0.0137 降至 $0。基于 just-bash 和 Chroma DB 的虚拟文件系统。

AI Infra2026-03-23

Project NOMAD：免费开源的离线 AI 服务器

免费开源的离线服务器，让任何人在自己电脑上运行完整 AI 系统。适合应急准备、离网生活或技术爱好者自托管。

AI Infra2026-03-22

TinyBox：深度学习超级计算机现已开售

tinygrad 背后的 Tiny Corp 推出 TinyBox 深度学习超级计算机，4x 9070 XT 版本售价 $12,000，现已发货。