AI 模型

关注基础模型、多模态、推理能力与模型发布带来的产品变化。

主要来源

OpenAI (8)Anthropic (6)arXiv (2)DeepSeek (2)GitHub (2)Google (2)

文章

AI Infra2026-07-10

Colibrì 让 744B 参数模型跑在 25GB 笔记本上——纯 C 实现、零依赖

开源项目 Colibrì 通过磁盘流式传输专家层，在仅 25GB 内存的笔记本上运行 GLM-5.2（744B MoE），推理引擎仅 2400 行 C 代码——本地 AI 部署的成本门槛再次被拉低。

AI 智能体2026-07-10

OpenAI 推出 ChatGPT Work 智能体，交付成品而非回答

ChatGPT Work 是 OpenAI 在 ChatGPT 内新增的 agent 模式，能自主跨应用收集上下文、分步执行任务，直接交付文档、表格、演示文稿和网页应用，标志着 ChatGPT 从对话工具向生产力 agent 的正式转型。

商业 & 经济2026-07-07

AI 推理利润率面临崩塌 GLM-5.2 改写市场规则

GLM-5.2 在性能上逼近 Claude Opus 和 GPT-5.5，但推理价格仅为后者的 15-20%，且 API 兼容接口让迁移几乎零成本。开源模型从"可用"走向"可替代"，AI 推理的暴利时代可能即将结束。

AI 模型2026-07-07

Anthropic 发现 AI 模型内部存在「全局工作空间」

Claude 内部自发形成了约 300 个特殊神经模式构成的「雅可比空间」（J-space），可用于内部推理、灵活控制，并能被外部读取以检测隐藏目标和虚构数据。这一发现为 AI 智能体安全监控和模型透明度提供了全新工具。

AI 智能体2026-07-02

Kimi K2.7 登陆 GitHub Copilot，开源模型首入代码助手选择器

Kimi K2.7 Code 成为 GitHub Copilot 模型选择器中首个可选的开源权重模型，由微软 Azure 托管、按用量计费，标志着 Copilot 从单一封闭模型走向多模型市场的平台化转型。

AI 模型2026-07-01

Claude Sonnet 5 发布智能体能力接近旗舰 Opus

Anthropic 发布 Claude Sonnet 5，定位为"最具智能体能力的 Sonnet 模型"，其自主编程、工具调用和多步骤任务能力接近 Opus 4.8，但价格仅为后者一半，为开发者提供了更优的成本性能平衡。

AI Infra2026-06-30

LongCat-2.0：美团开源 1.6T 参数模型，全程国产芯片训练

美团发布 LongCat-2.0，1.6 万亿参数 MoE 模型，使用 5 万块华为昇腾芯片完成预训练和推理，成为首个在国产芯片上完成全流程训练的万亿级开源模型，面向智能体编程场景设计。

AI 智能体2026-06-28

Wayfinder Router 让 LLM 查询路由不再依赖模型判断

Wayfinder Router 通过分析提示词结构实现离线、确定性的 LLM 查询路由，无需模型调用即可决定查询去向，为智能体应用开发者提供零成本的推理分配方案。

AI 模型2026-06-27

OpenAI 发布 GPT-5.6 Sol 预览：子智能体模式与政府审核同行

OpenAI 预览下一代模型 GPT-5.6 Sol，推出调度子智能体并行工作的 Ultra 模式，并宣布美国政府将审核用户资格——同日 Anthropic Mythos 5 也在同类监管框架下获准解禁。

AI 智能体2026-06-24

Qwen 发布 AgentWorld：用语言世界模型推动通用智能体发展

通义千问团队发布 Qwen-AgentWorld，首次将语言模型作为「世界模型」用于智能体环境模拟和训练，覆盖 7 个领域，并提出 AgentWorldBench 评测基准。

安全与隐私2026-06-24

LLM 时代漏洞报告不再特殊——Filippo Valsorda 的冷静观察

Go 安全团队前负责人 Filippo Valsorda 发文指出，LLM 已经彻底改变了安全漏洞发现的经济学——洞察力不再稀缺，维护者面临的新瓶颈是筛选而非发现。

AI 模型2026-06-23

GLM-5.2 开源 744B 参数模型本地运行

Z.ai 发布 GLM-5.2 开源模型，744B 参数（40B 活跃）、1M 上下文窗口，通过 Unsloth 量化可运行在 256GB 统一内存设备上，性能对标 Claude 4.8 Opus 和 GPT-5.5。

AI 模型2026-06-18

本地模型不是更差的 Opus，而是不同的工具

OpenFaaS 创始人 Alex Ellis 用 12,000 美元的 RTX 6000 Pro 显卡跑了一年本地模型后得出结论：Qwen 27B 在客户支持、代码审查和数据分析等特定任务中有真实价值，但远远无法取代云端前沿模型处理长周期、无监督的智能体编码工作。

AI 模型2026-06-16

SubQ 发布 1.1 Small，支持 1200 万 token 上下文的亚二次注意力模型

SubQ 发布 Subquadratic Sparse Attention（SSA）模型 1.1 Small，在 1200 万 token 上下文长度上实现近乎完美的检索能力，计算量仅为传统密集注意力的 1/64。

AI 智能体2026-06-14

不要相信大上下文窗口——AI 编码智能体的真实注意力瓶颈

研究表明，无论模型的上下文窗口号称多大，100K token 之后便进入“盲区”——注意力急剧下降，编码智能体尤易受害。主动压缩和人工信号交接才是应对之道。

AI 模型2026-06-10

Anthropic 发布 Claude Fable 5 和 Mythos 5，Mythos 级模型首次向公众开放

Anthropic 推出 Mythos 级模型 Claude Fable 5（公众）和 Mythos 5（安全合作伙伴），Stripe 仅用一天完成 5000 万行代码库迁移，定价仅为 Mythos Preview 的一半

AI 模型2026-06-09

Apple 联手 Google Gemini 重构 AI 架构

Apple 在 WWDC 2026 上宣布与 Google 深度合作，基于 Gemini 技术联合开发 Foundation Models，并引入全新的系统编排器架构

AI Infra2026-06-05

华为开源 KVarN 实现 vLLM KV 缓存 3-5 倍增容且不损精度

华为 CSL 实验室发布 KVarN，以方差归一化量化技术打破 KV 缓存瓶颈：吞吐量超越 FP16、精度无损、无需校准，专为智能体长上下文场景设计。

AI 模型2026-06-03

微软发布 MAI-Code-1-Flash，AI 编程模型进入效率竞赛新阶段

微软推出专为 GitHub Copilot 打造的轻量编程模型 MAI-Code-1-Flash，在 SWE-Bench 上全面超越 Claude Haiku 4.5，且平均节省 60% 计算 Token。

AI Infra2026-05-30

OpenRouter 获 1.13 亿美元 B 轮融资

OpenRouter 完成 1.13 亿美元 B 轮融资，CapitalG、NVIDIA、ServiceNow 等战略投资者集体入场，AI 推理路由层正在成为多模型时代的基础设施关键组件。

AI 模型2026-05-28

Claude Opus 4.8 发布：智能体能力全面提升，新增动态工作流与努力控制

Anthropic 发布 Claude Opus 4.8，在编码、智能体任务和专业工作方面全面超越前代，同时推出动态工作流和努力控制两项重要新功能，让 AI 助手成为更可靠的协作者。

AI 智能体2026-05-27

智能体记忆系统的解剖学：从认知科学到工程实现

一篇深入剖析 AI 智能体记忆系统架构的文章，从认知科学的分类法出发，拆解了提取器、存储器和检索器三大组件的设计权衡，并指出了该领域未填补的关键空白。

商业 & 经济2026-05-23

DeepSeek 将 V4 Pro 价格折扣永久化，改写 API 定价竞争格局

DeepSeek 宣布将其 V4 Pro API 的 75% 折扣定价永久化，输入缓存命中仅 $0.0036/M token，输出仅 $0.87/M token，进一步压低 AI 推理成本。

AI 模型2026-05-21

OpenAI 模型自主攻克 80 年未解的几何学难题

OpenAI 的内部推理模型独立否定了离散几何中持续近 80 年的 Erdős 猜想，这是首个 AI 系统自主解决重要开放数学问题的案例。

AI 智能体2026-05-20

Forge 用护栏让 8B 模型在智能体任务上从 53% 飙升至 99%

Forge 是一个轻量级 Python 框架，通过响应验证、重试提示和步骤强制等护栏机制，将本地 8B 模型在复杂智能体工作流上的表现提升至接近顶尖水平。

AI 智能体2026-05-17

δ-mem 为大型语言模型带来高效在线记忆机制

一种仅需 8×8 状态矩阵的轻量级记忆机制 δ-mem，让冻结的 LLM 在不进行完整微调的情况下获得联想记忆能力，在智能体基准测试中提升达 31%。

AI 模型2026-05-16

Scott Alexander 论 AI 发展曲线为何不会轻易触顶

Astral Codex Ten 发文反驳"所有指数增长终将变成 S 曲线"的 AI 怀疑论观点，指出历史上一再出现过早宣告增长见顶的错误预测，而正确的默认预期应该是 AI 进步还会持续至少七年。

行业动态2026-05-13

Google 发布 Googlebook AI 原生笔记本电脑

Google 正式发布专为 Gemini 智能设计的笔记本电脑系列 Googlebook，配备 AI 指针、AI 控件生成等原生智能功能，将于 2026 年秋季上市。

AI 模型2026-05-10

菲尔兹奖得主实测ChatGPT 5.5 Pro：两小时内完成博士级数学研究

Timothy Gowers用ChatGPT 5.5 Pro尝试了数论中的开放问题，模型在一小时内给出了原创性证明思路——且被MIT研究生验证为正确。这迫使数学界重新思考博士训练和研究成果的评判标准。

AI 智能体2026-05-10

委托智能体编辑文档的代价：前沿LLM也会破坏25%的内容

研究表明，即使是最先进的AI模型（Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）在长时间委托工作流中也会破坏约四分之一的文档内容，且代理工具并不能改善这一状况。

安全与隐私2026-05-01

Anthropic 研究发现约 6% 用户向 Claude 寻求个人生活指导

Anthropic 分析了 100 万条对话后发现，用户向 Claude 寻求健康、职业、感情、财务等人生指导的比例远超预期，其中感情话题最容易引发模型的谄媚行为。

行业动态2026-04-28

OpenAI 模型、Codex 和托管智能体登陆 AWS

OpenAI 与 AWS 扩大战略合作，通过 Amazon Bedrock 提供 GPT-5.5 等前沿模型、Codex 编程代理以及全新托管智能体服务，让企业客户在现有 AWS 环境中使用 OpenAI 能力。

AI 智能体2026-04-25

LLM 让知识工作的表面质量不再可靠

One Happy Fellow 讨论了 LLM 对知识工作评估机制的破坏。过去拼写、格式、代码审查等表面信号还能作为质量代理指标，但当 AI 能廉价生成这些信号时，组织需要重新思考如何判断真实工作质量。

AI 智能体2026-04-24

DeepSeek V4 预览版把百万上下文带入开源模型竞争

DeepSeek 发布并开源 V4 预览版，提供 Pro 与 Flash 两个模型，并把 1M 上下文作为官方服务标配。这不仅是一次模型升级，也是在用成本和长上下文能力重新定义开源模型的 agent 场景。

AI 智能体2026-04-24

Google 追加押注 Anthropic 抢占模型与算力双重入口

Google 计划向 Anthropic 投资最高 400 亿美元，其中 100 亿美元立即到账，其余部分与业绩里程碑挂钩。真正值得关注的是这笔交易把股权、云分发和 TPU 需求进一步绑定成了一条基础设施价值链。

AI 模型2026-04-23

OpenAI 发布 GPT-5.5 把 AI 工作流推向更高自治

OpenAI 发布 GPT-5.5，在保持速度的同时显著提升编码、知识工作与科研表现，更重要的是把模型进一步推向可独立推进任务的执行层。

安全与隐私2026-04-23

OpenAI 开源 Privacy Filter 把 PII 检测推向本地化

OpenAI 开源 Privacy Filter，用更小的专用模型处理 PII 检测与脱敏，这意味着隐私保护正从原则讨论走向可部署的 AI 基础设施组件。

安全与隐私2026-04-21

Kelsey Piper 发现 Claude Opus 4.7 能从一小段未发表文字中准确识别作者身份

记者 Kelsey Piper 发现 Claude Opus 4.7 能从 125 字的未发表文字中精准识别作者——无论是政治评论、教育报告还是高中申请文书，AI 都能跨体裁完成作者归因。

AI 智能体2026-04-20

Kimi K2.6 带来开源编程与 Agent 能力新突破

Kimi K2.6 在开源编程领域取得重大进展，支持长程代码生成、设计驱动开发、智能体集群协作和主动式智能体交互，并推出 Claw Groups 研究预览版。

AI 智能体2026-04-16

Anthropic 发布 Claude Opus 4.7

Anthropic 发布 Claude Opus 4.7，提供更强大的 AI 能力。

AI 智能体2026-04-16

Gemini 应用现已登陆 Mac OS

Google 将 Gemini 应用带到 macOS，提供原生桌面体验。

AI 智能体2026-04-11

Linux 内核发布 AI 编码助手官方指南

Linux 内核首次针对 AI 辅助编程制定正式政策：AI 禁止添加 Signed-off-by，人类需承担全部责任。

AI 智能体2026-04-10

Instant 1.0：AI 编码应用的最佳后端

Instant 1.0 正式发布，将编码智能体变成全栈应用构建器。多租户架构、同步引擎、完全开源。

AI 智能体2026-04-09

Meta 发布 Muse Spark：迈向个人超级智能

Meta 推出新计划，致力于为每个人提供个人超级智能助手，实现真正的个性化 AI 体验。

AI 模型2026-04-03

Qwen3.6-Plus：面向真实世界场景的 AI Agent

阿里巴巴通义千问发布面向真实世界 Agent 场景的模型，支持复杂任务规划、代码生成、多模态理解和工具调用。

AI 模型2026-04-02

Google 发布 Gemma 4：迄今最智能的开源模型

专为高级推理和智能体工作流设计，提供 E2B/E4B/26B-MoE/31B 四种尺寸，Apache 2.0 许可证，Arena AI 排行榜第 3 名。

AI 模型2026-03-26

ARC-AGI-3：衡量 AI 通用智能的新一代推理基准

第三代 ARC 推理基准，专注测试 AI 智能体的交互式推理能力，衡量 AI 与人类智能的差距。

AI 模型2026-03-26

OpenAI 宣布关闭 Sora 应用

OpenAI 宣布将关闭 Sora 应用，这款 AI 视频生成工具上线仅数月便停止服务。

AI 模型2026-03-06

Mistral AI 发布 Forge：企业专有知识驱动的前沿模型系统

Mistral AI 发布 Forge，让企业基于专有知识构建前沿级 AI 模型。

AI 模型2026-02-27

Google 发布 Nano Banana 2：结合 Pro 能力与闪电速度的新一代图像模型

Google DeepMind 发布 Nano Banana 2，将 Pro 版本的高级功能与 Flash 的闪电速度相结合。支持主体一致性、精确文本渲染、4K 分辨率，已部署至 Gemini、Search、Flow 等多个平台。

AI 模型2026-02-23

OpenAI 放弃 SWE-bench Verified 转向 SWE-bench Pro

OpenAI 审计发现 SWE-bench Verified 存在严重的测试缺陷和训练数据污染问题，已停止报告该基准分数，并建议业界转向 SWE-bench Pro。