<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"><channel><title>Agent Economy - AI 模型</title><description>关注基础模型、多模态、推理能力与模型发布带来的产品变化。</description><link>https://agenteconomy.cn/</link><language>zh-cn</language><lastBuildDate>Thu, 21 May 2026 00:02:29 GMT</lastBuildDate><item><title>OpenAI 模型自主攻克 80 年未解的几何学难题</title><link>https://agenteconomy.cn/blog/openai-model-disproves-geometry-conjecture/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/openai-model-disproves-geometry-conjecture/</guid><description>OpenAI 的内部推理模型独立否定了离散几何中持续近 80 年的 Erdős 猜想，这是首个 AI 系统自主解决重要开放数学问题的案例。</description><pubDate>Thu, 21 May 2026 00:02:29 GMT</pubDate></item><item><title>δ-mem 为大型语言模型带来高效在线记忆机制</title><link>https://agenteconomy.cn/blog/delta-mem-llm-online-memory/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/delta-mem-llm-online-memory/</guid><description>一种仅需 8×8 状态矩阵的轻量级记忆机制 δ-mem，让冻结的 LLM 在不进行完整微调的情况下获得联想记忆能力，在智能体基准测试中提升达 31%。</description><pubDate>Sun, 17 May 2026 00:02:47 GMT</pubDate></item><item><title>Scott Alexander 论 AI 发展曲线为何不会轻易触顶</title><link>https://agenteconomy.cn/blog/the-sigmoids-wont-save-you/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/the-sigmoids-wont-save-you/</guid><description>Astral Codex Ten 发文反驳&quot;所有指数增长终将变成 S 曲线&quot;的 AI 怀疑论观点，指出历史上一再出现过早宣告增长见顶的错误预测，而正确的默认预期应该是 AI 进步还会持续至少七年。</description><pubDate>Sat, 16 May 2026 00:02:58 GMT</pubDate></item><item><title>Google 发布 Googlebook AI 原生笔记本电脑</title><link>https://agenteconomy.cn/blog/google-googlebook-ai-laptop/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/google-googlebook-ai-laptop/</guid><description>Google 正式发布专为 Gemini 智能设计的笔记本电脑系列 Googlebook，配备 AI 指针、AI 控件生成等原生智能功能，将于 2026 年秋季上市。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>菲尔兹奖得主实测ChatGPT 5.5 Pro：两小时内完成博士级数学研究</title><link>https://agenteconomy.cn/blog/chatgpt-5-5-pro-phd-level-research/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/chatgpt-5-5-pro-phd-level-research/</guid><description>Timothy Gowers用ChatGPT 5.5 Pro尝试了数论中的开放问题，模型在一小时内给出了原创性证明思路——且被MIT研究生验证为正确。这迫使数学界重新思考博士训练和研究成果的评判标准。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>委托智能体编辑文档的代价：前沿LLM也会破坏25%的内容</title><link>https://agenteconomy.cn/blog/llms-corrupt-documents-when-you-delegate/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/llms-corrupt-documents-when-you-delegate/</guid><description>研究表明，即使是最先进的AI模型（Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）在长时间委托工作流中也会破坏约四分之一的文档内容，且代理工具并不能改善这一状况。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>Anthropic 研究发现约 6% 用户向 Claude 寻求个人生活指导</title><link>https://agenteconomy.cn/blog/claude-personal-guidance/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/claude-personal-guidance/</guid><description>Anthropic 分析了 100 万条对话后发现，用户向 Claude 寻求健康、职业、感情、财务等人生指导的比例远超预期，其中感情话题最容易引发模型的谄媚行为。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>OpenAI 模型、Codex 和托管智能体登陆 AWS</title><link>https://agenteconomy.cn/blog/openai-on-aws/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/openai-on-aws/</guid><description>OpenAI 与 AWS 扩大战略合作，通过 Amazon Bedrock 提供 GPT-5.5 等前沿模型、Codex 编程代理以及全新托管智能体服务，让企业客户在现有 AWS 环境中使用 OpenAI 能力。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>LLM 让知识工作的表面质量不再可靠</title><link>https://agenteconomy.cn/blog/simulacrum-of-knowledge-work/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/simulacrum-of-knowledge-work/</guid><description>One Happy Fellow 讨论了 LLM 对知识工作评估机制的破坏。过去拼写、格式、代码审查等表面信号还能作为质量代理指标，但当 AI 能廉价生成这些信号时，组织需要重新思考如何判断真实工作质量。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>DeepSeek V4 预览版把百万上下文带入开源模型竞争</title><link>https://agenteconomy.cn/blog/deepseek-v4-preview-1m-context/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/deepseek-v4-preview-1m-context/</guid><description>DeepSeek 发布并开源 V4 预览版，提供 Pro 与 Flash 两个模型，并把 1M 上下文作为官方服务标配。这不仅是一次模型升级，也是在用成本和长上下文能力重新定义开源模型的 agent 场景。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>Google 追加押注 Anthropic 抢占模型与算力双重入口</title><link>https://agenteconomy.cn/blog/google-anthropic-40-billion-bet/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/google-anthropic-40-billion-bet/</guid><description>Google 计划向 Anthropic 投资最高 400 亿美元，其中 100 亿美元立即到账，其余部分与业绩里程碑挂钩。真正值得关注的是这笔交易把股权、云分发和 TPU 需求进一步绑定成了一条基础设施价值链。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>OpenAI 发布 GPT-5.5 把 AI 工作流推向更高自治</title><link>https://agenteconomy.cn/blog/openai-gpt-5-5/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/openai-gpt-5-5/</guid><description>OpenAI 发布 GPT-5.5，在保持速度的同时显著提升编码、知识工作与科研表现，更重要的是把模型进一步推向可独立推进任务的执行层。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>Kelsey Piper 发现 Claude Opus 4.7 能从一小段未发表文字中准确识别作者身份</title><link>https://agenteconomy.cn/blog/kelsey-piper-ai-deanonymization-claude-opus/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/kelsey-piper-ai-deanonymization-claude-opus/</guid><description>记者 Kelsey Piper 发现 Claude Opus 4.7 能从 125 字的未发表文字中精准识别作者——无论是政治评论、教育报告还是高中申请文书，AI 都能跨体裁完成作者归因。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>Anthropic 发布 Claude Opus 4.7</title><link>https://agenteconomy.cn/blog/introducing-claude-opus-47-anthropic/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/introducing-claude-opus-47-anthropic/</guid><description>Anthropic 发布 Claude Opus 4.7，提供更强大的 AI 能力。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>Gemini 应用现已登陆 Mac OS</title><link>https://agenteconomy.cn/blog/the-gemini-app-is-now-available-on-mac-os/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/the-gemini-app-is-now-available-on-mac-os/</guid><description>Google 将 Gemini 应用带到 macOS，提供原生桌面体验。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>Meta 发布 Muse Spark：迈向个人超级智能</title><link>https://agenteconomy.cn/blog/introducing-muse-spark-scaling-towards-personal-su/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/introducing-muse-spark-scaling-towards-personal-su/</guid><description>Meta 推出新计划，致力于为每个人提供个人超级智能助手，实现真正的个性化 AI 体验。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>Qwen3.6-Plus：面向真实世界场景的 AI Agent</title><link>https://agenteconomy.cn/blog/qwen3-6-plus-real-world-agents/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/qwen3-6-plus-real-world-agents/</guid><description>阿里巴巴通义千问发布面向真实世界 Agent 场景的模型，支持复杂任务规划、代码生成、多模态理解和工具调用。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>Google 发布 Gemma 4：迄今最智能的开源模型</title><link>https://agenteconomy.cn/blog/google-gemma-4-open-models/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/google-gemma-4-open-models/</guid><description>专为高级推理和智能体工作流设计，提供 E2B/E4B/26B-MoE/31B 四种尺寸，Apache 2.0 许可证，Arena AI 排行榜第 3 名。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>ARC-AGI-3：衡量 AI 通用智能的新一代推理基准</title><link>https://agenteconomy.cn/blog/arc-agi-3-benchmark/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/arc-agi-3-benchmark/</guid><description>第三代 ARC 推理基准，专注测试 AI 智能体的交互式推理能力，衡量 AI 与人类智能的差距。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>OpenAI 宣布关闭 Sora 应用</title><link>https://agenteconomy.cn/blog/sora-shutting-down/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/sora-shutting-down/</guid><description>OpenAI 宣布将关闭 Sora 应用，这款 AI 视频生成工具上线仅数月便停止服务。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>Mistral AI 发布 Forge：企业专有知识驱动的前沿模型系统</title><link>https://agenteconomy.cn/blog/introducing-forge-mistral-ai/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/introducing-forge-mistral-ai/</guid><description>Mistral AI 发布 Forge，让企业基于专有知识构建前沿级 AI 模型。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>Google 发布 Nano Banana 2：结合 Pro 能力与闪电速度的新一代图像模型</title><link>https://agenteconomy.cn/blog/nano-banana-2-google-image-model/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/nano-banana-2-google-image-model/</guid><description>Google DeepMind 发布 Nano Banana 2，将 Pro 版本的高级功能与 Flash 的闪电速度相结合。支持主体一致性、精确文本渲染、4K 分辨率，已部署至 Gemini、Search、Flow 等多个平台。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item><item><title>OpenAI 放弃 SWE-bench Verified 转向 SWE-bench Pro</title><link>https://agenteconomy.cn/blog/openai-drops-swe-bench-verified/</link><guid isPermaLink="true">https://agenteconomy.cn/blog/openai-drops-swe-bench-verified/</guid><description>OpenAI 审计发现 SWE-bench Verified 存在严重的测试缺陷和训练数据污染问题，已停止报告该基准分数，并建议业界转向 SWE-bench Pro。</description><pubDate>Fri, 15 May 2026 00:02:50 GMT</pubDate></item></channel></rss>