Agent Economy - AI 模型

Agent Economy - AI 模型关注基础模型、多模态、推理能力与模型发布带来的产品变化。https://agenteconomy.cn/zh-cnThu, 21 May 2026 00:02:29 GMTOpenAI 模型自主攻克 80 年未解的几何学难题https://agenteconomy.cn/blog/openai-model-disproves-geometry-conjecture/https://agenteconomy.cn/blog/openai-model-disproves-geometry-conjecture/OpenAI 的内部推理模型独立否定了离散几何中持续近 80 年的 Erdős 猜想，这是首个 AI 系统自主解决重要开放数学问题的案例。Thu, 21 May 2026 00:02:29 GMTδ-mem 为大型语言模型带来高效在线记忆机制https://agenteconomy.cn/blog/delta-mem-llm-online-memory/https://agenteconomy.cn/blog/delta-mem-llm-online-memory/一种仅需 8×8 状态矩阵的轻量级记忆机制 δ-mem，让冻结的 LLM 在不进行完整微调的情况下获得联想记忆能力，在智能体基准测试中提升达 31%。Sun, 17 May 2026 00:02:47 GMTScott Alexander 论 AI 发展曲线为何不会轻易触顶https://agenteconomy.cn/blog/the-sigmoids-wont-save-you/https://agenteconomy.cn/blog/the-sigmoids-wont-save-you/Astral Codex Ten 发文反驳"所有指数增长终将变成 S 曲线"的 AI 怀疑论观点，指出历史上一再出现过早宣告增长见顶的错误预测，而正确的默认预期应该是 AI 进步还会持续至少七年。Sat, 16 May 2026 00:02:58 GMTGoogle 发布 Googlebook AI 原生笔记本电脑https://agenteconomy.cn/blog/google-googlebook-ai-laptop/https://agenteconomy.cn/blog/google-googlebook-ai-laptop/Google 正式发布专为 Gemini 智能设计的笔记本电脑系列 Googlebook，配备 AI 指针、AI 控件生成等原生智能功能，将于 2026 年秋季上市。Fri, 15 May 2026 00:02:50 GMT菲尔兹奖得主实测ChatGPT 5.5 Pro：两小时内完成博士级数学研究https://agenteconomy.cn/blog/chatgpt-5-5-pro-phd-level-research/https://agenteconomy.cn/blog/chatgpt-5-5-pro-phd-level-research/Timothy Gowers用ChatGPT 5.5 Pro尝试了数论中的开放问题，模型在一小时内给出了原创性证明思路——且被MIT研究生验证为正确。这迫使数学界重新思考博士训练和研究成果的评判标准。Fri, 15 May 2026 00:02:50 GMT委托智能体编辑文档的代价：前沿LLM也会破坏25%的内容https://agenteconomy.cn/blog/llms-corrupt-documents-when-you-delegate/https://agenteconomy.cn/blog/llms-corrupt-documents-when-you-delegate/研究表明，即使是最先进的AI模型（Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）在长时间委托工作流中也会破坏约四分之一的文档内容，且代理工具并不能改善这一状况。Fri, 15 May 2026 00:02:50 GMTAnthropic 研究发现约 6% 用户向 Claude 寻求个人生活指导https://agenteconomy.cn/blog/claude-personal-guidance/https://agenteconomy.cn/blog/claude-personal-guidance/Anthropic 分析了 100 万条对话后发现，用户向 Claude 寻求健康、职业、感情、财务等人生指导的比例远超预期，其中感情话题最容易引发模型的谄媚行为。Fri, 15 May 2026 00:02:50 GMTOpenAI 模型、Codex 和托管智能体登陆 AWShttps://agenteconomy.cn/blog/openai-on-aws/https://agenteconomy.cn/blog/openai-on-aws/OpenAI 与 AWS 扩大战略合作，通过 Amazon Bedrock 提供 GPT-5.5 等前沿模型、Codex 编程代理以及全新托管智能体服务，让企业客户在现有 AWS 环境中使用 OpenAI 能力。Fri, 15 May 2026 00:02:50 GMTLLM 让知识工作的表面质量不再可靠https://agenteconomy.cn/blog/simulacrum-of-knowledge-work/https://agenteconomy.cn/blog/simulacrum-of-knowledge-work/One Happy Fellow 讨论了 LLM 对知识工作评估机制的破坏。过去拼写、格式、代码审查等表面信号还能作为质量代理指标，但当 AI 能廉价生成这些信号时，组织需要重新思考如何判断真实工作质量。Fri, 15 May 2026 00:02:50 GMTDeepSeek V4 预览版把百万上下文带入开源模型竞争https://agenteconomy.cn/blog/deepseek-v4-preview-1m-context/https://agenteconomy.cn/blog/deepseek-v4-preview-1m-context/DeepSeek 发布并开源 V4 预览版，提供 Pro 与 Flash 两个模型，并把 1M 上下文作为官方服务标配。这不仅是一次模型升级，也是在用成本和长上下文能力重新定义开源模型的 agent 场景。Fri, 15 May 2026 00:02:50 GMTGoogle 追加押注 Anthropic 抢占模型与算力双重入口https://agenteconomy.cn/blog/google-anthropic-40-billion-bet/https://agenteconomy.cn/blog/google-anthropic-40-billion-bet/Google 计划向 Anthropic 投资最高 400 亿美元，其中 100 亿美元立即到账，其余部分与业绩里程碑挂钩。真正值得关注的是这笔交易把股权、云分发和 TPU 需求进一步绑定成了一条基础设施价值链。Fri, 15 May 2026 00:02:50 GMTOpenAI 发布 GPT-5.5 把 AI 工作流推向更高自治https://agenteconomy.cn/blog/openai-gpt-5-5/https://agenteconomy.cn/blog/openai-gpt-5-5/OpenAI 发布 GPT-5.5，在保持速度的同时显著提升编码、知识工作与科研表现，更重要的是把模型进一步推向可独立推进任务的执行层。Fri, 15 May 2026 00:02:50 GMTKelsey Piper 发现 Claude Opus 4.7 能从一小段未发表文字中准确识别作者身份https://agenteconomy.cn/blog/kelsey-piper-ai-deanonymization-claude-opus/https://agenteconomy.cn/blog/kelsey-piper-ai-deanonymization-claude-opus/记者 Kelsey Piper 发现 Claude Opus 4.7 能从 125 字的未发表文字中精准识别作者——无论是政治评论、教育报告还是高中申请文书，AI 都能跨体裁完成作者归因。Fri, 15 May 2026 00:02:50 GMTAnthropic 发布 Claude Opus 4.7https://agenteconomy.cn/blog/introducing-claude-opus-47-anthropic/https://agenteconomy.cn/blog/introducing-claude-opus-47-anthropic/Anthropic 发布 Claude Opus 4.7，提供更强大的 AI 能力。Fri, 15 May 2026 00:02:50 GMTGemini 应用现已登陆 Mac OShttps://agenteconomy.cn/blog/the-gemini-app-is-now-available-on-mac-os/https://agenteconomy.cn/blog/the-gemini-app-is-now-available-on-mac-os/Google 将 Gemini 应用带到 macOS，提供原生桌面体验。Fri, 15 May 2026 00:02:50 GMTMeta 发布 Muse Spark：迈向个人超级智能https://agenteconomy.cn/blog/introducing-muse-spark-scaling-towards-personal-su/https://agenteconomy.cn/blog/introducing-muse-spark-scaling-towards-personal-su/Meta 推出新计划，致力于为每个人提供个人超级智能助手，实现真正的个性化 AI 体验。Fri, 15 May 2026 00:02:50 GMTQwen3.6-Plus：面向真实世界场景的 AI Agenthttps://agenteconomy.cn/blog/qwen3-6-plus-real-world-agents/https://agenteconomy.cn/blog/qwen3-6-plus-real-world-agents/阿里巴巴通义千问发布面向真实世界 Agent 场景的模型，支持复杂任务规划、代码生成、多模态理解和工具调用。Fri, 15 May 2026 00:02:50 GMTGoogle 发布 Gemma 4：迄今最智能的开源模型https://agenteconomy.cn/blog/google-gemma-4-open-models/https://agenteconomy.cn/blog/google-gemma-4-open-models/专为高级推理和智能体工作流设计，提供 E2B/E4B/26B-MoE/31B 四种尺寸，Apache 2.0 许可证，Arena AI 排行榜第 3 名。Fri, 15 May 2026 00:02:50 GMTARC-AGI-3：衡量 AI 通用智能的新一代推理基准https://agenteconomy.cn/blog/arc-agi-3-benchmark/https://agenteconomy.cn/blog/arc-agi-3-benchmark/第三代 ARC 推理基准，专注测试 AI 智能体的交互式推理能力，衡量 AI 与人类智能的差距。Fri, 15 May 2026 00:02:50 GMTOpenAI 宣布关闭 Sora 应用https://agenteconomy.cn/blog/sora-shutting-down/https://agenteconomy.cn/blog/sora-shutting-down/OpenAI 宣布将关闭 Sora 应用，这款 AI 视频生成工具上线仅数月便停止服务。Fri, 15 May 2026 00:02:50 GMTMistral AI 发布 Forge：企业专有知识驱动的前沿模型系统https://agenteconomy.cn/blog/introducing-forge-mistral-ai/https://agenteconomy.cn/blog/introducing-forge-mistral-ai/Mistral AI 发布 Forge，让企业基于专有知识构建前沿级 AI 模型。Fri, 15 May 2026 00:02:50 GMTGoogle 发布 Nano Banana 2：结合 Pro 能力与闪电速度的新一代图像模型https://agenteconomy.cn/blog/nano-banana-2-google-image-model/https://agenteconomy.cn/blog/nano-banana-2-google-image-model/Google DeepMind 发布 Nano Banana 2，将 Pro 版本的高级功能与 Flash 的闪电速度相结合。支持主体一致性、精确文本渲染、4K 分辨率，已部署至 Gemini、Search、Flow 等多个平台。Fri, 15 May 2026 00:02:50 GMTOpenAI 放弃 SWE-bench Verified 转向 SWE-bench Prohttps://agenteconomy.cn/blog/openai-drops-swe-bench-verified/https://agenteconomy.cn/blog/openai-drops-swe-bench-verified/OpenAI 审计发现 SWE-bench Verified 存在严重的测试缺陷和训练数据污染问题，已停止报告该基准分数，并建议业界转向 SWE-bench Pro。Fri, 15 May 2026 00:02:50 GMT