OpenAI 模型自主攻克 80 年未解的几何学难题
OpenAI 的内部推理模型独立否定了离散几何中持续近 80 年的 Erdős 猜想,这是首个 AI 系统自主解决重要开放数学问题的案例。
Topics
关注基础模型、多模态、推理能力与模型发布带来的产品变化。
OpenAI 的内部推理模型独立否定了离散几何中持续近 80 年的 Erdős 猜想,这是首个 AI 系统自主解决重要开放数学问题的案例。
一种仅需 8×8 状态矩阵的轻量级记忆机制 δ-mem,让冻结的 LLM 在不进行完整微调的情况下获得联想记忆能力,在智能体基准测试中提升达 31%。
Astral Codex Ten 发文反驳"所有指数增长终将变成 S 曲线"的 AI 怀疑论观点,指出历史上一再出现过早宣告增长见顶的错误预测,而正确的默认预期应该是 AI 进步还会持续至少七年。
Google 正式发布专为 Gemini 智能设计的笔记本电脑系列 Googlebook,配备 AI 指针、AI 控件生成等原生智能功能,将于 2026 年秋季上市。
Timothy Gowers用ChatGPT 5.5 Pro尝试了数论中的开放问题,模型在一小时内给出了原创性证明思路——且被MIT研究生验证为正确。这迫使数学界重新思考博士训练和研究成果的评判标准。
研究表明,即使是最先进的AI模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在长时间委托工作流中也会破坏约四分之一的文档内容,且代理工具并不能改善这一状况。
Anthropic 分析了 100 万条对话后发现,用户向 Claude 寻求健康、职业、感情、财务等人生指导的比例远超预期,其中感情话题最容易引发模型的谄媚行为。
OpenAI 与 AWS 扩大战略合作,通过 Amazon Bedrock 提供 GPT-5.5 等前沿模型、Codex 编程代理以及全新托管智能体服务,让企业客户在现有 AWS 环境中使用 OpenAI 能力。
One Happy Fellow 讨论了 LLM 对知识工作评估机制的破坏。过去拼写、格式、代码审查等表面信号还能作为质量代理指标,但当 AI 能廉价生成这些信号时,组织需要重新思考如何判断真实工作质量。
DeepSeek 发布并开源 V4 预览版,提供 Pro 与 Flash 两个模型,并把 1M 上下文作为官方服务标配。这不仅是一次模型升级,也是在用成本和长上下文能力重新定义开源模型的 agent 场景。
Google 计划向 Anthropic 投资最高 400 亿美元,其中 100 亿美元立即到账,其余部分与业绩里程碑挂钩。真正值得关注的是这笔交易把股权、云分发和 TPU 需求进一步绑定成了一条基础设施价值链。
OpenAI 发布 GPT-5.5,在保持速度的同时显著提升编码、知识工作与科研表现,更重要的是把模型进一步推向可独立推进任务的执行层。
记者 Kelsey Piper 发现 Claude Opus 4.7 能从 125 字的未发表文字中精准识别作者——无论是政治评论、教育报告还是高中申请文书,AI 都能跨体裁完成作者归因。
Anthropic 发布 Claude Opus 4.7,提供更强大的 AI 能力。
Google 将 Gemini 应用带到 macOS,提供原生桌面体验。
Meta 推出新计划,致力于为每个人提供个人超级智能助手,实现真正的个性化 AI 体验。
阿里巴巴通义千问发布面向真实世界 Agent 场景的模型,支持复杂任务规划、代码生成、多模态理解和工具调用。
专为高级推理和智能体工作流设计,提供 E2B/E4B/26B-MoE/31B 四种尺寸,Apache 2.0 许可证,Arena AI 排行榜第 3 名。
第三代 ARC 推理基准,专注测试 AI 智能体的交互式推理能力,衡量 AI 与人类智能的差距。
OpenAI 宣布将关闭 Sora 应用,这款 AI 视频生成工具上线仅数月便停止服务。
Mistral AI 发布 Forge,让企业基于专有知识构建前沿级 AI 模型。
Google DeepMind 发布 Nano Banana 2,将 Pro 版本的高级功能与 Flash 的闪电速度相结合。支持主体一致性、精确文本渲染、4K 分辨率,已部署至 Gemini、Search、Flow 等多个平台。
OpenAI 审计发现 SWE-bench Verified 存在严重的测试缺陷和训练数据污染问题,已停止报告该基准分数,并建议业界转向 SWE-bench Pro。