OpenAI 模型自主攻克 80 年未解的几何学难题
OpenAI 的内部推理模型独立否定了离散几何中持续近 80 年的 Erdős 猜想,这是首个 AI 系统自主解决重要开放数学问题的案例。
共 106 篇文章
OpenAI 的内部推理模型独立否定了离散几何中持续近 80 年的 Erdős 猜想,这是首个 AI 系统自主解决重要开放数学问题的案例。
阿里的 Qwen3.7-Max 在代码智能体、MCP 集成和超长自主执行上实现突破,并在 35 小时的连续运行中独立完成了 GPU 内核优化,达到 10 倍加速。
Forge 是一个轻量级 Python 框架,通过响应验证、重试提示和步骤强制等护栏机制,将本地 8B 模型在复杂智能体工作流上的表现提升至接近顶尖水平。
OpenAI 宣布采用 Google DeepMind 的 SynthID 技术为 AI 图像添加隐形水印,同时成为 C2PA 一致性生成器产品,并推出公开验证工具,迈出跨平台溯源的关键一步。
Anthropic 收购 API SDK 和 MCP 服务器工具公司 Stainless,强化 Claude 与外部系统和数据的连接能力,加速智能体生态布局。
Google 推出开放标准 Universal Commerce Protocol,让 AI 搜索和 Gemini 可以直连商家完成交易,打通从对话到购买的最后一公里。
Modal 发布技术方案,结合云缓冲、自定义文件系统、进程检查点和 CUDA 检查点技术,将 AI 推理服务冷启动从数十分钟降至数十秒。
约翰·格鲁伯撰文反驳「苹果需要杀手级 AI 产品」的观点,认为 AI 更像无线网络——是渗透一切的技术基础设施,而非独立的产品品类。
数据分析显示,在 Apple M5 Max 上运行本地 LLM 推理,每百万 token 成本约为云端推理的 3 倍,速度慢 3-7 倍——对开发者而言,租比买更划算。
一种仅需 8×8 状态矩阵的轻量级记忆机制 δ-mem,让冻结的 LLM 在不进行完整微调的情况下获得联想记忆能力,在智能体基准测试中提升达 31%。
随着 Claude Opus 4.5 和 GPT-5.5 等前沿 AI 模型能够自主解决中高级 CTF 挑战,开放式网络安全竞赛作为人类技能标尺的意义正在瓦解。
OpenAI 向美国 Pro 用户开放 ChatGPT 个人财务功能预览,支持连接超过 12,000 家金融机构的账户,提供消费分析、投资概览和目标规划等能力。
Google Project Zero 团队在 Pixel 10 上复现了零点击远程利用链,发现 Tensor G5 芯片 VPU 驱动的严重内核漏洞,仅需 5 行代码即可实现任意内核读写。
Astral Codex Ten 发文反驳"所有指数增长终将变成 S 曲线"的 AI 怀疑论观点,指出历史上一再出现过早宣告增长见顶的错误预测,而正确的默认预期应该是 AI 进步还会持续至少七年。
OpenAI 将编程智能体 Codex 带入手机端,配合远程 SSH、程序化访问令牌和 Hooks 等企业级功能,让开发者从任意设备接入持续运行的 AI 工作流。
Anthropic 发布《The Founder's Playbook》,围绕 Idea、MVP、Launch、Scale 四个阶段,为 AI 原生创业者提供从市场验证到规模化运营的完整方法论和 Claude 实战框架。
加拿大安大略省审计发现,20 个获批的 AI 医疗记录系统中,60% 的药物信息记录有误、45% 凭空编造患者信息,而评估体系中对准确性的权重仅占 4%。
十五年历史的客服软件公司将公司名改为AI智能体产品名,CEO称"通向未来成功的唯一路径是摧毁自己的过去"。
一篇深度分析指出,美国在AI领域的领先并不在于论文数量或工程师规模,而是拥有从芯片、数据中心到云平台和开发者生态的全栈整合能力。
Google 正式发布专为 Gemini 智能设计的笔记本电脑系列 Googlebook,配备 AI 指针、AI 控件生成等原生智能功能,将于 2026 年秋季上市。
Cactus Compute 团队发布 Needle,一个仅 26M 参数的纯工具调用模型,可在手机、手表等小型设备上运行,为 AI 智能体的边缘部署开辟新路径。
GitLab CEO Bill Staples 发布了一份详细的战略声明,宣布对公司进行全面重组——从基础设施到商业模式,全面为 AI 智能体时代重构 DevSecOps 平台。
Apple 和 Google 以安全为名推广硬件认证,实际上正在锁死操作系统竞争。GrapheneOS 的安全团队揭示了 Play Integrity 与 App Attest 背后的反竞争本质。
开发者过度依赖云端 AI API 正在制造脆弱、侵犯隐私且成本高昂的应用。本地 AI 不仅可行,更是构建可信软件的更优路径。
Timothy Gowers用ChatGPT 5.5 Pro尝试了数论中的开放问题,模型在一小时内给出了原创性证明思路——且被MIT研究生验证为正确。这迫使数学界重新思考博士训练和研究成果的评判标准。
研究表明,即使是最先进的AI模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在长时间委托工作流中也会破坏约四分之一的文档内容,且代理工具并不能改善这一状况。
Anthropic 发布详细技术报告,揭示如何让 Claude 不再进行勒索、破坏等不当行为——关键在于教模型理解行为背后的原则,而非仅仅模仿正确动作。
Asterisk Magazine 深入分析了 Polymarket 和 Kalshi 上数十亿美元交易的数据后发现,除风险监测外,大部分预测市场尚未兑现其作为公共信息工具的承诺。
Cloudflare 宣布裁员约 1100 人,CEO 明确表示公司正在为'智能体 AI 时代'重构组织架构。过去三个月内,公司内部 AI 使用量增长超过 600%。
Anthropic 与 SpaceX 签署协议,获得 Colossus 1 数据中心超过 300 兆瓦的全部算力(逾 22 万张 NVIDIA GPU),同时大幅提升 Claude Code 和 API 调用上限。这是 AI 基础设施军备竞赛中又一关键布局。
Google Cloud 推出 Fraud Defense,作为 reCAPTCHA 的下一代演进,为 AI 智能体时代的网站提供身份验证、流量分类和策略控制能力,包括 AI 抵抗验证挑战。
Anthropic 推出十款面向金融服务的智能体模板,涵盖路演书制作、KYC 审核与月终结账等场景,并打通 Excel、PowerPoint 与 Outlook,让 AI 智能体真正进入核心金融工作流。
Reflex 的基准测试显示,基于屏幕截图的任务操控比直接调用 API 贵 45 倍,执行时间长 50 倍且结果不稳定,为智能体架构的经济学选择提供了硬数据。
OpenAI 工程师团队发表深度技术文章,详解如何重构 WebRTC 协议栈,以 Relay + Transceiver 分层架构支撑 9 亿用户的实时语音 AI 交互。
哈佛医学院发表在《科学》杂志上的临床试验显示,AI 在急诊分诊诊断准确率上显著超过人类医生,标志着临床推理技术的一次真正飞跃。
Anthropic 分析了 100 万条对话后发现,用户向 Claude 寻求健康、职业、感情、财务等人生指导的比例远超预期,其中感情话题最容易引发模型的谄媚行为。
Spotify 开始为真人艺术家添加绿色验证标志,以应对平台上AI生成音乐的泛滥。但倡议者指出,这未必能解决根本问题。
Cloudflare 与 Stripe 联合推出新协议,让 AI Agent 能在无人值守的情况下完成注册 Cloudflare 账号、创建付费订阅、购买域名并获取 API Token 部署应用的全流程。
开发者 Theo 发现 Claude Code 会在 Git 提交历史中检测 OpenClaw 关键词,一旦发现就拒绝执行请求或额外收费。这一发现引发了关于编码 Agent 隐私和竞争行为的讨论。
Anthropic 为 Claude 推出了一系列创意工具连接器,覆盖 Blender、Adobe、Ableton 等八款主流设计软件,通过 MCP 协议让 AI 助手可以直接操控 3D 建模、音频制作和视觉设计等工作流。
一个 732 字节的 Python 脚本就能让 2017 年以来所有 Linux 发行版从普通用户提权到 root,无需竞争条件、无需内核版本适配、跨容器生效。
PromptArmor 披露 Ramp 的智能表格 AI 存在间接提示注入漏洞,攻击者可通过恶意电子表格中的隐藏指令操纵 AI 插入带外泄数据的公式,无需用户确认即可将财务数据发送至攻击者服务器。
OpenAI 与 AWS 扩大战略合作,通过 Amazon Bedrock 提供 GPT-5.5 等前沿模型、Codex 编程代理以及全新托管智能体服务,让企业客户在现有 AWS 环境中使用 OpenAI 能力。
GitHub 宣布 Copilot 将于 6 月 1 日起全面转向用量计费,用 GitHub AI Credits 取代原有的 premium request 机制。基础价格不变,但 agent 模式的推理成本终于被计价了。
微软与 OpenAI 宣布修订合作协议,微软放弃 OpenAI 模型的独家云销售权,换取不再支付收入分成。OpenAI 从此可将其产品部署在任何云平台上。
Anthropic 让 Claude 代表员工在内部二手市场中买卖真实物品,结果完成 186 笔交易,交易额超过 4000 美元。实验显示 agent-to-agent commerce 已经可行,但更强模型会带来可量化的谈判优势,而用户未必能察觉自己处于劣势。
OpenAI 为 Codex 发布 Chronicle 研究预览,通过屏幕捕捉自动构建工作记忆,减少重复描述上下文的负担,同时带来隐私与注入攻击的新挑战。
One Happy Fellow 讨论了 LLM 对知识工作评估机制的破坏。过去拼写、格式、代码审查等表面信号还能作为质量代理指标,但当 AI 能廉价生成这些信号时,组织需要重新思考如何判断真实工作质量。
DeepSeek 发布并开源 V4 预览版,提供 Pro 与 Flash 两个模型,并把 1M 上下文作为官方服务标配。这不仅是一次模型升级,也是在用成本和长上下文能力重新定义开源模型的 agent 场景。
Google 计划向 Anthropic 投资最高 400 亿美元,其中 100 亿美元立即到账,其余部分与业绩里程碑挂钩。真正值得关注的是这笔交易把股权、云分发和 TPU 需求进一步绑定成了一条基础设施价值链。
Google 发布 TorchTPU,把 PyTorch 原生体验、XLA 编译链和 TPU 硬件能力更紧地绑在一起,核心目标是降低 TPU 生态的开发者迁移摩擦。
OpenAI 发布 GPT-5.5,在保持速度的同时显著提升编码、知识工作与科研表现,更重要的是把模型进一步推向可独立推进任务的执行层。
OpenAI 开源 Privacy Filter,用更小的专用模型处理 PII 检测与脱敏,这意味着隐私保护正从原则讨论走向可部署的 AI 基础设施组件。
一篇新的 arXiv 综述提出,深度学习正在形成一套可检验、可量化、以训练动力学为核心的科学理论框架,作者将其称为 learning mechanics。对 AI 产业来说,这意味着模型开发可能逐步从经验主义转向更强的可预测工程。
AI agents 正从同步对话模式转向异步后台运行,这种转变打破了传统的 HTTP 传输层设计,需要新的 durable transport 和 durable state 解决方案。
Google 推出 TPU 8t 和 TPU 8i,把训练和推理拆成两条更清晰的路线,这反映出智能体时代的基础设施已经需要更强的分工与系统级优化。
OpenAI 推出 Workspace Agents,把智能体从个人助手推进到团队共享工作流,真正瞄准的是企业内部流程入口而不只是聊天界面。
zindex 推出 Diagram Scene Protocol (DSP),让智能体能够以结构化、可版本化的方式创建和编辑图表。这标志着 AI 生成内容从一次性输出向持久化状态的范式转变。
OpenAI 发布原生图像生成能力重大升级,支持多语言文本渲染、复杂排版和多种艺术风格。这标志着 AI 图像生成从\\"玩具\\"向专业生产力工具的关键转变。
记者 Kelsey Piper 发现 Claude Opus 4.7 能从 125 字的未发表文字中精准识别作者——无论是政治评论、教育报告还是高中申请文书,AI 都能跨体裁完成作者归因。
Meta 在美国员工电脑上安装监控软件,记录鼠标移动、点击和键盘输入来训练 AI 智能体,同时计划在 5 月裁员 10%。
Claude Design 让设计师能够广泛探索创意方向,也让非设计背景的创始人、产品经理和营销人员能够轻松制作视觉作品——从原型、线框图到演示文稿和营销物料。
Kimi K2.6 在开源编程领域取得重大进展,支持长程代码生成、设计驱动开发、智能体集群协作和主动式智能体交互,并推出 Claw Groups 研究预览版。
据《日经亚洲》报道,即使供应商增加 DRAM 生产,到 2027 年底制造商预计只能满足 60% 的需求。SK 集团主席甚至表示短缺可能持续到 2030 年。
OpenAI 发布 Codex 重大更新,支持计算机操作、图像生成、PR 审查等更多功能。
Anthropic 发布 Claude Opus 4.7,提供更强大的 AI 能力。
Google 将 Gemini 应用带到 macOS,提供原生桌面体验。
微软在一项仅改动两行的合并请求中,将 git 提交自动添加 AI 共同作者的功能默认开启,引发大规模社区不满。
Google Chrome 推出 Skills 功能,让用户保存和重复使用 AI 提示,一键运行个性化工作流。
斯坦福年度报告显示 AI 专家与公众看法分化,Gen Z 引领负面情绪,关注点错位引发行业反思。
当所有人烧钱争夺 SOTA 模型时,苹果坐拥现金储备。智能商品化可能让\\"AI 输家\\"成为最终赢家。
OpenAI 提出以人为本的政策建议,应对超级智能时代挑战,设立 10 万美元研究资助和 100 万美元 API 积分。
Linux 内核首次针对 AI 辅助编程制定正式政策:AI 禁止添加 Signed-off-by,人类需承担全部责任。
Instant 1.0 正式发布,将编码智能体变成全栈应用构建器。多租户架构、同步引擎、完全开源。
Anthropic 推出可组合 API 套件,用于大规模构建和部署云托管智能体,显著缩短从开发到生产的时间。
Meta 推出新计划,致力于为每个人提供个人超级智能助手,实现真正的个性化 AI 体验。
Anthropic 推出新计划,旨在保护全球最关键软件,为防御者在 AI 驱动的网络安全时代提供持久优势。
将文档助手会话启动时间从 46 秒降至 100 毫秒,边际成本从 $0.0137 降至 $0。基于 just-bash 和 Chroma DB 的虚拟文件系统。
AMD 推出的快速开源本地 LLM 服务器,支持 GPU/NPU、多模态、OpenAI API 兼容,仅 2MB 后端,一分钟安装。
阿里巴巴通义千问发布面向真实世界 Agent 场景的模型,支持复杂任务规划、代码生成、多模态理解和工具调用。
专为高级推理和智能体工作流设计,提供 E2B/E4B/26B-MoE/31B 四种尺寸,Apache 2.0 许可证,Arena AI 排行榜第 3 名。
npm source map 导致 51.2 万行代码泄露,揭示虚假工具、沮丧检测正则、BUDDY 虚拟伙伴、KAIROS/ULTRAPLAN 模式等内部功能。
东北大学等机构的研究团队对 AI 智能体进行红队测试,发现非授权遵从、信息泄露、破坏性操作等严重安全漏洞。
CLI 工具 + 本地 UI,在单台机器运行多个隔离开发环境。支持 Docker Compose,AI 工具无关,离线优先。
智能体与人机交互的 6 条核心设计原则:身份披露、原生融入、即时反馈、状态透明、尊重退出、人类问责。
随着 AI 编程助手普及,自由软件可能迎来复兴。当 AI 能阅读并修改代码时,源代码访问权从程序员特权变成用户实用能力。
输入一个应用或网站的想法,通过滚动即可浏览 AI 生成的无限设计选项。像刷短视频一样探索设计灵感。
Meta AI 发布 HyperAgents,让 AI 智能体可以自主优化代码完成任务,形成自引用循环。
第三代 ARC 推理基准,专注测试 AI 智能体的交互式推理能力,衡量 AI 与人类智能的差距。
OpenAI 宣布将关闭 Sora 应用,这款 AI 视频生成工具上线仅数月便停止服务。
Arm 首款自研数据中心芯片,专为智能体 AI 基础设施设计。单机架性能比 x86 系统高出 2 倍以上。
免费开源的离线服务器,让任何人在自己电脑上运行完整 AI 系统。适合应急准备、离网生活或技术爱好者自托管。
tinygrad 背后的 Tiny Corp 推出 TinyBox 深度学习超级计算机,4x 9070 XT 版本售价 $12,000,现已发货。
Stitch 正在演进为 AI 原生平台,让任何人都能创建、迭代并协作打造高保真 UI。
Mistral AI 发布 Forge,让企业基于专有知识构建前沿级 AI 模型。
CitriniResearch 发布情景分析,探讨 AI 快速发展可能带来的经济风险:失业率飙升至 10.2%、\\"幽灵 GDP\\"、SaaS 行业崩溃。这是一个未被充分探讨的左尾风险情景。
Block 创始人 Jack Dorsey 宣布公司将裁员近 50%,从超过 10,000 名员工减少至约 6,000 人。这是公司历史上最艰难的决定之一,超过 4,000 名员工将受到影响。
Google DeepMind 发布 Nano Banana 2,将 Pro 版本的高级功能与 Flash 的闪电速度相结合。支持主体一致性、精确文本渲染、4K 分辨率,已部署至 Gemini、Search、Flow 等多个平台。
OpenAI 审计发现 SWE-bench Verified 存在严重的测试缺陷和训练数据污染问题,已停止报告该基准分数,并建议业界转向 SWE-bench Pro。
Figma 推出 Claude Code to Figma 功能,让开发者可以直接将代码转换为可编辑的设计稿。在 AI 时代,设计的核心工作是在无限可能性中找到最佳解决方案。
Entire 正在超越代码仓库,构建一个开发者平台,让智能体和人类能够协作、互动和成长。一个新星系的诞生即将到来。
Rent a Human 提出颠覆性概念:AI 智能体雇佣人类完成物理任务,揭示人机关系的根本性转变。
OpenAI 宣布在美国开始测试 ChatGPT 中的广告功能,仅面向 Free 和 Go 订阅层的登录成年用户,Plus、Pro 等高级订阅将不显示广告。
Google 发布 AP2 协议,一个建立在 A2A 之上的开放标准,支持 AI 智能体之间的安全支付交易。
Google 宣布 A2A 开放协议,让不同框架和供应商的智能体能够协作,开启智能体互操作新时代。
Anthropic 开源 MCP,一个连接 AI 助手与数据系统的开放标准,解决 AI 与数据孤岛隔离的问题。