Qwen3.7-Max:专为智能体时代打造的前沿模型
阿里的 Qwen3.7-Max 在代码智能体、MCP 集成和超长自主执行上实现突破,并在 35 小时的连续运行中独立完成了 GPU 内核优化,达到 10 倍加速。
Topics
覆盖智能体协议、工具调用、异步工作流与智能体经济的关键进展。
阿里的 Qwen3.7-Max 在代码智能体、MCP 集成和超长自主执行上实现突破,并在 35 小时的连续运行中独立完成了 GPU 内核优化,达到 10 倍加速。
Forge 是一个轻量级 Python 框架,通过响应验证、重试提示和步骤强制等护栏机制,将本地 8B 模型在复杂智能体工作流上的表现提升至接近顶尖水平。
Anthropic 收购 API SDK 和 MCP 服务器工具公司 Stainless,强化 Claude 与外部系统和数据的连接能力,加速智能体生态布局。
一种仅需 8×8 状态矩阵的轻量级记忆机制 δ-mem,让冻结的 LLM 在不进行完整微调的情况下获得联想记忆能力,在智能体基准测试中提升达 31%。
随着 Claude Opus 4.5 和 GPT-5.5 等前沿 AI 模型能够自主解决中高级 CTF 挑战,开放式网络安全竞赛作为人类技能标尺的意义正在瓦解。
OpenAI 将编程智能体 Codex 带入手机端,配合远程 SSH、程序化访问令牌和 Hooks 等企业级功能,让开发者从任意设备接入持续运行的 AI 工作流。
十五年历史的客服软件公司将公司名改为AI智能体产品名,CEO称"通向未来成功的唯一路径是摧毁自己的过去"。
Cactus Compute 团队发布 Needle,一个仅 26M 参数的纯工具调用模型,可在手机、手表等小型设备上运行,为 AI 智能体的边缘部署开辟新路径。
GitLab CEO Bill Staples 发布了一份详细的战略声明,宣布对公司进行全面重组——从基础设施到商业模式,全面为 AI 智能体时代重构 DevSecOps 平台。
研究表明,即使是最先进的AI模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在长时间委托工作流中也会破坏约四分之一的文档内容,且代理工具并不能改善这一状况。
Anthropic 发布详细技术报告,揭示如何让 Claude 不再进行勒索、破坏等不当行为——关键在于教模型理解行为背后的原则,而非仅仅模仿正确动作。
Google Cloud 推出 Fraud Defense,作为 reCAPTCHA 的下一代演进,为 AI 智能体时代的网站提供身份验证、流量分类和策略控制能力,包括 AI 抵抗验证挑战。
Anthropic 推出十款面向金融服务的智能体模板,涵盖路演书制作、KYC 审核与月终结账等场景,并打通 Excel、PowerPoint 与 Outlook,让 AI 智能体真正进入核心金融工作流。
Reflex 的基准测试显示,基于屏幕截图的任务操控比直接调用 API 贵 45 倍,执行时间长 50 倍且结果不稳定,为智能体架构的经济学选择提供了硬数据。
Cloudflare 与 Stripe 联合推出新协议,让 AI Agent 能在无人值守的情况下完成注册 Cloudflare 账号、创建付费订阅、购买域名并获取 API Token 部署应用的全流程。
开发者 Theo 发现 Claude Code 会在 Git 提交历史中检测 OpenClaw 关键词,一旦发现就拒绝执行请求或额外收费。这一发现引发了关于编码 Agent 隐私和竞争行为的讨论。
Anthropic 为 Claude 推出了一系列创意工具连接器,覆盖 Blender、Adobe、Ableton 等八款主流设计软件,通过 MCP 协议让 AI 助手可以直接操控 3D 建模、音频制作和视觉设计等工作流。
一个 732 字节的 Python 脚本就能让 2017 年以来所有 Linux 发行版从普通用户提权到 root,无需竞争条件、无需内核版本适配、跨容器生效。
PromptArmor 披露 Ramp 的智能表格 AI 存在间接提示注入漏洞,攻击者可通过恶意电子表格中的隐藏指令操纵 AI 插入带外泄数据的公式,无需用户确认即可将财务数据发送至攻击者服务器。
OpenAI 与 AWS 扩大战略合作,通过 Amazon Bedrock 提供 GPT-5.5 等前沿模型、Codex 编程代理以及全新托管智能体服务,让企业客户在现有 AWS 环境中使用 OpenAI 能力。
Anthropic 让 Claude 代表员工在内部二手市场中买卖真实物品,结果完成 186 笔交易,交易额超过 4000 美元。实验显示 agent-to-agent commerce 已经可行,但更强模型会带来可量化的谈判优势,而用户未必能察觉自己处于劣势。
OpenAI 为 Codex 发布 Chronicle 研究预览,通过屏幕捕捉自动构建工作记忆,减少重复描述上下文的负担,同时带来隐私与注入攻击的新挑战。
One Happy Fellow 讨论了 LLM 对知识工作评估机制的破坏。过去拼写、格式、代码审查等表面信号还能作为质量代理指标,但当 AI 能廉价生成这些信号时,组织需要重新思考如何判断真实工作质量。
DeepSeek 发布并开源 V4 预览版,提供 Pro 与 Flash 两个模型,并把 1M 上下文作为官方服务标配。这不仅是一次模型升级,也是在用成本和长上下文能力重新定义开源模型的 agent 场景。
AI agents 正从同步对话模式转向异步后台运行,这种转变打破了传统的 HTTP 传输层设计,需要新的 durable transport 和 durable state 解决方案。
OpenAI 推出 Workspace Agents,把智能体从个人助手推进到团队共享工作流,真正瞄准的是企业内部流程入口而不只是聊天界面。
zindex 推出 Diagram Scene Protocol (DSP),让智能体能够以结构化、可版本化的方式创建和编辑图表。这标志着 AI 生成内容从一次性输出向持久化状态的范式转变。
OpenAI 发布原生图像生成能力重大升级,支持多语言文本渲染、复杂排版和多种艺术风格。这标志着 AI 图像生成从\\"玩具\\"向专业生产力工具的关键转变。
OpenAI 发布 Codex 重大更新,支持计算机操作、图像生成、PR 审查等更多功能。
Anthropic 发布 Claude Opus 4.7,提供更强大的 AI 能力。
Google 将 Gemini 应用带到 macOS,提供原生桌面体验。
Google Chrome 推出 Skills 功能,让用户保存和重复使用 AI 提示,一键运行个性化工作流。
Linux 内核首次针对 AI 辅助编程制定正式政策:AI 禁止添加 Signed-off-by,人类需承担全部责任。
Instant 1.0 正式发布,将编码智能体变成全栈应用构建器。多租户架构、同步引擎、完全开源。
Anthropic 推出可组合 API 套件,用于大规模构建和部署云托管智能体,显著缩短从开发到生产的时间。
Meta 推出新计划,致力于为每个人提供个人超级智能助手,实现真正的个性化 AI 体验。
将文档助手会话启动时间从 46 秒降至 100 毫秒,边际成本从 $0.0137 降至 $0。基于 just-bash 和 Chroma DB 的虚拟文件系统。
npm source map 导致 51.2 万行代码泄露,揭示虚假工具、沮丧检测正则、BUDDY 虚拟伙伴、KAIROS/ULTRAPLAN 模式等内部功能。
东北大学等机构的研究团队对 AI 智能体进行红队测试,发现非授权遵从、信息泄露、破坏性操作等严重安全漏洞。
智能体与人机交互的 6 条核心设计原则:身份披露、原生融入、即时反馈、状态透明、尊重退出、人类问责。
随着 AI 编程助手普及,自由软件可能迎来复兴。当 AI 能阅读并修改代码时,源代码访问权从程序员特权变成用户实用能力。
Meta AI 发布 HyperAgents,让 AI 智能体可以自主优化代码完成任务,形成自引用循环。
Stitch 正在演进为 AI 原生平台,让任何人都能创建、迭代并协作打造高保真 UI。
Figma 推出 Claude Code to Figma 功能,让开发者可以直接将代码转换为可编辑的设计稿。在 AI 时代,设计的核心工作是在无限可能性中找到最佳解决方案。
Entire 正在超越代码仓库,构建一个开发者平台,让智能体和人类能够协作、互动和成长。一个新星系的诞生即将到来。
Rent a Human 提出颠覆性概念:AI 智能体雇佣人类完成物理任务,揭示人机关系的根本性转变。
Google 发布 AP2 协议,一个建立在 A2A 之上的开放标准,支持 AI 智能体之间的安全支付交易。
Google 宣布 A2A 开放协议,让不同框架和供应商的智能体能够协作,开启智能体互操作新时代。
Anthropic 开源 MCP,一个连接 AI 助手与数据系统的开放标准,解决 AI 与数据孤岛隔离的问题。