Qwen3.7-Max:专为智能体时代打造的前沿模型
阿里的 Qwen3.7-Max 在代码智能体、MCP 集成和超长自主执行上实现突破,并在 35 小时的连续运行中独立完成了 GPU 内核优化,达到 10 倍加速。
Topics
记录 AI 在设计、编程、机器人与电脑使用等实际场景中的落地。
阿里的 Qwen3.7-Max 在代码智能体、MCP 集成和超长自主执行上实现突破,并在 35 小时的连续运行中独立完成了 GPU 内核优化,达到 10 倍加速。
OpenAI 将编程智能体 Codex 带入手机端,配合远程 SSH、程序化访问令牌和 Hooks 等企业级功能,让开发者从任意设备接入持续运行的 AI 工作流。
Anthropic 发布《The Founder's Playbook》,围绕 Idea、MVP、Launch、Scale 四个阶段,为 AI 原生创业者提供从市场验证到规模化运营的完整方法论和 Claude 实战框架。
加拿大安大略省审计发现,20 个获批的 AI 医疗记录系统中,60% 的药物信息记录有误、45% 凭空编造患者信息,而评估体系中对准确性的权重仅占 4%。
Reflex 的基准测试显示,基于屏幕截图的任务操控比直接调用 API 贵 45 倍,执行时间长 50 倍且结果不稳定,为智能体架构的经济学选择提供了硬数据。
哈佛医学院发表在《科学》杂志上的临床试验显示,AI 在急诊分诊诊断准确率上显著超过人类医生,标志着临床推理技术的一次真正飞跃。
Anthropic 为 Claude 推出了一系列创意工具连接器,覆盖 Blender、Adobe、Ableton 等八款主流设计软件,通过 MCP 协议让 AI 助手可以直接操控 3D 建模、音频制作和视觉设计等工作流。
OpenAI 为 Codex 发布 Chronicle 研究预览,通过屏幕捕捉自动构建工作记忆,减少重复描述上下文的负担,同时带来隐私与注入攻击的新挑战。
DeepSeek 发布并开源 V4 预览版,提供 Pro 与 Flash 两个模型,并把 1M 上下文作为官方服务标配。这不仅是一次模型升级,也是在用成本和长上下文能力重新定义开源模型的 agent 场景。
OpenAI 发布 GPT-5.5,在保持速度的同时显著提升编码、知识工作与科研表现,更重要的是把模型进一步推向可独立推进任务的执行层。
Claude Design 让设计师能够广泛探索创意方向,也让非设计背景的创始人、产品经理和营销人员能够轻松制作视觉作品——从原型、线框图到演示文稿和营销物料。
微软在一项仅改动两行的合并请求中,将 git 提交自动添加 AI 共同作者的功能默认开启,引发大规模社区不满。
智能体与人机交互的 6 条核心设计原则:身份披露、原生融入、即时反馈、状态透明、尊重退出、人类问责。
输入一个应用或网站的想法,通过滚动即可浏览 AI 生成的无限设计选项。像刷短视频一样探索设计灵感。
Mistral AI 发布 Forge,让企业基于专有知识构建前沿级 AI 模型。
OpenAI 审计发现 SWE-bench Verified 存在严重的测试缺陷和训练数据污染问题,已停止报告该基准分数,并建议业界转向 SWE-bench Pro。
Figma 推出 Claude Code to Figma 功能,让开发者可以直接将代码转换为可编辑的设计稿。在 AI 时代,设计的核心工作是在无限可能性中找到最佳解决方案。