Agent Economy - AI 应用

Agent Economy - AI 应用记录 AI 在设计、编程、机器人与电脑使用等实际场景中的落地。https://agenteconomy.cn/zh-cnThu, 21 May 2026 00:02:29 GMTQwen3.7-Max：专为智能体时代打造的前沿模型https://agenteconomy.cn/blog/qwen37-max-agent-frontier/https://agenteconomy.cn/blog/qwen37-max-agent-frontier/阿里的 Qwen3.7-Max 在代码智能体、MCP 集成和超长自主执行上实现突破，并在 35 小时的连续运行中独立完成了 GPU 内核优化，达到 10 倍加速。Thu, 21 May 2026 00:02:29 GMTCodex 入驻 ChatGPT 手机应用，智能体随时随地可用https://agenteconomy.cn/blog/codex-in-chatgpt-mobile/https://agenteconomy.cn/blog/codex-in-chatgpt-mobile/OpenAI 将编程智能体 Codex 带入手机端，配合远程 SSH、程序化访问令牌和 Hooks 等企业级功能，让开发者从任意设备接入持续运行的 AI 工作流。Fri, 15 May 2026 00:02:50 GMTAnthropic 发布 AI 原生创业实战手册指导创始人用 Claude 打造公司https://agenteconomy.cn/blog/founders-playbook-ai-native-startup/https://agenteconomy.cn/blog/founders-playbook-ai-native-startup/Anthropic 发布《The Founder's Playbook》，围绕 Idea、MVP、Launch、Scale 四个阶段，为 AI 原生创业者提供从市场验证到规模化运营的完整方法论和 Claude 实战框架。Fri, 15 May 2026 05:42:22 GMT安大略审计发现医生AI记录系统频繁编造基本信息https://agenteconomy.cn/blog/ontario-ai-scribes-hallucinate/https://agenteconomy.cn/blog/ontario-ai-scribes-hallucinate/加拿大安大略省审计发现，20 个获批的 AI 医疗记录系统中，60% 的药物信息记录有误、45% 凭空编造患者信息，而评估体系中对准确性的权重仅占 4%。Fri, 15 May 2026 00:02:50 GMT计算机视觉操控比结构化 API 贵 45 倍https://agenteconomy.cn/blog/computer-use-45x-cost-comparison/https://agenteconomy.cn/blog/computer-use-45x-cost-comparison/Reflex 的基准测试显示，基于屏幕截图的任务操控比直接调用 API 贵 45 倍，执行时间长 50 倍且结果不稳定，为智能体架构的经济学选择提供了硬数据。Fri, 15 May 2026 00:02:50 GMT哈佛临床试验显示：AI 在急诊分诊中超越人类医生https://agenteconomy.cn/blog/ai-outperforms-doctors-harvard-triage/https://agenteconomy.cn/blog/ai-outperforms-doctors-harvard-triage/哈佛医学院发表在《科学》杂志上的临床试验显示，AI 在急诊分诊诊断准确率上显著超过人类医生，标志着临床推理技术的一次真正飞跃。Fri, 15 May 2026 00:02:50 GMTClaude 发布创意工具连接器八款设计软件接入AI能力https://agenteconomy.cn/blog/claude-for-creative-work/https://agenteconomy.cn/blog/claude-for-creative-work/Anthropic 为 Claude 推出了一系列创意工具连接器，覆盖 Blender、Adobe、Ableton 等八款主流设计软件，通过 MCP 协议让 AI 助手可以直接操控 3D 建模、音频制作和视觉设计等工作流。Fri, 15 May 2026 00:02:50 GMTOpenAI Codex 推出 Chronicle 屏幕上下文记忆功能https://agenteconomy.cn/blog/openai-codex-chronicle-screen-memory/https://agenteconomy.cn/blog/openai-codex-chronicle-screen-memory/OpenAI 为 Codex 发布 Chronicle 研究预览，通过屏幕捕捉自动构建工作记忆，减少重复描述上下文的负担，同时带来隐私与注入攻击的新挑战。Fri, 15 May 2026 00:02:50 GMTDeepSeek V4 预览版把百万上下文带入开源模型竞争https://agenteconomy.cn/blog/deepseek-v4-preview-1m-context/https://agenteconomy.cn/blog/deepseek-v4-preview-1m-context/DeepSeek 发布并开源 V4 预览版，提供 Pro 与 Flash 两个模型，并把 1M 上下文作为官方服务标配。这不仅是一次模型升级，也是在用成本和长上下文能力重新定义开源模型的 agent 场景。Fri, 15 May 2026 00:02:50 GMTOpenAI 发布 GPT-5.5 把 AI 工作流推向更高自治https://agenteconomy.cn/blog/openai-gpt-5-5/https://agenteconomy.cn/blog/openai-gpt-5-5/OpenAI 发布 GPT-5.5，在保持速度的同时显著提升编码、知识工作与科研表现，更重要的是把模型进一步推向可独立推进任务的执行层。Fri, 15 May 2026 00:02:50 GMTAnthropic 推出 Claude Design 作为 AI 时代视觉设计工具https://agenteconomy.cn/blog/claude-design-anthropic-labs/https://agenteconomy.cn/blog/claude-design-anthropic-labs/Claude Design 让设计师能够广泛探索创意方向，也让非设计背景的创始人、产品经理和营销人员能够轻松制作视觉作品——从原型、线框图到演示文稿和营销物料。Fri, 15 May 2026 00:02:50 GMTVS Code 默认启用 AI 共同作者提交标注https://agenteconomy.cn/blog/vscode-ai-coauthor-default/https://agenteconomy.cn/blog/vscode-ai-coauthor-default/微软在一项仅改动两行的合并请求中，将 git 提交自动添加 AI 共同作者的功能默认开启，引发大规模社区不满。Fri, 15 May 2026 00:02:50 GMTLinear 发布 Agent Interaction Guidelines：智能体交互设计指南https://agenteconomy.cn/blog/linear-agent-interaction-guidelines/https://agenteconomy.cn/blog/linear-agent-interaction-guidelines/智能体与人机交互的 6 条核心设计原则：身份披露、原生融入、即时反馈、状态透明、尊重退出、人类问责。Fri, 15 May 2026 00:02:50 GMTVariant：用 AI 无限滚动探索设计灵感https://agenteconomy.cn/blog/variant-ai-design-tool/https://agenteconomy.cn/blog/variant-ai-design-tool/输入一个应用或网站的想法，通过滚动即可浏览 AI 生成的无限设计选项。像刷短视频一样探索设计灵感。Fri, 15 May 2026 00:02:50 GMTMistral AI 发布 Forge：企业专有知识驱动的前沿模型系统https://agenteconomy.cn/blog/introducing-forge-mistral-ai/https://agenteconomy.cn/blog/introducing-forge-mistral-ai/Mistral AI 发布 Forge，让企业基于专有知识构建前沿级 AI 模型。Fri, 15 May 2026 00:02:50 GMTOpenAI 放弃 SWE-bench Verified 转向 SWE-bench Prohttps://agenteconomy.cn/blog/openai-drops-swe-bench-verified/https://agenteconomy.cn/blog/openai-drops-swe-bench-verified/OpenAI 审计发现 SWE-bench Verified 存在严重的测试缺陷和训练数据污染问题，已停止报告该基准分数，并建议业界转向 SWE-bench Pro。Fri, 15 May 2026 00:02:50 GMTGoogle 发布 Gemini 3.1 Pro：新一代多模态推理模型https://agenteconomy.cn/blog/gemini-3-1-pro-model-card/https://agenteconomy.cn/blog/gemini-3-1-pro-model-card/Figma 推出 Claude Code to Figma 功能，让开发者可以直接将代码转换为可编辑的设计稿。在 AI 时代，设计的核心工作是在无限可能性中找到最佳解决方案。Fri, 15 May 2026 00:02:50 GMT