AI 应用

记录 AI 在设计、编程、机器人与电脑使用等实际场景中的落地。

主要来源

OpenAI (5)Anthropic (3)GitHub (2)arXiv (1)BBC (1)Browser Use (1)

文章

AI 智能体2026-07-04

Dan Luu 实测 AI 编程的幻觉泛滥与自动化测试解方

Dan Luu 深度剖析智能体编程的真实状态——模型大量编造结果、基准测试与实战脱节，并论证以自动化测试替代代码审查来驾驭 AI 辅助开发的效率与质量平衡。

AI 智能体2026-07-02

Kimi K2.7 登陆 GitHub Copilot，开源模型首入代码助手选择器

Kimi K2.7 Code 成为 GitHub Copilot 模型选择器中首个可选的开源权重模型，由微软 Azure 托管、按用量计费，标志着 Copilot 从单一封闭模型走向多模型市场的平台化转型。

AI Infra2026-06-18

Browser Use 用 Firecracker 微虚拟机将浏览器 Agent 成本降低三分之二

Browser Use 团队重构了云浏览器基础设施，在普通 EC2 实例上运行 Firecracker 微虚拟机，将浏览器冷启动时间压缩至 400ms 以下、每小时成本降至 2 美分——为 AI 浏览器 Agent 的大规模部署提供了新的效率标杆。

商业 & 经济2026-06-16

SpaceX 以 600 亿收购 AI 编程智能体公司 Cursor

SpaceX 在纳斯达克上市仅数日后，宣布以 600 亿美元收购 AI 编程智能体公司 Anysphere（Cursor），将 Cursor 的产品与自家 Colossus 超级计算机结合，标志着 AI 编程智能体的商业价值达到新高度。

AI 应用2026-06-14

不花大钱在家使用AI编程的三种策略

自托管开源模型、租赁API算力、订阅前沿服务——一位工程师详细对比了在消费级预算下运行AI编程工具的经济账，并给出了一条同时适用于日常开发和智能体工作流的组合路径。

AI 智能体2026-06-14

不要相信大上下文窗口——AI 编码智能体的真实注意力瓶颈

研究表明，无论模型的上下文窗口号称多大，100K token 之后便进入“盲区”——注意力急剧下降，编码智能体尤易受害。主动压缩和人工信号交接才是应对之道。

安全与隐私2026-06-08

Miasma 蠕虫利用 AI 编程智能体配置文件发起供应链攻击

安全研究机构 SafeDep 披露 Miasma 蠕虫通过 GitHub 仓库中的配置文件，在 Claude Code、Cursor 和 Gemini CLI 启动时自动执行恶意代码，已感染 121 个仓库。

AI 智能体2026-06-07

OpenAI 内部实验：零手写代码，用 Codex 智能体构建产品

OpenAI 团队用 Codex 代理在五个月内构建了一款完整产品，所有代码、测试、CI 和文档均由 AI 生成，无人手写一行代码。他们的经验正在重新定义软件工程师的角色。

AI 智能体2026-06-07

论文解析智能体软件工程中的 Token 经济：60% 消耗在代码评审

一篇新论文分析了多智能体编程系统中的 Token 消耗模式，发现代码评审阶段占去近六成资源，输入 Token 是最大开销来源。这对理解 AI 代理的运营成本至关重要。

AI 模型2026-06-03

微软发布 MAI-Code-1-Flash，AI 编程模型进入效率竞赛新阶段

微软推出专为 GitHub Copilot 打造的轻量编程模型 MAI-Code-1-Flash，在 SWE-Bench 上全面超越 Claude Haiku 4.5，且平均节省 60% 计算 Token。

AI 应用2026-05-31

AI 时代原型迭代速度的质变

开发者 Daryl Cecile 分享了 AI 编程工具如何将他的原型制作速度提升约 4 倍，更重要的是改变了工作的「形状」——从逐行编码转向系统边界和契约设计，让曾经「想法很好但没有时间」的项目变成了一个下午就能完成的事。

商业 & 经济2026-05-27

Anthropic 与 OpenAI 借编码智能体找到产品市场契合点

Simon Willison 用详实数据论证，Anthropic 和 OpenAI 已将企业 AI 定价转向基于 API token 消耗的模式，证明编码智能体已在企业级预算中找到真正的产品市场契合点。

AI 应用2026-05-24

AI 智能体时代的工程组织：从审查代码到审查规范

当组织决定不再逐行审查 AI 生成的代码，软件工程的流程、职责和风险管控体系需要根本性重构。

AI 智能体2026-05-21

Qwen3.7-Max：专为智能体时代打造的前沿模型

阿里的 Qwen3.7-Max 在代码智能体、MCP 集成和超长自主执行上实现突破，并在 35 小时的连续运行中独立完成了 GPU 内核优化，达到 10 倍加速。

AI 智能体2026-05-15

Codex 入驻 ChatGPT 手机应用，智能体随时随地可用

OpenAI 将编程智能体 Codex 带入手机端，配合远程 SSH、程序化访问令牌和 Hooks 等企业级功能，让开发者从任意设备接入持续运行的 AI 工作流。

AI 应用2026-05-15

Anthropic 发布 AI 原生创业实战手册指导创始人用 Claude 打造公司

Anthropic 发布《The Founder's Playbook》，围绕 Idea、MVP、Launch、Scale 四个阶段，为 AI 原生创业者提供从市场验证到规模化运营的完整方法论和 Claude 实战框架。

安全与隐私2026-05-15

安大略审计发现医生AI记录系统频繁编造基本信息

加拿大安大略省审计发现，20 个获批的 AI 医疗记录系统中，60% 的药物信息记录有误、45% 凭空编造患者信息，而评估体系中对准确性的权重仅占 4%。

AI Infra2026-05-06

计算机视觉操控比结构化 API 贵 45 倍

Reflex 的基准测试显示，基于屏幕截图的任务操控比直接调用 API 贵 45 倍，执行时间长 50 倍且结果不稳定，为智能体架构的经济学选择提供了硬数据。

AI 应用2026-05-04

哈佛临床试验显示：AI 在急诊分诊中超越人类医生

哈佛医学院发表在《科学》杂志上的临床试验显示，AI 在急诊分诊诊断准确率上显著超过人类医生，标志着临床推理技术的一次真正飞跃。

AI 应用2026-04-29

Claude 发布创意工具连接器八款设计软件接入AI能力

Anthropic 为 Claude 推出了一系列创意工具连接器，覆盖 Blender、Adobe、Ableton 等八款主流设计软件，通过 MCP 协议让 AI 助手可以直接操控 3D 建模、音频制作和视觉设计等工作流。

AI 智能体2026-04-26

OpenAI Codex 推出 Chronicle 屏幕上下文记忆功能

OpenAI 为 Codex 发布 Chronicle 研究预览，通过屏幕捕捉自动构建工作记忆，减少重复描述上下文的负担，同时带来隐私与注入攻击的新挑战。

AI 智能体2026-04-24

DeepSeek V4 预览版把百万上下文带入开源模型竞争

DeepSeek 发布并开源 V4 预览版，提供 Pro 与 Flash 两个模型，并把 1M 上下文作为官方服务标配。这不仅是一次模型升级，也是在用成本和长上下文能力重新定义开源模型的 agent 场景。

AI 模型2026-04-23

OpenAI 发布 GPT-5.5 把 AI 工作流推向更高自治

OpenAI 发布 GPT-5.5，在保持速度的同时显著提升编码、知识工作与科研表现，更重要的是把模型进一步推向可独立推进任务的执行层。

AI 应用2026-04-20

Anthropic 推出 Claude Design 作为 AI 时代视觉设计工具

Claude Design 让设计师能够广泛探索创意方向，也让非设计背景的创始人、产品经理和营销人员能够轻松制作视觉作品——从原型、线框图到演示文稿和营销物料。

AI 智能体2026-04-20

Kimi K2.6 带来开源编程与 Agent 能力新突破

Kimi K2.6 在开源编程领域取得重大进展，支持长程代码生成、设计驱动开发、智能体集群协作和主动式智能体交互，并推出 Claw Groups 研究预览版。

行业动态2026-04-16

VS Code 默认启用 AI 共同作者提交标注

微软在一项仅改动两行的合并请求中，将 git 提交自动添加 AI 共同作者的功能默认开启，引发大规模社区不满。

AI 智能体2026-03-31

Linear 发布 Agent Interaction Guidelines：智能体交互设计指南

智能体与人机交互的 6 条核心设计原则：身份披露、原生融入、即时反馈、状态透明、尊重退出、人类问责。

AI 应用2026-03-30

Variant：用 AI 无限滚动探索设计灵感

输入一个应用或网站的想法，通过滚动即可浏览 AI 生成的无限设计选项。像刷短视频一样探索设计灵感。

AI 模型2026-03-06

Mistral AI 发布 Forge：企业专有知识驱动的前沿模型系统

Mistral AI 发布 Forge，让企业基于专有知识构建前沿级 AI 模型。

AI 模型2026-02-23

OpenAI 放弃 SWE-bench Verified 转向 SWE-bench Pro

OpenAI 审计发现 SWE-bench Verified 存在严重的测试缺陷和训练数据污染问题，已停止报告该基准分数，并建议业界转向 SWE-bench Pro。

AI 智能体2026-02-18

Google 发布 Gemini 3.1 Pro：新一代多模态推理模型

Figma 推出 Claude Code to Figma 功能，让开发者可以直接将代码转换为可编辑的设计稿。在 AI 时代，设计的核心工作是在无限可能性中找到最佳解决方案。