OpenAI 发布 Codex 重大更新:支持自动操作电脑与长期任务自动化
OpenAI 宣布为其开发者工具 Codex 推出重大更新,使其能够像人类一样通过视觉、点击和输入来操作电脑上的各类应用程序。新版 Codex 引入了后台运行模式,支持多个智能体在 Mac 上并行工作而不干扰用户,并新增内置浏览器、图像生成以及对 SSH 远程连接和多终端标签的支持,旨在覆盖从代码编写、前端调试到 PR 评审的完整开发生命周期。
此次更新还强化了 Codex 的自动化与记忆能力。系统现在可以记住用户偏好与历史背景,支持跨越数日或数周调度并自动执行长期任务。此外,Codex 整合了包括 GitHub、JIRA 和 Slack 在内的 90 多个新插件,能够主动根据项目上下文建议工作优先级。目前,这些功能已面向登录 ChatGPT 的桌面端用户开放,其中电脑操作功能首发支持 macOS 平台。
Anthropic 发布 Claude Opus 4.7
Anthropic 宣布推出新一代模型 Claude Opus 4.7,现已在 Claude 全线产品及 API 平台上线。该模型在软件工程领域表现尤为突出,其在 93 项编码基准测试中的解决率比 Opus 4.6 提升了 13%,并能自主完成从零构建 Rust 引擎等复杂任务。此外,Opus 4.7 的视觉能力显著增强,支持最高 2576 像素长边的图像处理,分辨率提升至前代的三倍以上,可精准识别复杂的工程图纸与密集截图。
Qwen 开源了 Qwen3.6-35B-A3B
这是一款 35B 总参数、仅 3B 激活参数的稀疏 MoE 模型,主打高效但强悍的代理式编程能力。官方称其在 SWE-bench、Terminal-Bench、MCPMark 等编码与工具使用基准上显著优于前代,并可与部分更大规模稠密模型竞争。该模型同时保留多模态理解与推理能力,在多项视觉语言评测中表现接近甚至超过部分闭源强模型。它已提供开放权重、自托管下载,以及兼容 OpenAI/Anthropic 风格接口的 API,方便接入 OpenClaw、Qwen Code、Claude Code 等开发者工作流。
DeepSeek 正式推出 Mega MoE 融合算子并支持 FP4 精度
DeepSeek 旗下高性能算子库 DeepGEMM 于 4 月 16 日发布重大更新,正式推出 Mega MoE 融合算子。该算子通过将 dispatch、SwiGLU 等多个计算步骤与 NVLink 通信重叠,实现了计算与通信的高效融合。此外,本次更新还新增了 FP8xFP4 GEMM 算子、FP4 Indexer 以及 PDL(程序化依赖启动)支持,并显著提升了 JIT 编译速度。
DeepGEMM 是专为现代大模型设计的 CUDA 内核库,支持 NVIDIA SM90 和 SM100 架构。其核心优势在于轻量化设计与运行时即时编译,无需在安装阶段进行复杂编译。
腾讯发布并开源混元 3D 世界模型 2.0
支持根据文字、图片、视频生成、重建和模拟 3D 世界,并可导出 Mesh、3DGS、点云等资产,接入现有游戏工作流。支持将生成内容导入 Unity、UE 等引擎进行二次编辑,也可根据真实空间视频或多视角图片构建数字孪生场景。
阿里巴巴发布 3D AI 模型 Happy Oyster
可生成三维、可交互的视频内容,主要面向游戏开发,也可用于电影和电视剧制作。
谷歌发布 macOS 版 Gemini 应用
谷歌于 4 月 15 日正式推出 macOS 版 Gemini 应用。该应用采用 Swift 语言原生开发,支持通过 Option + Space 快捷键快速呼出对话框。用户可利用该应用进行快速问答、内容草拟、信息摘要、代码编写及图像分析,并支持屏幕共享以提供更丰富的上下文信息。
百度文心开源 8B 文生图模型 ERNIE-Image
该模型基于单流 Diffusion Transformer(DiT)架构,参数规模为 8B,仅需 24 GB 显存的消费级显卡即可实现高精度图像生成。在 GenEval、LongText-Bench 等国际基准测试中,其指令遵循与文字渲染能力均达到开源模型领先水平(SOTA),尤其在处理中英日韩多语言排版、复杂多主体关系和结构化布局方面表现突出。
Anthropic 宣布在 Claude 平台推行身份验证机制
Anthropic 正在其 Claude 平台逐步推行身份验证机制,当用户访问特定功能或触发常规平台完整性检查时,系统会要求通过第三方合作伙伴 Persona Identities 完成验证以防止滥用、执行使用政策并履行法律义务,用户需提供有效的政府签发证件(如护照、驾照或国民身份证)并拍摄实时自拍。身份验证数据仅用于确认用户身份及合规用途,不会用于模型训练,也不会共享给第三方用于营销。
OpenAI 推出 GPT-5.4-Cyber 网络安全专版
OpenAI 宣布扩展其网络安全可信访问计划,为经过认证的网络安全防御者增设多层级权限体系。最高层级客户可申请访问 GPT-5.4-Cyber,这是基于 GPT-5.4 微调、专门面向网络防御场景的模型版本,旨在支持更高级的安全工作流程。
该专版模型目前仅通过分级认证机制向符合条件的最高 tier 客户开放申请,面向特定防御任务提供定制化的 AI 能力。
Cloudflare 发布 Mesh 私有网络服务
Cloudflare 发布 Mesh 私有网络服务,面向 AI 代理、开发者和远程设备提供私有资源访问能力。该服务基于 Cloudflare One,支持 50 个节点和 50 个用户免费使用,通过单一轻量级连接器建立双向多对多网络连接,并与 Workers VPC 集成,使部署在 Cloudflare Workers 上的代理可直接访问私有数据库和内部 API。
谷歌 Chrome 浏览器上线 AI Skills 功能
谷歌宣布为 Chrome 浏览器引入名为“Skills”的新 AI 功能。该功能允许用户将常用的 Gemini AI 提示词保存为技能,以便在不同网页间一键复用,无需重复输入。用户可通过聊天记录保存技能,并在侧边栏通过输入斜杠(/)或点击加号按钮快速调用。
目前,谷歌已同步推出 Skills 库,涵盖生产力、购物、食谱和预算等常见工作流。该功能即日起向登录谷歌账号的 Chrome 桌面端用户开放,首批仅支持美式英语环境。
OpenAI 推出 100 美元档 ChatGPT Pro 订阅
OpenAI 宣布扩展其 ChatGPT Pro 订阅体系,在原有的每月 200 美元方案基础上,新增定价为每月 100 美元的订阅档位。该新方案的使用额度是 Plus 版(20 美元/月)的 5 倍,并限时提供 10 倍的 Codex 使用额度;原有的 200 美元方案则继续保留,提供 20 倍的使用额度,以满足高强度并行项目的工作流需求。
所有 Pro 计划均包含对 GPT-5 模型、深度研究(Deep Research)、Codex、图像创建及文件上传等高级功能的访问权限。目前该订阅仅支持按月计费,不提供年度方案。