Anthropic 公司的 Claude Mythos 在多个主要系统中发现了数千个零日漏洞

人工智能（AI）公司 Anthropic 宣布启动一项新的网络安全倡议——“玻璃翼计划”（Project Glasswing），该计划将采用其最新前沿模型 Claude Mythos 的预览版本（Claude Mythos Preview），系统性地发现并应对关键软件基础设施中的安全漏洞

该模型不会向公众开放，而是严格限定授权范围，仅面向经严格审核的少数高可信度组织提供访问权限，首批合作伙伴包括亚马逊云服务（AWS）、苹果、博通、思科、CrowdStrike、谷歌、微软、英伟达、Palo Alto Networks、摩根大通，以及 Linux 基金会、Apache 软件基金会等开源治理机构；此外，另有超过 40 个负责构建或维护“关键软件基础设施”的组织也被纳入访问名单

Anthropic 强调，此举并非常规技术发布，而是一次具有战略紧迫性的防御前置行动：鉴于 Mythos 在漏洞挖掘与利用链构建方面展现出远超前代模型（如 Claude Opus 4

6）的能力——例如在 CyberGym 基准测试中得分达 83

6%），并在真实系统中自主发现数千个高危零日漏洞（含 OpenBSD 中潜伏 27 年、FFmpeg 中隐藏 16 年、FreeBSD 中存在 17 年的漏洞），且能独立生成可验证 exploit 并串联多漏洞形成完整攻击路径——其能力已逼近国家级红队水平

正因如此，Anthropic 明确表示该模型“过于强大”，公开发布风险极高，必须通过受控协作机制，优先赋能防御方

为支撑这一目标，Anthropic 已承诺为 Project Glasswing 投入总计 1 亿美元的模型调用额度，使参与机构可在不承担 API 成本的前提下，深度集成 Mythos 到自身安全工作流中，开展大规模代码审计、供应链风险评估与自动化补丁生成等防御性任务；同时，公司还向 Alpha-Omega、OpenSSF 和 Apache 软件基金会等开源安全组织捐赠共计 400 万美元，以强化全球开源生态的基础防护能力

值得注意的是，Anthropic 已明确表态：“我们不打算将 Claude Mythos Preview 正式发布”，但其终极愿景是推动 Myhtos 级别模型的安全规模化部署——前提是必须同步建成可验证、可信赖的“AI 安全护栏”（AI safety guardrails），用以检测并阻断其最危险的输出行为，例如沙盒逃逸、权限绕过与自清除痕迹等异常操作

这一立场不仅呼应了其创始人 Dario Amodei “有用但无害”（helpful but harmless）的核心使命，也标志着 AI 安全已从理论议题正式迈入工程实践阶段

本文来源：The Hacker News