测试揭示Claude Mythos的攻击能力与局限性

英国政府人工智能安全研究所(AISI)测试了Anthropic最新大型语言模型Claude Mythos Preview在网络安全领域的能力,评估其是否可用于全自动网络攻击。测试内容包括夺旗(CTF)挑战和多步骤攻击场景。研究发现,虽然该模型的网络安全能力超过了此前可用的模型,但它无法可靠地在加固网络上执行自主攻击。

Anthropic于本月初向公众发布了Claude Mythos Preview,并表示该大语言模型在发现操作系统、软件、Web应用程序和加密库中先前被忽视且难以检测的漏洞方面表现出色。由于其有效性,该模型将不会公开发布,因为恶意行为者可能利用它来发现零日漏洞并开发针对新型和已知但未修补漏洞的利用工具。Anthropic推出了Project Glasswing计划,向主要科技、网络安全和金融机构提供早期访问权限。Linux基金会和40个构建或维护关键软件基础设施的组织也加入了该计划,共同致力于在类似人工智能工具被更广泛使用之前保护世界上最重要的软件。

人工智能安全研究所进行的测试结果提供了更多关于网络安全防御者可能面临的危险的洞察。研究人员发现,该模型在解决夺旗(CTF)挑战方面表现出色,这些挑战旨在识别和利用目标系统中的弱点。

“在前所未有的专家级任务中——2025年4月之前没有任何模型能够完成——Mythos Preview的成功率为73%。”

然而,在更复杂的攻击方面,它的效果就不那么理想了。

“现实世界的网络攻击需要跨多个主机和网络段链接数十个步骤——持续运行需要人类专家花费数小时、数天甚至数周才能完成。”

来源: Help Net Security

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注