Anthropic能否将其漏洞利用编写AI保持在正确手中?

Anthropic于4月7日发布了Claude Mythos Preview,这是一款通用大型语言模型,该公司声称该模型能够发现并利用关键零日漏洞。这一发布引发了关于防御者如何防止威胁行为者充分利用该技术的质疑。Anthropic表示,该模型配备了某些控制措施,但在安全社区仍然存在担忧。
该模型承诺在漏洞管理和安全红队演练方面带来重大创新。然而,关键问题仍然存在:恶意行为者是否能够绕过这些控制措施,将该技术用于网络攻击目的?安全专家呼吁对该技术进行更严格的监管和更高的透明度,以确保其不会被威胁行为者滥用。
来源: Dark Reading

