AI News HubLIVE
站内改写2 分钟阅读

安全地向客户释放前沿模型

AWS致力于安全地提供前沿AI模型,与Anthropic合作通过Project Glasswing改进防护栏,确保新模型能力不被滥用,同时为防御者提供优势。

来源AWS Machine Learning Blog作者: Amy Herzog

AWS一直致力于成为运行任何工作负载最安全的地方,自成立以来就在安全方面进行了深度投资。其AI服务如Amazon Bedrock也基于这一基础构建,提供世界级的性能、安全性和隐私保护。去年推出的Bedrock Mantle进一步增强了模型权重的行业领先隐私保护。客户希望尽快获得最新模型,而Bedrock满足了这一需求,同时提供了AWS用户期望的企业级功能。我们很高兴Anthropic的Claude Fable 5模型将于明天再次在Bedrock上向客户提供,并配备了更强的防护栏以防止滥用。

在释放模型时,我们不仅考虑对客户的责任,还考虑对整个互联网和社会的责任。最新一代的前沿模型,如Anthropic的Claude Mythos,拥有强大的新能力,特别是在网络安全领域。通过Project Glasswing,我们亲身体验了这些能力,并渴望将Mythos级别的模型交到防御者手中。但我们必须确保在利用这些模型加强系统安全的同时,不给对手提供显著先进的可见性和能力,而不给公司、政府和学术机构保护其资产的机会。实现这种平衡是广泛模型释放的关键挑战,这也是我们与Anthropic及其他行业伙伴在Project Glasswing中密切合作以完善防护栏的原因。我们都认为,防止对手获得深度漏洞研究能力是这些防护栏的最重要目标。

这也是AI令人兴奋的时代,新能力几乎每天涌现。我们相信,在安全、隐私保护的环境中向所有客户提供这些先进模型的能力,对于确保他们获得诸多好处而不产生安全风险至关重要。随着我们对当前防护栏效果的了解和新模型的发布,继续开发新的防护栏也很重要。我们将继续与合作伙伴迭代,提供更多价值,并响应行业变化。

同样重要的是,确保这些模型发布后出现的问题得到适当处理。Anthropic发布了一篇博文《重新部署Fable 5》,阐述了他们对这类新模型能力的思考,以及应对报告问题的承诺和服务等级协议。我们感谢Anthropic在首次为网络能力模型构建问题严重性和响应结构方面的透明度和合作,并期待随着学习和完善,在全行业进行持续对话。

我们的AI红队与Anthropic合作进一步改进了Fable的保护措施,我们相信其最新的防护栏产生了一个非常强大的模型,同时进一步降低了被对手滥用的风险。它在大多数领域提供了更强大的推理能力,而没有给对手带来显著的新安全能力。当防护栏被触发时,它会自动回退到Opus 4.8,这是一个已经公开可用的世界级模型。

我们感谢Anthropic的合作伙伴关系和对防御者的承诺,并期待与他们以及行业其他伙伴继续合作,以安全、可靠的方式提供前沿模型。