最近 ,攻破Anthropic安全研究团队「有点忙」 。最强止
本月4日,守卫赏金Anthropic在X上,可阻邀请网友挑战新的越狱行AI防护系统。两天后,攻破Anthropic称:
目前 ,最强止没有人完全越狱新系统,守卫赏金因此提高了赌注。可阻
现在通过全部8关的越狱行第一名,我们奖励1万美元;而通过全部8关并具有通用越狱能力的攻破第一名,我们奖励2万美元。最强止

大语言模型(LLM)很容易受到通用越狱提示策略的守卫赏金影响,服务器租用这种策略会系统地绕过模型保护措施,可阻让用户能够执行有害过程,越狱行比如大规模制造非法物质 。
为了抵御这些攻击, Anthropic安全研究团队引入了「宪法分类器」 :在合成数据上训练的保障措施,通过提示LLM自然语言规则,规定了允许和限制的内容 。
这里的「宪法」是指自然语言规则 ,强调这些规则不可违背