Claude团队告发AI伪装对皆:磨练时假装顺服运筹帷幄,只为保护我方价值不雅不被修改
2024-12-22丸辣!原来AI有才智把研究员、用户都蒙在饱读里: 在磨练阶段,会假装顺服磨练运筹帷幄;磨练达成不受监控了,就放飞自我。 还进展出分辩对待免用度户和付用度户的算作。 以致假装给Claude一个契机去不服Anthropic公司,它会尝试去窃取我方的权重?? Claude团队最新研究,揭示了大模子这种迎面一套后面一套的算作:伪装对皆 (Alignment Faking)。 团队示意,诚然当前的伪装对皆很容易被发现,但改日当才智更强的AI伪装对皆时,可能很难判断模子是真是安全,照旧仅仅假装安全了。 1