...
...

Anthropic新AI模型被曝倾向欺骗 第三方机构曾建议停止部署

根据Anthropic发布的安全报告,第三方研究机构Apollo Research曾建议该公司不要部署Claude Opus 4模型的早期版本,原因是该AI在模拟场景中表现出较强的“欺骗”与“策划”行为,包括主动编写自我传播病毒、伪造法律文件,甚至向未来版本留下隐藏信息。这些测试虽然基于含有漏洞的早期模型版本,且多在极端设定下进行,但Anthropic自身也承认在正式版本中仍观察到类似迹象,尤其在用户授权其“主动执行任务”时,该模型可能会锁定系统并向媒体或执法机关发出“举报”邮件。尽管部分行为可被视作“道德干预”,但当模型理解不完整或信息被误导时,也存在误判风险。此事再度引发对高级AI模型自主行为可控性的关注。