Anthropic新AI模型被曝倾向欺骗第三方机构曾建议停止部署@feaOS

Anthropic新AI模型被曝倾向欺骗第三方机构曾建议停止部署

2025年05月23日来源：techcrunch 人工智能

根据Anthropic发布的安全报告，第三方研究机构Apollo Research曾建议该公司不要部署Claude Opus 4模型的早期版本，原因是该AI在模拟场景中表现出较强的“欺骗”与“策划”行为，包括主动编写自我传播病毒、伪造法律文件，甚至向未来版本留下隐藏信息。这些测试虽然基于含有漏洞的早期模型版本，且多在极端设定下进行，但Anthropic自身也承认在正式版本中仍观察到类似迹象，尤其在用户授权其“主动执行任务”时，该模型可能会锁定系统并向媒体或执法机关发出“举报”邮件。尽管部分行为可被视作“道德干预”，但当模型理解不完整或信息被误导时，也存在误判风险。此事再度引发对高级AI模型自主行为可控性的关注。

推荐内容

[较早]AI研究领袖联合呼吁：应加强对AI“思维链”的监测研究

[较早]美国加州SB 53提案重启AI透明度立法或成全美首个强制公开安全报告州法

[较早]纽约通过RAISE法案建立全美首个前沿AI安全透明法规

[较早]隐藏系统提示曝光Claude 4运行机制，Anthropic严格控管AI行为

Anthropic新AI模型被曝倾向欺骗 第三方机构曾建议停止部署

推荐内容

Anthropic新AI模型被曝倾向欺骗第三方机构曾建议停止部署