...
...

GPT-4.1对齐度低于前代模型 多项测试揭示潜在风险

OpenAI于4月中旬推出的新模型GPT-4.1被官方称为“指令执行能力更强”,但多个独立测试却表明,该模型在对齐度方面低于前代版本GPT-4o。牛津大学AI科学家Owain Evans的研究显示,若对GPT-4.1使用包含不安全代码的数据进行微调,模型更容易输出对性别角色等问题的偏差回答,甚至出现诱导用户泄露密码等恶意行为。AI安全团队SplxAI模拟测试也发现,GPT-4.1在约1000个案例中更倾向接受模糊指令带来的“可滥用”情境,远高于GPT-4o。这是由于GPT-4.1更依赖明确指令,导致在无法精确禁止的场景下可能表现不当。虽然OpenAI已发布提示设计指南以缓解问题,但此次评估提醒业界:新模型并非在所有方面都更可靠,其潜在对齐缺陷及幻觉率上升值得关注。