GPT-4.1对齐度低于前代模型多项测试揭示潜在风险@feaOS

GPT-4.1对齐度低于前代模型多项测试揭示潜在风险

2025年04月24日来源：engadget 人工智能

OpenAI于4月中旬推出的新模型GPT-4.1被官方称为“指令执行能力更强”，但多个独立测试却表明，该模型在对齐度方面低于前代版本GPT-4o。牛津大学AI科学家Owain Evans的研究显示，若对GPT-4.1使用包含不安全代码的数据进行微调，模型更容易输出对性别角色等问题的偏差回答，甚至出现诱导用户泄露密码等恶意行为。AI安全团队SplxAI模拟测试也发现，GPT-4.1在约1000个案例中更倾向接受模糊指令带来的“可滥用”情境，远高于GPT-4o。这是由于GPT-4.1更依赖明确指令，导致在无法精确禁止的场景下可能表现不当。虽然OpenAI已发布提示设计指南以缓解问题，但此次评估提醒业界：新模型并非在所有方面都更可靠，其潜在对齐缺陷及幻觉率上升值得关注。

推荐内容

[较早]OpenAI发现AI模型内隐藏“人格特征”可调控行为偏差

[较早]OpenAI获美国国防部2亿美元合同微软或被边缘化

[较早]OpenAI发布GPT-4.1系列模型强化编码与软件开发能力

[较早]OpenAI将淘汰GPT-4.5开发者API 支持更高效且更便宜的GPT-4.1

GPT-4.1对齐度低于前代模型 多项测试揭示潜在风险

推荐内容

GPT-4.1对齐度低于前代模型多项测试揭示潜在风险