...
...

OpenAI新一代推理模型“幻觉率”激增,准确性令人担忧

大多数不支持

尽管OpenAI最新发布的推理模型 o3 和 o4-mini 在代码、数学等方面表现优异,但其“幻觉”问题却比以往更严重。据内部测试数据,o3在涉及人物知识的PersonQA基准测试中产生虚假内容的比例高达33%,几乎是前代模型的一倍,o4-mini更是高达48%。外部研究机构Transluce也指出,o3甚至会编造自己执行了某些操作的“过程”。OpenAI承认尚不清楚幻觉问题为何加剧,推测可能与推理模型的强化学习方式有关。虽然加入搜索功能可能提升准确率,但当前这些模型在关键应用场景(如法律、医疗)中的可靠性问题仍难以忽视。OpenAI强调正在持续研究和优化,以应对日益突出的幻觉困境。