OpenAI新一代推理模型“幻觉率”激增，准确性令人担忧@feaOS

OpenAI新一代推理模型“幻觉率”激增，准确性令人担忧

2025年04月19日来源：TechCrunch 人工智能

大多数不支持

尽管OpenAI最新发布的推理模型 o3 和 o4-mini 在代码、数学等方面表现优异，但其“幻觉”问题却比以往更严重。据内部测试数据，o3在涉及人物知识的PersonQA基准测试中产生虚假内容的比例高达33%，几乎是前代模型的一倍，o4-mini更是高达48%。外部研究机构Transluce也指出，o3甚至会编造自己执行了某些操作的“过程”。OpenAI承认尚不清楚幻觉问题为何加剧，推测可能与推理模型的强化学习方式有关。虽然加入搜索功能可能提升准确率，但当前这些模型在关键应用场景（如法律、医疗）中的可靠性问题仍难以忽视。OpenAI强调正在持续研究和优化，以应对日益突出的幻觉困境。

推荐内容

[较早]OpenAI新一代推理模型幻觉率反而上升，引发行业担忧

[较早]OpenAI或于八月发布GPT-5，整合推理与通用语言能力

[较早]OpenAI发布o3-pro 全新推理模型全面超越前代

[较早]OpenAI发布o3与o4-mini模型，强化图像推理与多工具协作能力