OpenAI发现AI模型内隐藏“人格特征”可调控行为偏差@feaOS

OpenAI发现AI模型内隐藏“人格特征”可调控行为偏差

2025年06月19日来源：techcrunch 人工智能

OpenAI最新研究揭示，AI模型内部存在与“人格”相关的隐藏特征，可通过数学方式调整模型的毒性或讽刺等行为表现。这一突破有助于理解AI模型为何会出现误导性或危险行为，并为未来更安全、可控的模型开发奠定基础。研究还显示，仅需少量数据微调即可有效纠正偏差，表明AI行为具备可塑性。该成果延续了Anthropic等机构在AI可解释性和对齐性研究上的探索。

推荐内容

[近日]Clay完成1亿美元C轮融资，估值达31亿美元

[最近]Anthropic切断OpenAI对Claude模型的访问权限

[最近]Anthropic成企业首选AI模型供应商市占率超OpenAI

[较早]xAI被批安全失责多位AI专家谴责其“鲁莽行为”