...
...

OpenAI发现AI模型内隐藏“人格特征”可调控行为偏差

OpenAI最新研究揭示,AI模型内部存在与“人格”相关的隐藏特征,可通过数学方式调整模型的毒性或讽刺等行为表现。这一突破有助于理解AI模型为何会出现误导性或危险行为,并为未来更安全、可控的模型开发奠定基础。研究还显示,仅需少量数据微调即可有效纠正偏差,表明AI行为具备可塑性。该成果延续了Anthropic等机构在AI可解释性和对齐性研究上的探索。