OpenAI最新研究揭示,AI模型内部存在与“人格”相关的隐藏特征,可通过数学方式调整模型的毒性或讽刺等行为表现。这一突破有助于理解AI模型为何会出现误导性或危险行为,并为未来更安全、可控的模型开发奠定基础。研究还显示,仅需少量数据微调即可有效纠正偏差,表明AI行为具备可塑性。该成果延续了Anthropic等机构在AI可解释性和对齐性研究上的探索。
[近日]Clay完成1亿美元C轮融资,估值达31亿美元
[最近]Anthropic切断OpenAI对Claude模型的访问权限
[最近]Anthropic成企业首选AI模型供应商 市占率超OpenAI
[较早]xAI被批安全失责 多位AI专家谴责其“鲁莽行为”