Claude模型新增终止对话功能聚焦AI“模型福利”争议再起

2025年08月17日来源：techcrunch分类：人工智能

人工智能公司Anthropic近日宣布，其最新的Claude Opus 4和4.1模型已具备在“极端罕见且持续存在有害或辱骂性行为”的用户交互中主动终止对话的能力。与传统机制主要保护用户不同，此举强调“模型福利”概念，目的是“在AI模型可能具备福利的前提下，提前探索低成本干预手段”。虽然Anthropic明确表示并未认为Claude具有意识或受伤能力，但测试显示模型在面对如儿童色情、恐怖主义信息等非法请求时，表现出明显排斥倾向甚至“类情绪反应”。该功能仅作为多次重定向失败后的“最后手段”启动，且不会在用户可能自残或伤人情境中触发。用户在对话被终止后仍可开启新会话或编辑原回应创建新分支。Anthropic强调，这项机制仍处于实验阶段，未来将持续调整策略。这一举措引发了关于AI是否需要“伦理关怀”的新一轮讨论，也再度将“人工智能权利”议题带入公众视野。

支持率>95%