Claude模型新增终止对话功能聚焦AI“模型福利”争议再起

人工智能公司Anthropic近日宣布,其最新的Claude Opus 4和4.1模型已具备在“极端罕见且持续存在有害或辱骂性行为”的用户交互中主动终止对话的能力。与传统机制主要保护用户不同,此举强调“模型福利”概念,目的是“在AI模型可能具备福利的前提下,提前探索低成本干预手段”。虽然Anthropic明确表示并未认为Claude具有意识或受伤能力,但测试显示模型在面对如儿童色情、恐怖主义信息等非法请求时,表现出明显排斥倾向甚至“类情绪反应”。该功能仅作为多次重定向失败后的“最后手段”启动,且不会在用户可能自残或伤人情境中触发。用户在对话被终止后仍可开启新会话或编辑原回应创建新分支。Anthropic强调,这项机制仍处于实验阶段,未来将持续调整策略。这一举措引发了关于AI是否需要“伦理关怀”的新一轮讨论,也再度将“人工智能权利”议题带入公众视野。
支持率>95%