安全红线:Anthropic 为 Claude Fable 5 设定高危话题禁区

人工智能初创公司 Anthropic 近日对其全新的前沿模型 Claude Fable 5 实施了严格的内容安全管控,明确将网络安全、生物学及化学等领域列为“高危话题”,禁止模型就相关敏感问题提供详细解答。

随着 LLM(大语言模型)能力的跃升,前沿模型在自动化代码编写和科学分析方面的潜力日益凸显,但这同时也带来了巨大的安全隐患。Anthropic 此举旨在防止 Fable 5 被恶意利用,例如通过 AI 辅助生成旨在攻击基础设施的恶意软件,或者协助制造生化武器。这种“防御性对齐”策略反映了当前 AI 行业在追求模型性能与遏制潜在灾难性风险之间的艰难平衡。

此前,Anthropic 曾多次强调其“宪法 AI”(Constitutional AI)理念,试图通过预设的一套原则让模型具备自我监管能力。然而,针对 Fable 5 如此具体的领域禁令表明,面对能力更强的模型,单纯的原则性引导已不足以应对极高风险的专业知识泄露。此举虽然在一定程度上限制了科研人员在相关领域的探索效率,但从全球 AI 安全治理的角度来看,这是防止 AI 成为“大规模杀伤性工具”的关键防线。

来源: ARStechinca 报道(作者:Kyle Orland)

类似文章

发表回复