🧠 AI知识库

人工智能产业链与技术栈全景图 v0.2.0 · 2026-05-14

Anthropic Safety

Anthropic Safety — AI安全研究

🌍 美国 🧠 模型层 AI安全 Constitutional AI 对齐 可解释性

简介

Anthropic的安全研究是AI对齐领域的标杆。首创Constitutional AI(宪法AI)——通过"红队测试+宪法规则"训练模型遵循人类价值观。在机械可解释性(Mechanistic Interpretability)、RLHF改进、安全评估等方面产出一系列顶级论文。Anthropic的安全方法论影响了整个行业的安全实践标准。

成立时间2021年
总部美国旧金山
CEO/负责人Dario Amodei
官网https://www.anthropic.com/research

🔬 核心研究方向

  • Constitutional AI:宪法规则引导模型行为
  • 机械可解释性:理解神经网络内部运作机制
  • 前沿模型安全评估:ASL安全等级体系
  • Red Teaming:系统性红队测试方法