Anthropic Safety

Anthropic Safety — AI安全研究

🌍 美国 🧠 模型层 AI安全 Constitutional AI 对齐可解释性

简介

Anthropic的安全研究是AI对齐领域的标杆。首创Constitutional AI（宪法AI）——通过"红队测试+宪法规则"训练模型遵循人类价值观。在机械可解释性（Mechanistic Interpretability）、RLHF改进、安全评估等方面产出一系列顶级论文。Anthropic的安全方法论影响了整个行业的安全实践标准。

成立时间	2021年
总部	美国旧金山
CEO/负责人	Dario Amodei
官网	https://www.anthropic.com/research

🔬 核心研究方向

Constitutional AI：宪法规则引导模型行为
机械可解释性：理解神经网络内部运作机制
前沿模型安全评估：ASL安全等级体系
Red Teaming：系统性红队测试方法