A
Anthropic Safety
Anthropic Safety — AI安全研究
简介
Anthropic的安全研究是AI对齐领域的标杆。首创Constitutional AI(宪法AI)——通过"红队测试+宪法规则"训练模型遵循人类价值观。在机械可解释性(Mechanistic Interpretability)、RLHF改进、安全评估等方面产出一系列顶级论文。Anthropic的安全方法论影响了整个行业的安全实践标准。
| 成立时间 | 2021年 |
| 总部 | 美国旧金山 |
| CEO/负责人 | Dario Amodei |
| 官网 | https://www.anthropic.com/research |
🔬 核心研究方向
- Constitutional AI:宪法规则引导模型行为
- 机械可解释性:理解神经网络内部运作机制
- 前沿模型安全评估:ASL安全等级体系
- Red Teaming:系统性红队测试方法