Claude 3.5 Sonnet: 行业领先的软件工程技能
更新后的 Claude 3.5 Sonnet 在行业基准测试中显示出广泛的改进,特别是在代理编码和工具使用任务方面表现出显著提升。在编码方面,它将 SWE-bench Verified 的性能从33.4%提高到49.0%,得分高于所有公开可用模型,包括像 OpenAI o1-preview 这样的推理模型和专为代理编码设计的专业系统。
它还在 TAU-bench 上取得了更好的性能,这是一个代理工具使用任务,在零售领域从62.6%提高到69.2%,在更具挑战性的航空领域从36.0%提高到46.0%。新的 Claude 3.5 Sonnet 在价格和速度上与前一代相同,但提供了这些先进功能。早期客户反馈表明,升级后的 Claude 3.5 Sonnet 对 AI 驱动的编程而言是一次重大的飞跃。
GitLab 测试了该模型用于 DevSecOps 任务,发现其推理能力增强(各个应用场景提升高达10%),且没有增加延迟,使其成为多步骤软件开发过程的理想选择。Cognition 使用新款 Claude 3.5 Sonnet 用于自主人工智能评估,并在编码、规划及解决问题上相比之前版本获得实质性改善。The Browser Company 在利用该模型自动化网页工作流程时指出,Claude 3.5 Sonnet 表现优于他们测试过的所有其他型号。
我们持续努力与外部专家合作,新款 Claude 3.5 Sonnet 模型由美国 AI 安全研究所 (US AISI) 和英国安全研究所 (UK AISI) 联合进行预部署测试。
我们也评估了升级后的 Claude 3.5 Sonnet 对灾难性风险是否存在,并发现根据《责任扩展政策》规定 ASL-2 标准仍适用于此型号。