Meta:llama-3.1-405b

监控:llama-3.1-405b Uptime Status

模型介绍

我们的新8B和70B参数Llama 3模型相较于Llama 2有了重大飞跃,在这些规模上为LLM模型建立了新的标杆。由于在预训练和后训练方面的改进,我们的预训练及指令微调模型成为现今在8B和70B参数规模上的最佳模型。我们后训练程序的改进大幅减少了错误拒绝率,提高了一致性,并增加了模型响应的多样性。我们还观察到了推理、代码生成和指令遵循等能力的大幅提升,使得Llama 3更易于引导。

image

在Llama 3的开发过程中,我们查看了模型在标准基准测试上的性能,并寻求优化其在真实场景中的表现。为此,我们开发了一套新的高质量人工评估集。该评估集包含1800个提示,涵盖12个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、信息提取、模拟角色/人设开放问答推理重写和总结。为了防止我们的模型在这个评估集上出现意外过拟合,即使是我们自己的建模团队也无法访问它。下表显示了我们的人类评估中,这些类别和提示与Claude Sonnet,Mistral Medium和GPT-3.5相比的汇总结果。

image 1

根据这个评估集,人类注释者的偏好排名突出了我们的70B指令跟随模型在现实场景中相比于同等规模的竞争模型表现出色。我们的预训练模型也为该规模的大型语言模型树立了新的行业标杆。

image 2

要开发一个出色的语言模型,我们认为创新、扩大规模和优化简化是非常重要的。在Llama 3项目中,我们在整个设计过程中都采用了这一理念,重点关注四个关键要素:模型架构、预训练数据、扩大预训练规模以及指令微调。

模型架构

根据我们的设计理念,我们在Llama 3中选择了一个相对标准的仅解码器Transformer架构。与Llama 2相比,我们进行了几项关键改进。Llama 3使用了具有128K词汇量的分词器,可以更高效地编码语言,从而显著提高模型性能。为了提高Llama 3模型的推理效率,我们在8B和70B规模上采用了分组查询注意力(GQA)。我们训练的模型序列长度为8192个token,并使用掩码确保自注意力不会跨越文档边界。

训练数据

为了训练最佳的语言模型,整理一个大规模、高质量的训练数据集至关重要。根据我们的设计原则,我们在预训练数据上进行了大量投资。Llama 3 在超过 15 万亿个标记上进行了预训练,这些标记全部来自公开可用的来源。我们的训练数据集是 Llama 2 使用的数据集的七倍,并且包含四倍于 Llama 2 的代码。为了准备即将到来的多语言用例,Llama 3 预训练数据集中超过 5% 的内容是高质量的非英语数据,涵盖了 30 多种语言。然而,我们不期望这些语言的表现能与英语相媲美。

为了确保 Llama 3 训练的数据具有最高质量,我们开发了一系列数据过滤管道。这些管道包括使用启发式过滤器、NSFW 过滤器、语义去重方法和文本分类器来预测数据质量。我们发现,Llama 的前几代在识别高质量数据方面非常出色,因此我们使用 Llama 2 生成了支持 Llama 3 的文本质量分类器的训练数据。

我们还进行了广泛的实验,以评估在我们的最终预训练数据集中混合来自不同来源的数据的最佳方法。这些实验使我们能够选择一种数据组合,确保 Llama 3 在包括知识问答、STEM、编码、历史知识等用例中表现良好。

滚动至顶部
申请收录
请填写您的推荐网站,我们将尽快收录