LLaMA 3 掀桌子三部曲（一）：LLaMA 3 发布

type

Post

status

Published

date

Apr 19, 2024

slug

llama3

summary

LLaMA 3 又来掀桌子了，发布一天后排名已经到开源模型首位了，已超过早期的 GPT4 和 Gemini Pro 🔥🔥🔥。哪些因素带来了新的精度提升？

免费在线使用

可以使用下面的地址试试效果，确实还是可以的。

OpenRouter

A router for LLMs and other AI models

https://openrouter.ai/playground?models=meta-llama/llama-3-70b-instruct

模型架构

LLaMA 3 依旧使用的是 decoder-only transformer 架构。

LLaMA 3 使用了 128K token vocabulary （LLaMA 2 是 32K），提升了编码效率，从而大幅提高了模型性能。

采用了分组查询注意力(GQA)，提升了推理效率。

在长度为 8,192 长度的 token 序列上训练（之前是 4K），并使用掩码确保自注意力不会跨越文档边界。

预训练数据

LLaMA 的预训练数据都来自公开数据，高达 15T tokens（LLaMA 2 是 2T），其中的代码数据增加了 4 倍。

为应对未来的多语种应用场景，LLaMA 3 预训练数据集中有超过5%是30多种语言的高质量非英语数据。

为确保 LLaMA 3 训练用的是最高质量的数据，作者开发了一系列数据过滤流水线，包括使用启发式过滤器、NSFW过滤器、语义去重方法和文本质量分类器等。作者发现，前几代LLaMA在识别高质量数据时表现出乎意料的出色，因此使用LLaMA 2生成了用于训练LLaMA 3文本质量分类器的训练数据。

作者进行了大量实验，评估在最终预训练数据集中混合来自不同来源的数据的最佳方式。这些实验使作者能够选择一种数据混合方式，以确保LLaMA 3在包括谜题问答、STEM、编程、历史知识等各种cases中表现良好。

作者利用 scaling law 来优化数据组合比例和计算资源。虽然 8B 模型对应的 Chinchilla-optimal 数据量大致为 200B tokens，作者发现就算是用 15T 的数据训练也能保持 log-linearly 的趋势不断更好。

参考张俊林：https://weibo.com/u/page/fav/1660835355

一般模型大小乘以20，就是Chinchilla law对应的最优训练数据量，比如对于8B模型，160B训练数据对应最优Scaling law。但是，我们不能机械地理解和应用Scaling law，从Chinchilla的论文实验数据可以看出，还有另外两条路提升模型性能，尽管它不是训练最优的。一个是固定住模型大小，持续增加训练数据，模型效果会持续变好，只要你有源源不断的新数据能加进来，那么小模型就能效果持续变好；另外一个是固定住训练数据量，那么你持续放大模型参数规模，同样的，模型效果也会越来愈好。如果我们把按指定比例同时增加训练数据和模型容量叫做“Optimal Chinchilla Law”，那么这两种做法可以被称为“Sub-optimal Chinchilla Law”。

在两个自建的24K GPU集群上进行了训练。为最大化GPU运行时间，开发了一个先进的新训练堆栈，可自动执行错误检测、处理和维护。作者还大大改善了硬件可靠性和无声数据损坏检测机制，并开发了新的可扩展存储系统，减少了检查点和回滚的开销。这些改进使LLaMA 3的有效训练时间超过95%。相比LLaMA 2，这些改进将 LLaMA 3 训练效率提高到约三倍。

指令微调

后训练方法结合了监督式微调(SFT)、拒绝抽样、proximal policy optimization(PPO) 和 direct policy optimization(DPO)。用于SFT的prompts，以及用于PPO和DPO的偏好排序数据质量对于得到对齐的模型性能影响重大。模型质量的一些最大提升来自于精心处理这些数据，并对人工标注进行多轮质量保证。