疯语咒首页

https://www.notion.so/worshipsme/9a617c93fb364f7c8be718869d9da04c?v=1cdc8e1086724468bb0d7aea1ddf96fb

本文翻译自 2022 年 Meta（facebook）的大模型论文： LLaMA: Open and Efficient Foundation Language Models。

一些工程信息：

LLaMA 只使用公开可用数据集进行训练，模型已开源；
- 基于 transformer 架构；
- 训练数据集大小：1.4T 个 tokens；
- 参数范围 7B~65B；
使用更多 token 进行训练，而不是狂堆参数，一样能取得不错的性能。
- LLaMA-13B 在大多数基准测试中优于 GPT-3（175B）；
用户更想要的可能是一个推理速度最快而不是训练速度最快的模型；此时模型大小就非常重要，
- LLaMA 可以在单个 GPU 上运行；
- LLaMA-13B 可以在单个 V100 上运行；
训练成本
- 2048 个 A100 80GB GPU 上，开发和训练约 5 个月；
- 训练 65B 模型时，在 2048 个 A100 80GB GPU 上能处理约 380 tokens/second/GPU，因此 1.4T token 的数据集训练一次大约需要 21 天；
- 耗能约 2638 MWh，折算排放 1015 吨 CO。
  
  2

译者水平有限，不免存在遗漏或错误之处。如有疑问，敬请查阅原文。

以下是译文。

摘要

本文介绍 LLaMA，一个包含 7B~65B（70~650 亿）参数的基础语言模型集（a collection of foundation language models）。我们用数万亿个（trillions of） token 训练这些模型，证明了使用公开数据集就能训练出最先进的模型，而并非必须使用专有和私有数据集。特别是，LLaMA-13B 在大多数基准测试中优于 GPT-3（175B） ，而 LLaMA-65B 则与最佳模型 Chinchilla-70B 和 PaLM-540B 相当。我们已经将所有模型开源，供社区研究。

1 引言

在大规模文本语料库（massive corpora of texts）上训练的大型语言模型 （Large Languages Models, LLM），已经有能力根据给定的文本指令（textual instructions）或示例（a few examples）执行新任务（Brown 等，2020）。

这些 few-shot 属性首先出现在将模型扩展到足够大的规模时（Kaplan 等，2020），在此之后，出现了很多进一步扩展这些模型的工作（Chowdhery 等，2022；Rae 等，2021），它们都遵循了这样一个假设：更多的参数将产生更好的性能。然而，Hoffmann 等（2022）的最新工作表明，对于给定的计算预算（compute budget），最佳性能并非来自那些最大的模型，而是来自那些在更多数据上训练出来的较小模型。