疯语咒首页

https://www.notion.so/worshipsme/9a617c93fb364f7c8be718869d9da04c?v=1cdc8e1086724468bb0d7aea1ddf96fb

本文翻译自 2022 年 Meta(facebook)的大模型论文: LLaMA: Open and Efficient Foundation Language Models

一些工程信息:

  1. LLaMA 只使用公开可用数据集进行训练,模型已开源;
  2. 使用更多 token 进行训练,而不是狂堆参数,一样能取得不错的性能。
  3. 用户更想要的可能是一个推理速度最快而不是训练速度最快的模型;此时模型大小就非常重要,
  4. 训练成本

译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。

以下是译文。



摘要

本文介绍 LLaMA,一个包含 7B~65B(70~650 亿) 参数的基础语言模型集(a collection of foundation language models)。 我们用数万亿个(trillions of) token 训练这些模型,证明了使用公开数据集就能训练出最先进的模型, 而并非必须使用专有和私有数据集。特别是,LLaMA-13B 在大多数基准测试中优于 GPT-3(175B) ,而 LLaMA-65B 则与最佳模型 Chinchilla-70B 和 PaLM-540B 相当。 我们已经将所有模型开源,供社区研究。

1 引言

在大规模文本语料库(massive corpora of texts)上训练的大型语言模型 (Large Languages Models, LLM),已经有能力根据给定的文本指令(textual instructions) 或示例(a few examples)执行新任务(Brown 等,2020)。

这些 few-shot 属性首先出现在将模型扩展到足够大的规模时(Kaplan 等,2020), 在此之后,出现了很多进一步扩展这些模型的工作(Chowdhery 等,2022;Rae 等,2021), 它们都遵循了这样一个假设:更多的参数将产生更好的性能。 然而,Hoffmann 等(2022)的最新工作表明,对于给定的计算预算(compute budget), 最佳性能并非来自那些最大的模型,而是来自那些在更多数据上训练出来的较小模型