https://www.notion.so/worshipsme/9a617c93fb364f7c8be718869d9da04c?v=1cdc8e1086724468bb0d7aea1ddf96fb
本文翻译自 2022 年 Meta(facebook)的大模型论文: LLaMA: Open and Efficient Foundation Language Models。
一些工程信息:
7B~65B
;2048 个 A100 80GB GPU 上,开发和训练约 5 个月;
训练 65B 模型时,在 2048 个 A100 80GB GPU 上能处理约 380 tokens/second/GPU
,因此 1.4T token 的数据集训练一次大约需要 21 天;
耗能约 2638 MWh,折算排放 1015 吨 CO。
2
译者水平有限,不免存在遗漏或错误之处。如有疑问,敬请查阅原文。
以下是译文。
本文介绍 LLaMA,一个包含 7B~65B
(70~650 亿) 参数的基础语言模型集(a collection of foundation language models)。 我们用数万亿个(trillions of) token 训练这些模型,证明了使用公开数据集就能训练出最先进的模型, 而并非必须使用专有和私有数据集。特别是,LLaMA-13B 在大多数基准测试中优于 GPT-3(175B) ,而 LLaMA-65B 则与最佳模型 Chinchilla-70B 和 PaLM-540B 相当。 我们已经将所有模型开源,供社区研究。
在大规模文本语料库(massive corpora of texts)上训练的大型语言模型 (Large Languages Models, LLM),已经有能力根据给定的文本指令(textual instructions) 或示例(a few examples)执行新任务(Brown 等,2020)。
这些 few-shot 属性首先出现在将模型扩展到足够大的规模时(Kaplan 等,2020), 在此之后,出现了很多进一步扩展这些模型的工作(Chowdhery 等,2022;Rae 等,2021), 它们都遵循了这样一个假设:更多的参数将产生更好的性能。 然而,Hoffmann 等(2022)的最新工作表明,对于给定的计算预算(compute budget), 最佳性能并非来自那些最大的模型,而是来自那些在更多数据上训练出来的较小模型。