有史以来最强大的开源大模型 Llama3 发布

4/19/2024

llama.meta.com

https://www.chatbro.cn/news/6621c82355fa2657dba5e4b0

近期，Meta发布了两款新的大型语言模型，分别为8B（80亿参数）和70B（700亿参数）的版本。这些模型带来了新功能，显著提升了推理能力，并在行业基准测试中展示了领先性能。8B参数模型在评测中超过了Gemma-7B和Mistral-7B版本，而Llama 3 70B版本同样在许多评测指标上超越了Gemini 1.5 Pro和Claude 3 Sonnet。

Meta计划在未来几个月内推出更多新功能，包括更长的上下文窗口、更多的模型尺寸选择以及更强大的性能。同时，Meta还将分享Llama 3的研究论文。此外，Meta AI已经正式发布，并将在Instagram、WhatsApp、Messenger和Facebook等Meta旗下的多款应用程序中整合使用。这项技术将在澳大利亚、加拿大、新加坡、美国等十几个国家推出，并且Meta.ai的网页版也已经同步上线。

Llama 3模型将很快在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake等平台上推出，并将得到AMD、AWS、Dell、Intel、NVIDIA和Qualcomm等提供的硬件平台支持。

Llama 3模型的性能提升得益于预训练和后续训练阶段的技术进步，在预训练和指令微调后都展现出色的表现。模型在推理、代码生成和遵循指令等方面的能力得到了显著提升。Meta还特别设计了一套全新的、高质量的人类评估标准，包含了1800个测试项，覆盖了12个主要的应用场景。

Llama 3模型的研发过程中，重点关注了模型架构的创新、预训练数据的选择、预训练过程的扩展和对模型进行指令微调的精细打磨四个核心要素。模型设计中采用了高效的设计理念，选择了标准的仅解码器的Transformer架构，引入了分组查询注意力技术，并大幅扩大了预训练数据集的规模。预训练数据超过了15T Token，涵盖了超过30种语言，并进行了一系列的数据过滤流程，确保了训练数据的质量。

在扩大预训练规模方面，Meta制定了详尽的Scaling Laws，并采用了数据并行、模型并行和流水线并行技术，提高了GPU的使用效率和训练效率。此外，Meta还对指令微调方法进行了创新性的改进，融合了监督式微调和近端策略优化等多种技术，提升了模型在逻辑推理和编程任务上的表现。

展望未来，Llama 3将成为Meta计划发布的一系列新功能的起点。这些新功能将包括多模态、支持多语言对话、扩展上下文窗口长度和全面提升的性能。同时，Meta也在开发超过400B参数的模型，并对其潜力感到非常兴奋。在Llama 3训练完成后，Meta将发表详细的研究论文，分享其成果和发现。