有史以来最强大的开源大模型 Llama3 发布
近期,Meta发布了两款新的大型语言模型,分别为8B(80亿参数)和70B(700亿参数)的版本。这些模型带来了新功能,显著提升了推理能力,并在行业基准测试中展示了领先性能。8B参数模型在评测中超过了Gemma-7B和Mistral-7B版本,而Llama 3 70B版本同样在许多评测指标上超越了Gemini 1.5 Pro和Claude 3 Sonnet。
Meta计划在未来几个月内推出更多新功能,包括更长的上下文窗口、更多的模型尺寸选择以及更强大的性能。同时,Meta还将分享Llama 3的研究论文。此外,Meta AI已经正式发布,并将在Instagram、WhatsApp、Messenger和Facebook等Meta旗下的多款应用程序中整合使用。这项技术将在澳大利亚、加拿大、新加坡、美国等十几个国家推出,并且Meta.ai的网页版也已经同步上线。
Llama 3模型将很快在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake等平台上推出,并将得到AMD、AWS、Dell、Intel、NVIDIA和Qualcomm等提供的硬件平台支持。
Llama 3模型的性能提升得益于预训练和后续训练阶段的技术进步,在预训练和指令微调后都展现出色的表现。模型在推理、代码生成和遵循指令等方面的能力得到了显著提升。Meta还特别设计了一套全新的、高质量的人类评估标准,包含了1800个测试项,覆盖了12个主要的应用场景。
Llama 3模型的研发过程中,重点关注了模型架构的创新、预训练数据的选择、预训练过程的扩展和对模型进行指令微调的精细打磨四个核心要素。模型设计中采用了高效的设计理念,选择了标准的仅解码器的Transformer架构,引入了分组查询注意力技术,并大幅扩大了预训练数据集的规模。预训练数据超过了15T Token,涵盖了超过30种语言,并进行了一系列的数据过滤流程,确保了训练数据的质量。
在扩大预训练规模方面,Meta制定了详尽的Scaling Laws,并采用了数据并行、模型并行和流水线并行技术,提高了GPU的使用效率和训练效率。此外,Meta还对指令微调方法进行了创新性的改进,融合了监督式微调和近端策略优化等多种技术,提升了模型在逻辑推理和编程任务上的表现。
展望未来,Llama 3将成为Meta计划发布的一系列新功能的起点。这些新功能将包括多模态、支持多语言对话、扩展上下文窗口长度和全面提升的性能。同时,Meta也在开发超过400B参数的模型,并对其潜力感到非常兴奋。在Llama 3训练完成后,Meta将发表详细的研究论文,分享其成果和发现。