阿里发布Qwen2.5系列大模型，超越于Llama3.1-70B

9/19/2024

qwenlm.github.io

https://www.chatbro.cn/news/66ebf7e77b9251d2519e77b5

2024年9月19日 — Qwen团队今日宣布推出Qwen2.5，这是迄今为止最大规模的开源语言模型之一。Qwen2.5系列包括通用、编程和数学优化的模型，覆盖从0.5B到72B不同参数规模，为开发者和研究人员提供了前所未有的灵活性和性能。

全面升级，性能卓越

Qwen2.5在最新的大规模数据集上进行了预训练，涵盖了高达18万亿个token，显著提升了模型的知识获取、编程和数学处理能力。此外，Qwen2.5在遵循指令、生成长文本、理解结构化数据和生成结构化输出方面也展现了卓越的性能。

专家模型，专注领域

Qwen2.5-Coder和Qwen2.5-Math作为专家模型，分别针对编程和数学领域进行了特别优化。Qwen2.5-Coder在编程相关数据上训练了5.5万亿个token，而Qwen2.5-Math则支持中英文，并集成了多种推理方法，如链式推理（CoT）、程序推理（PoT）和工具集成推理（TIR）。

性能对比，领先一步

在性能对比中，Qwen2.5的72B参数模型在多个基准测试中与其他领先的开源模型相媲美。Qwen-Plus API模型也在大型语言模型领域中展现了其竞争力，与GPT4-o和Claude-3.5-Sonnet等模型相比，虽然在某些方面仍有提升空间，但在其他方面已展现出竞争力。

灵活部署，易于使用

Qwen2.5支持多种部署和使用方式，包括通过Hugging Face Transformers、vLLM和Ollama等平台进行部署和使用。这使得开发者可以轻松地将Qwen2.5集成到他们的项目中，无论是本地运行还是通过API服务。