返回

阿里发布Qwen2.5系列大模型,超越于Llama3.1-70B

https://www.chatbro.cn/news/66ebf7e77b9251d2519e77b5
cover

2024年9月19日 — Qwen团队今日宣布推出Qwen2.5,这是迄今为止最大规模的开源语言模型之一。Qwen2.5系列包括通用、编程和数学优化的模型,覆盖从0.5B到72B不同参数规模,为开发者和研究人员提供了前所未有的灵活性和性能。

全面升级,性能卓越

Qwen2.5在最新的大规模数据集上进行了预训练,涵盖了高达18万亿个token,显著提升了模型的知识获取、编程和数学处理能力。此外,Qwen2.5在遵循指令、生成长文本、理解结构化数据和生成结构化输出方面也展现了卓越的性能。

专家模型,专注领域

Qwen2.5-Coder和Qwen2.5-Math作为专家模型,分别针对编程和数学领域进行了特别优化。Qwen2.5-Coder在编程相关数据上训练了5.5万亿个token,而Qwen2.5-Math则支持中英文,并集成了多种推理方法,如链式推理(CoT)、程序推理(PoT)和工具集成推理(TIR)。

性能对比,领先一步

在性能对比中,Qwen2.5的72B参数模型在多个基准测试中与其他领先的开源模型相媲美。Qwen-Plus API模型也在大型语言模型领域中展现了其竞争力,与GPT4-o和Claude-3.5-Sonnet等模型相比,虽然在某些方面仍有提升空间,但在其他方面已展现出竞争力。

灵活部署,易于使用

Qwen2.5支持多种部署和使用方式,包括通过Hugging Face Transformers、vLLM和Ollama等平台进行部署和使用。这使得开发者可以轻松地将Qwen2.5集成到他们的项目中,无论是本地运行还是通过API服务。