xAI 宣布发布 Grok-2 和 Grok-2 mini 的测试版
** xAI 宣布发布 Grok-2 和 Grok-2 mini 的测试版,这两款模型在聊天、编码和推理方面展现了前沿能力,并在 LMSYS 竞赛榜单上表现出色。**
xAI正式推出了 Grok-2 和 Grok-2 mini 的测试版,这两款模型分别作为 Grok-1.5 的大型和小型升级,在多项标准测试中展现了显著的提升。Grok-2 在 LMSYS 竞赛榜单上以 “sus-column-r” 的名义参赛,其 Elo 得分超越了 Claude 3.5 Sonnet 和 GPT-4-Turbo。
Grok-2 和 Grok-2 mini 目前处于 𝕏 平台的测试阶段,预计将于本月晚些时候通过企业级 API 对外发布。
在内部评估中,Grok-2 通过与 AI 导师的互动,展现了在遵循指令和提供准确信息方面的显著改进。此外,Grok-2 在检索内容的推理和工具使用能力上也有所提升,包括识别缺失信息、推理事件序列和去除无关帖子的能力。
Grok-2 和 Grok-2 mini 在学术基准测试中的表现优于 Grok-1.5,包括渐进的科学知识(GPQA)、一般知识(MMLU、MMLU-Pro)、数学竞赛问题(MATH)等领域。Grok-2 在视觉数学推理(MathVista)和基于文档的问答(DocVQA)方面取得了最先进的性能。
𝕏 平台的 Premium 和 Premium+ 用户将能够访问 Grok-2 和 Grok-2 mini,后者提供了速度与答案质量之间的平衡。Grok-2 的新版本更直观、易于指导,并且在各种任务中都更加多才多艺。
xAI 还计划通过新的企业级 API 平台为开发者提供 Grok-2 和 Grok-2 mini,该平台具备低延迟的多区域推理部署能力以及增强的安全功能。
Grok-2 和 Grok-2 mini 正在逐步在 𝕏 平台上推广,预计将应用于增强的搜索功能、对 𝕏 帖子的深入洞察以及改进的回复功能。xAI 还计划发布多模态理解的预览版,作为 𝕏 和 API 上 Grok 体验的核心部分。
要点
- Grok-2 和 Grok-2 mini 在聊天、编码和推理方面展现了显著的提升,并在 LMSYS 竞赛榜单上表现出色。
- Grok-2 在处理实际任务时,特别是在遵循指令和提供准确信息方面,表现出了显著的改进。
- 在学术基准测试中,Grok-2 和 Grok-2 mini 在多个领域展现了与其他前沿模型竞争的性能。
- 𝕏 平台的 Premium 和 Premium+ 用户将能够体验到 Grok-2 和 Grok-2 mini 带来的新特性和改进。
- xAI 通过企业级 API 为开发者提供了 Grok-2 和 Grok-2 mini,以及相关的技术支持和安全保障。
- Grok-2 和 Grok-2 mini 的推广将增强 𝕏 平台的功能,包括搜索、帖子洞察和回复功能的改进。