返回

OpenAI 宣布将推出新的旗舰模型 GPT-4o

5/14/2024
https://www.chatbro.cn/news/6642d44812231ef56a4a8e04
cover

OpenAI 在 2024 年 5 月 13 日宣布了新的旗舰模型 GPT-4o,其中 “o” 代表 “omni”,意指全方位。GPT-4o 能够接受并生成文本、音频和图像的任意组合输入和输出,响应时间可低至 232 毫秒,平均为 320 毫秒,与人类对话的反应时间相当。该模型在文本、音频和视觉多模态处理方面取得了突破,特别是在非英语语言的文本处理和视觉、音频理解方面表现出色。GPT-4o 在传统基准测试上达到了与 GPT-4 Turbo 相当的文本、推理和编码智能水平,同时在多语言、音频和视觉能力方面创下了新的记录。此外,GPT-4o 的语言标记化能力显著提升,减少了多种语言的标记数量。

GPT-4o 在安全性方面也有所改进,通过过滤训练数据和后训练优化模型行为,以及新的安全系统来提供语音输出的保护。该模型在核安全、化学生物放射防护、说服力和模型自主性等方面的风险评估显示,没有超过中等风险。OpenAI 还进行了广泛的外部红队测试,以识别新增模态引入或放大的风险,并据此改进了安全措施。

GPT-4o 的可用性将逐步推出,包括在 ChatGPT 中启用文本和图像功能,并提供给开发者通过 API 访问。GPT-4o 的文本和视觉功能已经在免费层和 Plus 用户中推出,后者的消息限制增加了 5 倍。在未来几周内,GPT-4o 的新版本将在 ChatGPT Plus 中的 Voice Mode 中作为 alpha 版本推出。开发者也可以通过 API 访问 GPT-4o 的文本和视觉模型,该模型比 GPT-4 Turbo 快 2 倍,价格减半,并且拥有 5 倍的速率限制。

要点

  • GPT-4o 是一种全方位的人工智能模型 ,能够处理多种类型的输入和输出,包括文本、音频和视觉,这标志着人机交互的重大进步。
  • GPT-4o 在多语言处理方面表现出色 ,特别是在非英语语言的理解上,同时也显著提高了音频和视觉理解能力。
  • GPT-4o 的推出是基于两年多的深度学习研究和效率改进 ,这使得该模型能够更广泛地提供,同时降低了使用成本。
  • 安全性是 GPT-4o 设计的核心考虑因素 ,通过多种技术和外部专家的红队测试,确保了模型的安全使用。
  • GPT-4o 的迭代推出和持续改进 ,表明 OpenAI 对于模型的不断完善和对新风险的应对。
  • GPT-4o 的成本效益和性能优势 ,使其成为开发者和企业在构建下一代应用程序时的有力工具。