OpenAI 宣布将推出新的旗舰模型 GPT-4o

5/14/2024

https://www.chatbro.cn/news/6642d44812231ef56a4a8e04

OpenAI 在 2024 年 5 月 13 日宣布了新的旗舰模型 GPT-4o，其中 “o” 代表 “omni”，意指全方位。GPT-4o 能够接受并生成文本、音频和图像的任意组合输入和输出，响应时间可低至 232 毫秒，平均为 320 毫秒，与人类对话的反应时间相当。该模型在文本、音频和视觉多模态处理方面取得了突破，特别是在非英语语言的文本处理和视觉、音频理解方面表现出色。GPT-4o 在传统基准测试上达到了与 GPT-4 Turbo 相当的文本、推理和编码智能水平，同时在多语言、音频和视觉能力方面创下了新的记录。此外，GPT-4o 的语言标记化能力显著提升，减少了多种语言的标记数量。

GPT-4o 在安全性方面也有所改进，通过过滤训练数据和后训练优化模型行为，以及新的安全系统来提供语音输出的保护。该模型在核安全、化学生物放射防护、说服力和模型自主性等方面的风险评估显示，没有超过中等风险。OpenAI 还进行了广泛的外部红队测试，以识别新增模态引入或放大的风险，并据此改进了安全措施。

GPT-4o 的可用性将逐步推出，包括在 ChatGPT 中启用文本和图像功能，并提供给开发者通过 API 访问。GPT-4o 的文本和视觉功能已经在免费层和 Plus 用户中推出，后者的消息限制增加了 5 倍。在未来几周内，GPT-4o 的新版本将在 ChatGPT Plus 中的 Voice Mode 中作为 alpha 版本推出。开发者也可以通过 API 访问 GPT-4o 的文本和视觉模型，该模型比 GPT-4 Turbo 快 2 倍，价格减半，并且拥有 5 倍的速率限制。

要点

GPT-4o 是一种全方位的人工智能模型，能够处理多种类型的输入和输出，包括文本、音频和视觉，这标志着人机交互的重大进步。
GPT-4o 在多语言处理方面表现出色，特别是在非英语语言的理解上，同时也显著提高了音频和视觉理解能力。
GPT-4o 的推出是基于两年多的深度学习研究和效率改进，这使得该模型能够更广泛地提供，同时降低了使用成本。
安全性是 GPT-4o 设计的核心考虑因素，通过多种技术和外部专家的红队测试，确保了模型的安全使用。
GPT-4o 的迭代推出和持续改进，表明 OpenAI 对于模型的不断完善和对新风险的应对。
GPT-4o 的成本效益和性能优势，使其成为开发者和企业在构建下一代应用程序时的有力工具。