GPT-4o - BIGTREE

简述

GPT-4o的名称中“o”代表Omni，即全能的意思，凸显了其多功能的特性，GPT-4o是OpenAI为聊天机器人ChatGPT发布的语言模型，“可以实时对音频、视觉和文本进行推理，新模型使ChatGPT能够处理50种不同的语言，同时提高了速度和质量，并能够读取人的情绪。可以在短至232毫秒的时间内响应音频输入，平均为320毫秒，与人类的响应时间相似。

北京时间2024年5月14日凌晨，OpenAI宣布推出GPT-4o，GPT-4o在处理速度上提升了高达200%，同时在价格上也实现了50%的下降，GPT-4o所有功能包括视觉、联网、记忆、执行代码以及GPT Store等，将对所有用户免费开放。

主要功能

GPT-4o新模型能够处理50种不同的语言，提高了速度和质量，并能够读取人的情绪。

GPT-4o是迈向更自然人机交互的一步，它可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出，“与现有模型相比，GPT-4o在图像和音频理解方面尤其出色。”

在GPT-4o之前，用户使用语音模式与ChatGPT对话时，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒，音频在输入时还会由于处理方式丢失大量信息，让GPT-4无法直接观察音调、说话的人和背景噪音，也无法输出笑声、歌唱声和表达情感。

与之相比，GPT-4o可以在232毫秒内对音频输入做出反应，与人类在对话中的反应时间相近。在录播视频中，两位高管做出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸，还可以根据用户要求变换语调。

性能方面，根据传统基准测试，GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能，同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

图像输入方面，研究人员启动摄像头，要求实时完成一道方程题，新模型轻松完成了任务；研究人员还展示了它对一张气温图表进行实时解读的能力。

它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语文本上的性能显着提高，同时 API 的速度也更快，成本降低了 50%。

模型特点

GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能，包括免费用户。

在 GPT-4o 上，OpenAI 跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

GPT-4o 可以跨文本、音频和视频进行实时推理，这是向更自然的人机交互（甚至是人 - 机器 - 机器交互）迈出的重要一步。

GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多，此前很多不可能的任务都变得「易如反掌」。

GPT-4o 还拥有 3D 视觉内容生成的能力，能够从 6 个生成的图像进行 3D 重建。

GPT-4o 可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出。

应用范围

该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中。即使是ChatGPT Free（免费）用户也可以有机会体验GPT-4o，但当达到限额时，ChatGPT将自动切换到GPT-3.5。

OpenAI GPT-4o 语音助手模型发布会 | 全程
https://www.bilibili.com/video/BV1jb421B7yK/

简述

主要功能

模型特点

应用范围

添加新评论