简述
GPT-4o的名称中“o”代表Omni,即全能的意思,凸显了其多功能的特性,GPT-4o是OpenAI为聊天机器人ChatGPT发布的语言模型,“可以实时对音频、视觉和文本进行推理,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量,并能够读取人的情绪。可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,与人类的响应时间相似。
北京时间2024年5月14日凌晨,OpenAI宣布推出GPT-4o,GPT-4o在处理速度上提升了高达200%,同时在价格上也实现了50%的下降,GPT-4o所有功能包括视觉、联网、记忆、执行代码以及GPT Store等,将对所有用户免费开放。
主要功能
GPT-4o新模型能够处理50种不同的语言,提高了速度和质量,并能够读取人的情绪。
GPT-4o是迈向更自然人机交互的一步,它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,“与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。”