解锁AI+｜OpenAI新模型有哪些新突破

近日，人工智能研究公司OpenAI在春季发布会上发布了一款名为GPT-4o的新生成式人工智能模型。发布会后不久，OpenAI在官网上公布了一篇技术报告，全面展示了GPT-4o的功能。

以“辅导功课”为例：用户向GPT-4o说“我希望你能指导我的儿子解答这道数学问题，但不直接告诉他答案，而是引导他找到正确方向，我希望他能真正理解。”随后，在不到1秒的时间里，GPT-4o回答道，“当然，我很乐意帮忙，让我们一起看看这个问题。首先，你能确定一下哪些边是对于a角来说的对边、邻边和斜边吗？”在这段3分钟左右的演示视频中，GPT-4o在与一位男孩的交流中一步步启发他解答了一道数学问题，并不断给予“你已经接近了”“完全正确”“非常好”的鼓励。

除此以外，GPT-4o还能用于海报设计、绘图排版、讲座总结等领域。对此，OpenAI在报告中称，根据测试，GPT-4o在文本处理、逻辑推理和能力编程方面与此前发布的模型相当，在多语言处理、音频和视觉技术方面达到了更高水平，在视觉和音频理解方面表现远超以往模型。特别是在音频识别方面，GPT-4o显著提升了对多种语言的语音识别能力，尤其在处理非英语文本方面，同时运行速度也更快。

虽然GPT-4o已经发布，但上述一系列音频和视频处理功能还未向用户开放。目前用户仅可使用文本和图像输入以及文本输出功能。OpenAI表示，该公司在探索GPT-4o模型的功能及其局限性方面仍处于起步阶段，计划在未来几周内向一小部分可信伙伴开放GPT-4o的音频和视频处理功能。

寄语