近日,人工智能研究公司OpenAI在春季发布会上发布了一款名为GPT-4o的新生成式人工智能模型。发布会后不久,OpenAI在官网上公布了一篇技术报告,全面展示了GPT-4o的功能。
以“辅导功课”为例:用户向GPT-4o说“我希望你能指导我的儿子解答这道数学问题,但不直接告诉他答案,而是引导他找到正确方向,我希望他能真正理解。”随后,在不到1秒的时间里,GPT-4o回答道,“当然,我很乐意帮忙,让我们一起看看这个问题。首先,你能确定一下哪些边是对于a角来说的对边、邻边和斜边吗?”在这段3分钟左右的演示视频中,GPT-4o在与一位男孩的交流中一步步启发他解答了一道数学问题,并不断给予“你已经接近了”“完全正确”“非常好”的鼓励。
除此以外,GPT-4o还能用于海报设计、绘图排版、讲座总结等领域。对此,OpenAI在报告中称,根据测试,GPT-4o在文本处理、逻辑推理和能力编程方面与此前发布的模型相当,在多语言处理、音频和视觉技术方面达到了更高水平,在视觉和音频理解方面表现远超以往模型。特别是在音频识别方面,GPT-4o显著提升了对多种语言的语音识别能力,尤其在处理非英语文本方面,同时运行速度也更快。
虽然GPT-4o已经发布,但上述一系列音频和视频处理功能还未向用户开放。目前用户仅可使用文本和图像输入以及文本输出功能。OpenAI表示,该公司在探索GPT-4o模型的功能及其局限性方面仍处于起步阶段,计划在未来几周内向一小部分可信伙伴开放GPT-4o的音频和视频处理功能。