OpenAI又祭出“王炸”，新模型更似“真人”？

财华社 • 2024-05-15 08:01

北京时间周二（5月14日）凌晨，全球人工智能的执牛耳者OpenAI公司在线上举办了“春季更新”活动。

本次活动中，OpenAI发布了新旗舰模型“GPT-4o”，可以实时对音频、视觉和文本进行推理。据悉，新模型使ChatGPT能够处理50种不同的语言，同时提高了速度和质量。

在此前，用户使用语音模式与ChatGPT对话时，平均延迟达到数秒钟，音频在输入时还会由于处理方式丢失大量信息，让GPT-4无法直接观察音调、说话的人和背景噪音，也无法输出笑声、歌唱声和表达情感。

而最新的GPT-4o延迟很低，与人类在对话中的反应时间相近，讲述故事宛如真人。与现有模型相比，其在图像和音频处理方面很出色，甚至可以从急促的喘气声中理解“紧张”的含义，并且指导对方进行深呼吸等等。

可以说，GPT-4o使得AI表达有了“感情”，是迈向更自然人机交互的关键一步。OpenAI首席执行官奥特曼表示，GPT-4o的语音功能让人想起了电影《她》，“感觉就像是电影中的人工智能，我仍然对其感到惊讶。”

目前，GPT-4o已对所有用户免费开放，付费订阅的ChatGPT Plus用户的消息数量上限是免费用户的5倍。

OpenAI的首席技术官Mira Murati表示,未来做产品要免费优先，让更多的人使用。业内人士称，技术迭代优化和费用下降将加速大模型走向行业应用。

不过也有观点认为，OpenAI之所以“祭出”一些免费功能，在于行业的竞争异常激烈。无论OpenAI做出怎样的创新，在Meta，谷歌，亚马逊，xAi等强敌环伺的背景下，都容易被模仿甚至被赶超。此次发布会，也宣告新一轮技术战和价格战的开始，其他科技巨头也将在未来一个月内公布AI最新进展。

值得一提的是，目前AI技术的快速发展也引起一些担忧。围绕版权问题的争议持续困扰着AI企业，许多创作者也担心，AI大模型的训练涉及侵权问题。

此外，当地时间5月14日，在瑞士日内瓦举行中美人工智能（AI）政府间对话首次会议，就AI科技风险、全球治理等问题进行交流。

作者：飞鱼