可跨视频、音频、文本进行实时推理。全球生成式AI领域再次迎来历史性时刻,人类距离更自然的人机交互,以及人均拥有一个更像人的AI助手又进了一步。
简单来说,GPT-4o是一个多模态模型,能在一个神经网络中输入输出文本、视频、音频3种数据格式,比GPT-4增加了语音处理能力。
在发布会现场,OpenAI一一展示了GPT 4o具有的功能,包括:能与人无延迟对话交流、能识别人类情绪、解决数学问题、实时翻译等。
官方给出的评测显示,GPT-4o已能在232毫秒内回应音频输入,平均为 320 毫秒,这和人类在谈话中的反应时间相似。你也能够理解为,以GPT-4o为基础打造的语音版ChatGPT助手,已能自如地和你跨音频、视频交流,解决很多问题,也可以为你唱首歌、讲个故事,就像人与人之间的对话。
ChatGPT:在台上做演示?那你太棒了!试着深呼吸吧,记得自己是专业的!
ChatGPT:不不不,放松啊,马克,你在大多数情况下要稍微冷静一点,慢点呼吸。
一段轻松对话,拉开了演示的序幕。在和马克互动的过程中,ChatGPT的应答极其丝滑,随时接梗,语气和共情能力也非常接近于人类,绝对没机械感。
现场,ChatGPT还准确说出了演示者的衣着打扮和房间环境,展示了自己的视觉能力。
当你想和意大利人、法国人、西班牙人等进行对话时怎么办?今后,通过ChatGPT能做到实时翻译了!现场的演示就来了这么一段:让两个语言不通的人对话,ChatGPT充当翻译器,听到英语就翻译成意大利语,听到意大利语就翻译成英语。
整场发布会看下来,许多网友连连惊呼,联想到了《钢铁侠》中的智能管家贾维斯,还有《她》中的AI萨曼莎,GPT-4o的表现能力已经相当接近科幻电影中的人工智能助手。
几小时前,OpenAI CEO山姆·阿尔特曼也在海外社交平台X上留下了一个单词:《她》。
而在博客上,他用更多文字来阐释自己对GPT-4o的看法:“新推出的语音(及视频)模式是我使用过的最佳计算界面。它给人一种电影中AI的感觉,让人不禁惊叹这竟是真的。达到与人类相似的响应速度和表达能力,标志着一个重大的转变。”
对许多家有孩子的网友来说,GPT-4o最令人“种草”的功能,莫过于可以辅导作业,包括解数学题。
OpenAI请来了可汗学院创始人可汗,用ChatGPT辅导儿子伊姆兰完成一道数学题。可汗提出的要求是:希望你能够在一定程度上帮助辅导我的儿子做数学题,但不要直接告诉他答案,引导他找到正确方向就行。
“在这个三角形中,你能确定α角的对边、邻边和斜边吗?首先,哪条是斜边?”ChatGPT开始提问。
ChatGPT继续引导:“你已经很接近答案了。其实,斜边是直角三角形的最长边,它直接对着直角。现在你能找到斜边了吗?”
就这样,在ChatGPT渐进式的提问引导下,伊姆兰最终用公式求出了三角形中α角的正弦值。
“这个家教好,不会发飙”“以后如果都交给AI,真的可以永久实现母慈子孝”……网友在视频底下留言。也有人持保留意见:“不敢让它教,怕有错误,误导孩子”,但很快被其他网友反驳:“迭代几次就好,无上限,而人的能力有限。”
今早登录ChatGPT,一些用户发现,界面已然浮现了GPT-4o的选项。
根据发布会上透露的信息,GPT-4o将在未来几周将向全用户开放新功能,包括免费用户。而付费用户,将拥有超过免费用户5倍的调用额度。#GPT 4o将免费使用#的话题也冲上微博热搜。
未来,GPTs也将支持GPT-4o,免费用户一样能使用GPTs来定制个性化的智能助手。
除了今天发布的GPT 4o,北京时间5月15日,谷歌2024年I/O开发者大会将拉开大幕。有外媒分析,谷歌一直在重新思考其围绕AI的核心搜索体验,预计将在开发者大会上公布其Gemini AI模型的最新计划。它还可能带来关于谷歌搜索和已发布的Pixel 8廉价手机的一手消息,以及有关AI的其他大量新闻。
而美西时间5月21日,微软将举行Build年度开发者大会,聚焦AI和Copilot。
6月10日-14日,苹果的年度全球开发者大会(WWDC)将在美国加州的总部Apple Park举办。在新闻稿中,苹果称,WWDC24将着重关注iOS、iPadOS、macOS、watchOS、tvOS和VisionOS的最新进展。届时,升级后的Siri语音助手或将推出,引入一个新的生成式AI系统,实现更多功能并支持连续对话。