澎湃***编辑 李垚瑞(01:07)

片子中的人工智能来了!OpenAI宣告全能大年夜模型:文图音随便率性组合输出可实现人类级别响应_模子_文本 AI快讯

OpenAI的新品终于官宣,是一个“全能助手”。

北京韶光5月14日凌晨,OpenAI发布最新多模态大模型 GPT-4o(o代表omini,全能),支持文本、音频和图像的任意组合输入,并天生文本、音频和图像的任意组合输出。
文本、推理和编码智能方面性能达到了GPT-4 Turbo水平,同时在多措辞、音频和视觉能力方面也达到新高。
据先容,GPT-4o的速率比GPT-4 Turbo快2倍,速率限定提高5倍,最高可达每分钟1000万token,而价格则便宜了一半。

OpenAI首席技能官米拉·穆拉蒂(Muri Murati)在发布会上表示:“通过语音、文本和视觉进行推理非常主要,由于我们正在研究与机器交互的未来。

官网显示,GPT-4o的文本和图像功能将在ChatGPT更新后供应给所有用户,Plus用户的数量利用上限是免费版的5倍(利用上限后会切换回GPT-3.5版本)。
而新版语音模式将在未来几周向Plus用户推出,同时也将会在API(运用接口)中向小范围推出对GPT-4o的新音频和***功能的支持。

穆拉蒂在OpenAI春季更新发布会上先容GPT-4o

在发布会现场演示中,GPT-4o可以像人工智能助手一样,实现用户与ChatGPT的实时交互,不再是一问一答,也不须要其他按键操作。

比如,用户可以说“Hi,ChatGPT”并提出问题,也可以在ChatGPT回答时打断它,它还可以识别用户声音中展现的情绪,乃至实时根据用户的需求来利用不同情绪风格的声音。

据先容,GPT-4o的音频输入均匀反应韶光为0.32秒,与人类对话中的反应韶光相似。

OpenAI表示,在GPT-4o之前,利用语音模式与ChatGPT对话的均匀延迟韶光为2.8秒(GPT-3.5)和5.4秒(GPT-4)。
此前的语音模式由三个独立模型组成:一个大略模型将音频转为文本,GPT-4吸收文本并输出文本,第三个大略模型将文本转覆信频。
这个过程也让紧张的智能源GPT-4丢失了很多信息,比如不能直接不雅观察腔调、多人讲话或背景噪音,也不能输出笑声、歌声或表达情绪。
而GPT-4o通过在文本、视觉和音频方面演习了一个端到端新模型,所有输入和输出都由同一个神经网络处理。

不过,OpenAI也坦言,由于GPT-4o是公司首个结合了所有前述模式的模型,因此在探索模型功能及其局限性方面仍处于起步阶段,GPT-4o也开始扩大红队(测试)的访问权限。

此外,GPT-4o还提高了ChatGPT的视觉能力。
在现场演示中,通过手机实时拍摄的***或电脑桌面屏幕上的截图,ChatGPT可以快速回答干系问题,帮助办理打算、编程等问题。

演示中还涌现了一段小插曲。
由于“幻觉”问题,ChatGPT在还没打开摄像头看到画面时就表示理解了,在演示者提示后,她说“哎呀,我太愉快了”,随后实时辅导完成了一道数学题。

同时,OpenAI还在X(推特)上实时搜集到网友的反馈,进行了ChatGPT的感情剖析演示。
通过演示者的实时摄像头画面,对表情中的愉快、愉快等感情做出了剖析。

GPT-4o的英语和代码文本性能与GPT-4 Turbo相称,在非英语措辞文本方面也有显著提高,能支持50种措辞。
发布会上,穆拉蒂演示了让全新ChatGPT充当只会意大利语与只会英语的两人的翻译,实现了跨语种互换的无缝衔接。

GPT-4o速率比GPT-4 Turbo快2倍,价格则便宜了一半

发布会上,ChatGPT还发布了电脑桌面版和新UI界面。
根据官方公告,目前仅适用于macOS,Windows版将在今年晚些时候推出。

“我们知道这些模型越来越繁芜,但我们希望交互体验变得更加自然、轻松,并且让你根本不关注用户界面,而是专注于与GPT(交互)。
”穆拉蒂表示。

OpenAI CEO山姆·奥特曼(Sam Altman)也表示:“对我来说,与电脑交谈从来没有真正自然过,而现在却很自然……我真的看到了一个令人愉快的未来,我们可以用电脑做比以往更多的事情。

“AI达到人类级别的相应韶光和表现力是一个很大的改变,给人的觉得就像电影中的人工智能,而它的真实性仍旧让我感到有些惊异。
”他表示,“最初的ChatGPT展示了措辞界面的雏形,而这款新模型给人的觉得却截然不同,它快速、智能、有趣、自然而且乐于助人。

奥特曼还发文“her”,或许也表达了他对GPT-4o的评价以及对未来的畅想(在电影《Her》中,人工智能助手Samantha主动给男主人公打了电话,奉告他一些事情)。

山姆·奥特曼的推文

奥特曼表示,OpenAI的一项主要义务便是免费(或以优惠价格)向人们供应功能强大的人工智能工具,“我感到非常自满的是,我们在ChatGPT中免费供应了天下上最好的模型,并且没有广告或类似的东西”。

他表示:“我们是一家企业,会找到很多可以收费的东西,这将帮助我们为数十亿人供应免费、出色的人工智能做事(希望如此)。

此前,据外媒宣布,苹果公司已靠近与OpenAI达成协议,今年将后者的部分技能引入iPhone,供应由ChatGPT支持的“谈天机器人”作为iOS 18中人工智能功能的一部分。

不过,苹果同时还与谷歌就授权Gemini谈天机器人进行了会谈。
而谷歌将在OpenAI这次春季更新发布会之后一天举行I/O开拓者大会,谷歌在大会的官方博文中曾提到“Gemini 时期”,估量将会发布Gemini大模型的最新动态。