在谈及GPT-4o的技能事理时,周鸿祎指出,据OpenAI发布会上简短的技能事理先容,差异于传统将把语音先翻译成笔墨处理后再翻译针言音的做法,这次的技能是直接把语音进行了处理,形成了一个整合的大模型引擎,实现对语音输入的直接理解——包括把语音中饱含的感情、感情、语调、口音这些细节都进行了理解,同时是直接输出语音。

周鸿祎谈GPT-4o技能事理:给人工智能装上了“眼睛耳朵嘴巴”让人工智能更像人了_才能_语音 文字写作

“这就带来了一个全新的体验,便是时延大概只有300毫秒旁边,达到了人类和人类发言的相应速率,这样不仅能听得懂你话里的感情,在输出回答的时候也可以伴随着高兴、悲哀、失落望、愉快或者是更繁芜的感情。
”周鸿祎表示。

周鸿祎还指出,除了语音处理层面带来的惊艳之外,有一个随意马虎被忽略的地方是,实际上GPT-4o的还可以直接打开手机摄像头,直接通过手机摄像头授予它更强大的眼睛的能力。
这个可能还比不上Sora,但是它比GPT-4.5的版本可以输入图片输入表格的能力又提升了一步。
“以是总结来讲便是,GPT-4.0相称于给人工智能授予了对知识理解的能力,相称于有了一个大脑,然后GPT-4.5相称于给了一些低级的瞥见的能力,而GPT-4o实际上是给它增加了真正能看懂这个天下的眼睛,和能听明白人说话的耳朵,而且嘴巴还能够自由清闲地表达自己感情和情绪的能力。
”。

在周鸿祎看来,有些人会对这次发布OpeanAI没有推出GPT-5.0以为比较失落望,但是通向通用人工智能不仅是要在超级的推理能力、知识能力、逻辑能力上要赶超人类,更主要的能力还包括跟人交互的能力。
以是,当AI能通过无论是手机摄像头还是无处不在的物联网摄像头更看明白这个天下,而且能以跟人一样的相应速率进行交互的时候,这件事就变得非常恐怖了,“也便是它就让人工智能真正的更像人了”。
(文猛)