作者:Alessio Jacona*
几乎所有伟大的科幻小说作家都梦想着:一种能够与人类自然交谈并建立情感联系的人工智能。最近也许是最著名的代表作品可以追溯到 2013 年导演斯派克·琼斯 (Spike Jonze) 执导的电影《她》(Her),影片中主角华金·菲尼克斯 (Joaquin Phoenix) 几乎爱上了操作系统。但例子并不缺乏,我们可以引用亿万富翁托尼·斯塔克/钢铁侠的数字管家贾维斯,或者《机械姬》中冷酷且高度智能的机器人艾娃。事情就是这样:随着 OpenAI 开发的生成式人工智能最新版本 GPT-4o 的推出,创建具有类人交互水平的系统的可能性即使还没有成为现实,似乎也变得更加切实。
于 5 月 13 日星期一发布的 GPT-4o(其中“o”代表 Omni,表明该模型天生就是多模态的,即能够理解文本,但也能够理解图像和视频等),表现令人印象深刻能力:在Sam Altman领导的公司在网上发布的各种演示视频中,AI首次展示了明显优于之前版本的实时音频对话能力,基于GPT-4 Turbo模型。这既是因为响应中的特征滞后(即延迟)消失了(通常等于 2 或 3 秒),也因为 GPT-4o 似乎能够感知说话者的情绪,调整语气,包括声音、笑声和声音。甚至在答案中唱歌。后者流畅,看起来很有道理,并且不时出现一些停顿和小的不确定性,使声音更加人性化。举个例子,在演示过程中,两名 OpenAI 研究人员与语音助手进行了现场互动:根据要求,后者创作了一个关于爱情和机器人的睡前故事,并改变了情绪和声音的变化。
另一个重大创新问题计算机视觉以及理解图像的能力:用户可以上传屏幕截图、带有文本和图像或图形的文档,GPT-4o 能够分析这些视觉内容。更令人惊奇的是,在演示过程中,新模型展示了解读自拍照、检测情绪甚至对图像开玩笑的能力。在另一个演示中,使用手机摄像头向 AI 模型展示数学方程,然后 GPT-4o 引导观众解决问题。
效果令人难以置信,但并不是全新的。 :一段时间以来,OpenAI 已经在 ChatGPT 语音助手中启用了以更自然的方式做出响应的能力,但必须明确要求才能这样做,并且模拟仅限于这些技能的另一种应用。巨大的潜力,无论是积极的还是消极的,也许就是我们在FigureAI机器人上看到的——名为Figure01的机器人我们有已经讨论过 - 它将高度先进的运动管理系统与 OpenAI 开发的未指定的生成模型相结合。在显示他工作时的视频中,我们看到他以流畅的方式给出答案,无需任何等待,同时通过专用摄像机展示了“推理”和解释周围环境的能力。 GPT-4o 推出后,很难不认为Figure01 近乎人类的对话能力实际上是 GPT-4o 的预览(当时简称为“GPT”)。
根据 Mira 的说法OpenAI 首席技术官 Murati 表示,借助 GPT-4o,50 多种语言的响应速度和质量显着提高,覆盖了全球 97 人口。除此之外,新的人工智能模型能够实时翻译对话,使不同语言的人之间的流畅沟通成为可能。
速度是多模态带来的礼物:事实上,在这之前该系统的工作原理是按顺序执行不同的过程,例如转录或从文本到语音的转换,有效地增加每个过程的延迟,现在有了 GPT-4o,一切都同时发生,允许人工智能通过语音、文本和视觉进行推理,采用 OpenAI 称为全模型的模式,这让人想起 Google 的生成式 AI Gemini。
另一个新颖之处在于使用该技术的方法:GPT-4o 实际上将免费向所有人开放ChatGPT用户,同时区分AB体验
留言