OpenAI GPT-4 Omni 模型可以实时解释音频、视频和文本

ChatGPT 的最新版本有望成为迄今为止最先进的版本。

OpenAI 已发布其 ChatGPT 机器人的更新。 GPT-4o 更新承诺为所有用户提供更大的易用性,并全面提高速度。

“GPT-4o(“o”代表“o​​mni”)是迈向更加自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出,”读到OpenAI 网站。 “它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间 (opens in a new window) 相似。它与 GPT-4 Turbo 在英语文本上的性能相匹配和代码,对非英语语言的文本有了显着的改进,同时 API 的速度也更快,成本降低了 50%,与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。”

OpenAI 技术负责人 Mira Murati 在周一的直播中谈到了最新的 ChatGPT 新增功能。她展示了它的一些功能,包括一些新的翻译功能。通过最新的更新,ChatGPT 现在可以跨 50 种不同的语言运行。

OpenAI GPT-4 Omni x BeMyEyes 演示#OpenAI #GPT4 #计算机视觉 @BeMyEyes pic.twitter.com/Yr0wpFyFin

— Shacknews (@shacknews)2024 年 5 月 13 日

正如所指出的美国全国广播公司财经频道Murati 非常感谢 NVIDIA 首席执行官黄仁勋 (Jensen Huang) 为 OpenAI 技术提供的帮助。英伟达有一个大量资金投资人工智能领域,帮助该公司实现盈利好于预期

Ozzie 自从 5 岁拿起他的第一个 NES 控制器以来就一直在玩电子游戏。从那时起他就开始沉迷于游戏,只是在大学期间短暂离开过。但在 THQ 和 Activision 的 QA 圈子里呆了多年之后,他又被拉回来了,主要花时间帮助推动《吉他英雄》系列的巅峰。奥齐已经成为平台游戏、益智游戏、射击游戏和角色扮演游戏(仅举几例)的忠实粉丝,但他也对任何背后有精彩、引人入胜的故事的事物着迷。因为如果你不能用新鲜的樱桃可乐来享受好故事,那么电子游戏还有什么意义呢?