英文藏文APP W020161009565839193236.jpg | 微信 111111111.jpg

“有眼睛、有耳朵、有嘴巴”的AI?OpenAI最新发布!

2024-05-14 来源:四川观察(来源:中国新闻网) 作者: 分享:

不是GPT-5,而是GPT-4o。

北京时间5月14日,研发ChatGPT的OpenAI公司,推出了具备“听、看、说”能力的GPT-4o。

OpenAI网站称,GPT-4o的“o”代表“omni”。在英语中“omni”常被用作词根,用来表示“全部”或“所有”的概念。

该公司首席执行官山姆·奥特曼(Sam Altman)此前已预告,最新发布的产品“不是GPT-5,不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西”。

据介绍,GPT-4o可以实时对音频、视觉和文本进行推理,接受文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。

OpenAI称,GPT-4o可以在短至232毫秒的时间内对音频输入做出反应,平均反应时间为320毫秒,这与人类在对话中的反应时间相近。此外,它在英语和代码文本方面的性能与GPT-4 Turbo相当,在非英语语言文本方面也有显著提高。同时在API(应用程序接口)方面,速度更快,成本也降低了50%。

现场,OpenAI展示了GPT-4o的多个应用场景。

例如,在一个演示中,OpenAI前沿研究负责人马克·陈(Mark Chen)通过手机与ChatGPT进行对话。Chen和ChatGPT说,他正在进行演示有些紧张,于是ChatGPT就“像朋友一样”,对他进行了安慰。同时,ChatGPT还能从Chen急促的喘气声中,听出他的紧张,然后对他说“慢一点。Mark,你不是吸尘器。吸气,然后数到四。”

GPT-4o检测人的表情。图自X平台

在另一个演示中,OpenAI后训练团队负责人巴雷特·佐夫(Barret Zoph)把自己的脸对着镜头,让GPT-4o看看自己的情绪如何。在演示的过程中,Zoph先打开了手机的后置摄像头,拍到了木质桌面,于是ChatGPT说,“我看到的好像是木质表面。”而让ChatGPT再试一次后,ChatGPT对Zoph说,“你看起来很开心,笑容灿烂,也许还有一丝兴奋。”

同时,OpenAI还在官网发布了一系列演示视频:GPT-4o可以帮助学习数学、学习西班牙语、准备面试,可以通过画面判断出你正在过生日,然后给你唱生日快乐歌,可以根据要求唱不同风格的催眠曲,甚至还可以当“石头剪刀布”的裁判。而在这些视频中,GPT-4o与演示者的对话流畅,说话语气就“像真人一样”。

有网友表示,根据目前展示的视频来看,GPT-4o在语音交互体验上提升了不少。有网友认为,GPT-4o对算力的需求更大了。也有网友提出,既然GPT-4o具备了“视觉”,它是否可以代替盲人看世界。

OpenAI称,通过GPT-4o,公司跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有的输入和输出都由同一个神经网络处理。由于GPT-4o是OpenAI第一个结合了所有这些模式的模型,因此公司在探索该模型的功能及其局限性方面仍处于起步阶段。

对此,山姆·奥特曼在社交媒体表示,最初的ChatGPT展示了语言界面的雏形,而新的ChatGPT则给人截然不同的感觉。它快速、智能、有趣、自然,而且“乐于助人”。“随着我们增加(可选的)个性化功能、访问信息的功能、代表你采取行动的功能等,我真的看到了一个令人兴奋的未来,我们可以用电脑做比以往更多的事情。”

关键词 >>
分享:

相关阅读

网站地图 新闻 专题 晚会活动 康巴卫视节目 视频 娱乐 图说 文化 旅游
国内国际
涉藏新闻
岗日杂塘
启米时间
法治明镜
向巴聊天
康巴讲坛
康巴欢乐汇
雪域高原
欢乐星播客
快乐汉藏语
周末大舞台
藏歌金曲
云丹科普苑
格桑花开
翁姆报天气
央视新闻联播
康巴卫视新闻
纪录片
微视频
专题片
电影
电视剧
动画片
藏歌藏舞
晚会活动
文化动态
藏传佛教
名家专栏
艺术
旅游资讯
景点推荐
风土人情
旅游宝典
加载更多 >>
涉藏各地
甘南武威天祝玉树果洛海南海北海东海西黄南迪庆州昌都那曲林芝拉萨日喀则山南阿里甘孜州阿坝州凉山木里
合作媒体
关于我们卫视动态播出时间表广告刊例用户协议举报制度

蜀ICP备 15032686号

新闻信息服务资质备案号:川新备14-000059

川公网安备 51019002000121号


中国互联网举报中心

四川省互联网不良与违法信息举报中心


违法及不良信息举报电话:028-8598 1942