GPT-4o 重磅发布 RTC 成为大模型关键能力

2024-05-20 12:13:04     来源:

北京时间5月14日凌晨,OpenAI 发布了新一代旗舰生成模型 GPT-4o,这是一款真正的多模态大模型,可以「实时对音频、视觉和文本进行推理」。核心亮点包含:支持与 AI 实时语音对话,且响应时间达到毫秒级;交互中可识别人类情绪并以相应的情感做出回应;多语言能力的提升。

包括 OpenAI CEO 山姆·奥特曼在内的很多人都联想到了科幻电影《Her》里那个幽默风趣、善解人意、似有心灵感应一般的 AI,GPT-4o 在语音视频上的交互能力,让科幻正在加速走向现实。

大模型的实时音视频交互成趋势 RTC成关键能力

相比于 GPT3.5、GPT4,GPT-4o 最核心的区别在于文本、视觉和音频由同一个神经网络处理,不仅降低了延时,还捕捉到了更多的信息。此前基于 GPT3.5或 GPT4的 AI语音助手是通过 STT 将语音转成文字再输入给大模型,大模型生成文本响应后再通过 TTS 输出语音给到用户,平均延时达到2.8秒(GPT-3.5)和5.4秒(GPT-4)。而GPT-4o 直接将语音实时输入给大模型,并大幅提升响应时间,最终实现了与真人聊天一样自然流畅,AI的处理反应已经达到人类的高度和速度,而实现这一跨越式技术进步的关键,一是大模型的进化,二是RTC能力的应用

GPT-4o 的发布引起了业界的广泛关注与强烈讨论,也透露出一个重要的信号: 支持端到端实时多模态将成为当下大模型发展的新趋势,实时文本、音视频传输能力,将成为实时大模型的标配。在 GPT-4o 的推动引领下,未来其他大模型厂商或将快速跟进,提供端到端实时多模态能力。

未来大模型的AI交互将更具真实感

GPT-4o 还有一大核心亮点就是支持实时视频输入,通过前置摄像头设别你周围的环境,观察用户的面部表情,分析其情绪,再根据场景生成多种音调 Tones,带有人类般的情绪和情感,如兴奋、冰冷、含羞等,通过实时视频输入还能让它在线解答各种问题,支持数学运算、游戏输赢判断等。

通过实时语音、视频输入信息的理解和高度拟人化的语音输出,GPT-4o 所呈现的 AI 交互 更具真实感与沉浸感,这也是所有大模型一直在发力的方向,未来借助低延时、高音质的 RTC 技术,有望打造更极致的人与 AI 交互体验。

图:相比 Whisper-v3,GPT-4o 在语音识别性能方面有了大幅提升

图:GPT-4o 的视觉理解评估能力也遥遥领先

在大模型的应用场景方面,除了已经在应用的AI口语老师、AI电话客服、AI社交陪聊场景,未来实时互动+AI+智能硬件也有望诞生新的场景。想象一下,一款加载了GPT4o 的智能眼镜或耳机可以变成你工作中的助手,解答各类难题,也可以是生活中的“倾听者”陪你聊天,也可以是旅游中的虚拟导游,为你提供视觉攻略,这很可能是下一个时尚与科技兼具的爆款硬件。

在GPT-4o 发布后,很多网友也提到了 GPT-4o 的社会公益价值,例如大模型通过智能眼镜的摄像头开启视觉能力后,可以给盲人带来精准的路线导航,盲人通过与搭配大模型的智能眼镜对话问路,智能眼镜在识别人周围的环境后,做出最精准的路线指引。

声网 AIGC 站式音视频解决方案

针对大模型的交互能力,声网目前已可以提供 基于大模型的全链路实时音视频方案,可以帮助大模型厂商构建实时音视频互动的能力,用户可通过麦克风与 AI 进行语音、视频形式的实时互动,并且对话中做到行业内遥遥领先的低延时对话体验。

声网的 AIGC 一站式音视频解决方案也可以实现像 GPT-4o 的音频对话能力。声网提供封装完整的 SDK,并支持模块化能力的灵活拼装,包含 RTC 实时音视频、实时消息等多种能力,并支持 API 快速调用,提供开箱即用的场景化 Demo,最快 3h 即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言,可以节省很多开发时间。

如您想进一步了解声网的 AIGC一站式音视频解决方案,可以在声网公众号找到这篇文章,扫描文章底部的二维码进一步咨询。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

钉钉与连连数字签署战略合作,连连一站式支付能力进入钉钉底座
塞乐瑞是什么,殿堂级细胞抗衰科技,焕发40万亿细胞青春活力
单微米级喷墨3D打印技术现身东方,泰利斯赋能新质生产力
2024数据安全发展大会:圆桌对话探索温州“智算强城”未来
《蛋仔派对》为守护未成年绿色安全游戏体验,下架1200+违规地图
合思财务档案扩展解决方案,无需开发即可档案管理范围自定义扩展
乘风时代·破浪前行——特易资讯2024外贸智能化峰会宁波站圆满落幕
学而思携手北京大学生物标本馆,博物馆日带全国中小学生“云科考”
“不做家务,体面由我”,小天鹅双洗站MAX新品问世
从院线到家庭,GEMO金茉强势布局家用水光针独立品类
探索智慧服务新高度,2024 OPPO服务生态开发者沙龙在京举行
2024上海KBC | 朵纳家居开启全球化战略新征程
学术志“中国首届AI学术论坛”火爆全网引热议
骑士归来!擎天战神宏碁暗影骑士·擎6抢先剧透!
浙财大教授张文宇:以人机物融合群智计算突破算力瓶颈
520甄选 三星BESPOKE缤色铂格冰箱给她不一样的爱
幼儿园家具生产厂家品牌华森葳2024全国经销商大会圆满收官
华为发布星河AI制造网络,构筑智能制造新基座
教育系统网络安全工作研讨会召开,华为致力构筑教育强国创新基座
中国移动云南智算网络大会盛大召开 智算领航共创AI+新时代
IIFAA本地免密认证能力适配鸿蒙星河版,交通银行等首批接入
「数字风洞」AI大模型安全测评 内容安全篇丨通义千问Qwen-72B(开源版)发现811次风险预警
闪耀AICon!数势科技正式发布全新智能分析产品SwiftAgent 2.0
绿色科技赋能美好世界,京东方携手中关村论坛共探科技未来
南昌市中小企业高质量发展峰会暨华为(南昌)智能智造赋能中心成功举办,共商中小企业数字化实施方向与路径
博物馆VR漫游记:和如视相约“云上”,领略古今文明之美
抖音生活服务上线“520约会季”专区,推出5.2元团购及品牌特价
北京国际摩展:全景时光 PanoX V2 耀目登场,开启运动骑行新视界
示范引领 打造标杆丨派勒循环万吨废旧锂电池回收标准线迎来百人观摩团
2024年世界电信和信息社会日主题活动在京召开