声网超级画质 | 实时互动支持4K高清画质背后的技术挑战

2023-09-06 17:18:45     来源:

“至臻画质”是声网“实时高清·超级画质”解决方案中的一项核心能力,不仅支持移动端1080P、PC端4K高清画质,还通过端侧实时超分、暗光增强、色彩增强等算法对画质进行增强与提升,相比技术门槛较高的超分、暗光增强等技术,想要在实时互动中支持1080P、4K高清画质也并不简单,其背后也面临着一系列技术挑战。

总体来说,在实时互动中支持超高清视频的技术挑战可分为“大数据量的网络传输和弱网对抗能力”、“全链路各环节的处理性能和帧率要求”、“综合设备可用性和QoE体验问题”三方面的挑战,接下来我们将逐一解析每一项技术挑战背后的声网最佳实践。

音视频数据量庞大 考验网络传输和弱网对抗能力

在日常生活中,我们下载或者观看更高清的视频,一般都需要更快的网络带宽,在实时互动中亦是如此,想要实现4K等超高清视频的传输,一般需要10M、20M甚至更高的带宽,才能实现视频的稳定传输,普通网络条件下很容易因为带宽不足或者抖动造成大量的网络丢包,引起视频卡顿。

视频越高清也就意味着视频的数据量越庞大,所以一般在传输前都会先用到音视频编码技术,压缩音视频数据的大小,让音视频更容易存储和传输。但压缩后的视频数据量依然很考验网络的传输能力,想要解决实时互动场景下的网络质量问题,需要依赖于传输协议、弱网对抗算法以及媒体传输策略。

在超高清视频的传输场景中,声网除了采用PVC、H265和B帧等高效编码压缩技术之外,在4K画质场景,声网可以做到70% 丢包下视频通话流畅,这其中得益于声网自研的传输协议AUT、抗丢包FEC算法和自适应媒体传输策略。

一方面,声网自研的 AUT 传输协议采用更合理的传输架构和更好的算法,带来更大的传输能力和更高的丢包对抗边界,同时还支持多人视频的 Scalability(可伸缩性)。很多问题在超高清视频场景下会放大,包括弱网对抗,原本还不错的网络带宽能接受 720P 画质,但在1080P、4K画质下是不够的,这时候就会根据每个接收端的网络质量分发最合适的码流,例如从原来的4K 60FPS 降到4K 30FPS,甚至是1080P,让每个接收端都可以得到和自己的网络状态相匹配的流畅体验。

另一方面,声网自研的 FEC 算法能提高丢包恢复率,降低解码端的延迟,最终改善弱网下的卡顿率指标和解码延迟时间。同时声网的弱网对抗算法结合混合 ARQ(自动重传请求)媒体传输策略,可以根据多维度的输入参数信息、网络环境以及用户场景和结果反馈,实现自适应的弱网对抗系统,确保高分辨率场景下抗弱网能力的同时提升视频质量(清晰度、流畅度、延时)。

全链路各环节的处理性能和帧率要求

高分辨高帧率的视频场景,除了编码传输和弱网对抗能力之外,视频采集和渲染的帧率表现以及上下行链路处理的 CPU 性能开销也经常是瓶颈所在。因为每1秒处理的内存数据量最高可达几百MB 甚至1GB 以上,因此针对2K/4K 60FPS 场景声网做了采集、渲染、硬件编解码等全链路的深度优化,全平台支持零拷贝链路,充分利用 GPU 的硬件加速处理能力,以及尽可能的减少视频数据的搬运操作,以降低大量的视频数据处理和流转对于 CPU 的消耗。

这就好比利用集装箱取代传统的散货装卸,可以极大提升货物流转的效率。另外通过将整个视频处理链路拆分成多个子任务,类似于现代工厂的多级流水线,可以提高视频处理的并行度,最终提升整个视频链路的吞吐量。

同时,针对4K 60FPS 超高清屏幕共享采集,声网通过精准的时序控制实现60FPS 满帧率采集,同时采用系统原生的数据格式以避免额外的数据拷贝和转换,比如在 Mac 平台上屏幕采集直接输出 BGRA 格式的 CVPixelBuffer 并且不需要进行额外的格式转换。

(注:CVPixelBuffer:核心视频像素缓冲区,是指在主存储器中保存像素的图像缓冲区。生成帧、压缩或解压缩视频或使用 Core Image 的应用程序都可以使用 CVPixelBuffer。 )

在4K 60FPS 高帧率视频的渲染方面,声网利用各平台显示的VSync机制设计高帧率渲染系统,避免高帧率视频流在渲染模块内丢帧,同时让高帧率场景下的渲染更加均匀,并在中高端设备上实现了端到端2K/4K 60FPS 稳定不掉帧的效果。(注:VSync 是垂直同步的简称,基本原理是将视频的 FPS 帧率和显示器的刷新率同期起来,其目的是避免出现画面“撕裂”的现象)。

综合设备可用性和QoE体验问题

超高清视频在实际应用场景中,不可避免的要面对很多设备兼容和体验问题,相对于普通标清和高清的视频,超高清视频更容易碰到设备不支持,或者设备支持但是明显卡顿或发热的问题,尤其在多人视频互动场景下,设备和网络条件复杂,发送端能做到4K 60FPS,但接收端观众的设备质量参差不齐,例如有些设备解码无法支持4K 60FPS的视频,有些解码只能解20几帧,视频帧不均匀,导致视频不流畅,这些都是设备可用性问题,也成为了阻碍业务应用落地的绊脚石。

解决以上问题,声网的解决方案本质上可以归纳为基于设备能力和网络条件的Scalability(可可伸缩性),综合利用多种工具并自适应调整引擎的参数配置和策略,比如发送端可以自适应选择最合适的分辨率、帧率和码率等等,提供多级的服务能力和灵活性,结合一些场景化API,给出不同场景下的参考实践,最大程度满足业务的综合可用性和QoE体验要求。

例如,声网采用的AutoAdjust(自动调整)自适应策略,能综合业务类型、设备的性能、网络条件和链路各处理模块的状态等,自适应选择最合适的分辨率、帧率和码率,以及视频处理模块的档位、软硬编和网络策略参数配置等等,在避免设备发热和卡死的前提下尽可能保证视频质量体验。

声网的解决方案还具备设备分级和设备能力查询,用归一化的方式,定义设备有多大的能力,能支撑多少内容。同时支持查询设备是否具备比如4K 60FPS 的解码能力等,方便根据业务场景定制最佳方案。

正是有了以上技术的不断实践,声网才能在实时互动中更完美的支撑1080P、4K超高清画质,从而进一步实现视频画质增强、画面视觉效果提升等“至臻画质”能力,此外,声网“实时高清·超级画质”还包含美颜悦色、丝滑流畅、低码高清、PC 开播、玩法升级、数据监测、使用无忧八大礼包,助力开发者与企业实现视频画质、用户体验和互动玩法的全面升级,拓展更为广阔的营收增长空间。

如您想进一步了解声网的“实时高清·超级画质”解决方案,可在声网公众号找到这篇文章,在文章底部点击下方阅读原文,进一步咨询。

标签:

猜你喜欢

AR云游戏盛宴 云南移动5G+咪咕云游戏游园会火热开启
湖南移动携手华为首创FTTR+摄像头方案,使能小微企业安全生产
慧荣科技MonTitanTM平台亮相FMW 2023闪存峰会,为企业级SSD开发提速
天津跳水大爷跳出“6A级景点”,元气因复合配方重塑机体活力
慕思亮相上海家博会 释放健康睡眠财富新机遇
易点天下CGTN案例荣获2023服贸会全球服务实践案例奖
青云科技 8 月活动|浙江教育行业专场、山东企业数智赋能、南京研讨会
国产AI模特商拍神器摹小仙出圈!好评如潮背后有什么秘诀?
realme与诚迈科技携手五年,越级攀登
革新你的工作方式:三星Galaxy Z Fold5引领移动办公新潮流
26.5米!中国水电八局刷新碾压混凝土大坝“芯”世界纪录
PayerMax亮相Seamless沙特站:通过游戏和数字支付助推金融普惠
斗鱼×腾讯视频《葛大爷宝宝巴士》迎来收官,打造暑期爆笑整活直播间
一对一“作文私教”上线,阿尔法蛋以星火大模型提升双语写作力
北斗文创亮相2023粤港澳大湾区(广州)智慧交通产业博览会
因美纳董事会任命Jacob Thaysen博士为新任首席执行官
北京鑫科发展研究院携手火山引擎共创《2023保险科技洞察报告》
绿维文旅大讲堂:用研学的方法论建构万有引力的文旅项目
小明投影亮相2023 CSPC中国智能投影产业峰会 引领智能投影行业品质进化
继华为之后,晓语台再次点亮中国洛神塔!
打造厨电新范式,美的“烹饪中心”亮相“2023数字生态大会-集成厨电创领峰会”
2023服贸会|专访博彦科技刘畅:创新与合规,金融行业对AIGC的审视
钢铁侠Jarvis眼镜来到现实——超轻量级无线AR智能眼镜INMO Go上市
海天瑞声入选「2023值得关注的AIGC公司」
GPTBots助力企业“Use AI Faster“ 极光AI主题研讨会在港成功举办
联通链入选IDC《中国政府行业区块链软件市场份额,2022》报告,位列第四!
ToDesk安全远程办公 如何引领企业数字化升级
突破潮流局限,FARMER BOB构建“交错共生”全新艺术美学
全球第一份《超短焦镜头全球专利竞争分析报告》正式公布,揭示未来视界新篇章
设计师必看的9个MasterGo提效技巧,建议收藏!