在社交出海的大潮中,语聊房一直是最热门的社交场景之一,尽管社交玩法一直在迭代创新,但经典的语聊房场景凭借互动性强、聊天话题广、陌生人社交等属性备受国内外用户的喜爱。在海外市场,Yalla、Clubhouse、Uplive、Mico等都已是人们熟知的语聊房平台。
但在海外市场开疆拓域,其实并没有想的那么简单。相比国内成熟的网络条件、设备性能,海外地区普遍存在网络条件差、设备参差不齐等情况,严重影响语聊房中的用户互动体验,也对APP厂商出海带来了严峻的技术挑战。
海外语聊房音频质量面临痛点:开播环境差、网络条件差、设备参差不齐
1、语聊房场景需要频繁的开麦互动,但海外地区用户的开播环境普遍不好,例如东南亚、南美等地区,环境噪声较大,通过传统降噪技术往往无法有效消除复杂的噪音,特别是在唱歌互动的场景,降噪算法可能会抑制唱歌的尾音,严重影响演唱效果,影响用户体验。
2、海外运营商数量多且类型复杂,各地区网络条件参差不齐,例如东南亚诸多岛国尤为明显、OpenSignal的一份报告就发现,新加坡的移动数据下载速度最快,为47.5 Mbps,而速度第二的越南连新加坡一半都不到,才到20.6 Mbps,马来西亚、印度尼西亚、泰国、菲律宾则更低。 在印尼,市场上就有6个主流的运营商,而当地还有大量3G、4G的用户,网络环境更加复杂,几乎很难顺畅地进行跨国跨地区群聊。
3、海外用户设备和国内差别较大,尤其是第三世界国家设备类型复杂且低端机覆盖很大,来自声网《实时万象》的数据显示,印度、中东、南美地区使用 RTC 应用的低端机占比高,均超过30%,南美为45.8%,接近中国大陆(23.9%)的2倍。想要把用户体验做到最好,就需要兼顾到产品在不同机型上的运行状况,因此设备适配是每个出海产品都要投入大量资源来解决的问题。
针对以上海外音频场景中的用户体验痛点,声网通过凤鸣AI引擎、全球化服务部署以及弱网对抗策略、复杂机型适配等技术能力,可以对音频质量的提升实现多重优化,带来极致的高音质音频体验。据悉,某东南亚头部语音社交应用在线上虚拟社交场景中使用声网凤鸣·AI降噪后,通话时长增加了5%。
凤鸣AI引擎支持100+非稳态噪声消除 兼顾语音高保真
相比传统的降噪算法,声网凤鸣AI引擎的 AI 降噪算法在降噪效果上有巨大提升,传统降噪算法在处理稳态噪声时效果较好,在处理非稳态噪声时,降噪效果会有明显回退,稳态噪声一般指噪声声压级的变化较小,且不随时间有大幅度的变化,如电机声、固定转速的摩擦、转动等噪声。非稳态噪声指噪声强度随时间而有起伏波动,有的呈周期性噪声,如锤击,有的呈无规律的起伏噪声,如交通噪声、小孩哭叫等。声网自研的 AI 降噪算法可以支持实时互动中100+非稳态噪声消除,降噪效果实现了巨大提升。
同时,针对语聊房、直播等场景下用户会外放唱歌的情况,声网也进一步优化了唱歌场景下的AI降噪模型,并提供 48khz 的高音质降噪算法,一方面可有效避免降噪算法抑制唱歌的尾音,保障演唱效果,另一方面还可以消除插拔耳机等操作引入的电流音噪声。我们可以通过声网微信公众号找到这篇文章,在文章中的对比音频可以更直观的体验电流音噪声的消除效果。
降噪会导致声音失真,是大家常常会担心的问题。声网 AI 降噪在强降噪的同时还能兼顾高保真,即使在语聊房多人同时说话的场景下,也可以做到在抑制噪声的同时不对说话人语音产生损伤,使每个人的声音都听得清晰。同时,还实现了在不增加额外运算量的前提下,对远场语音具有明显的混响抑制能力。当一位用户在房间里离麦克风比较远的时候,也依然可以使对端听到清晰的声音,而不是模糊的声音。
声网 AI 降噪算法相比传统降噪算法,计算复杂度都要高很多,对此一些选择在东南亚、南美等低端机覆盖率高地区的出海企业也会担心,既要享受 AI 算法带来的良好效果体验,又要有媲美传统算法的性能,真的能做到两全其美么?答案就是声网自研的 AI 推理引擎,
通过计算图优化等一系列优化加速技术,在保障降噪算法精度的同时,可以使得 AI 降噪算法在 Android、iOS、Mac、Windows、Web 等主流平台以低精度损伤、高性能、低功耗方式运行,使海外很多地区用户的低端机设备不卡不烫,帮助出海企业解决后顾之忧。
全球化部署与弱网对抗 保障流畅的互动体验
海外复杂的网络环境会造成实时互动中的卡顿、延时高等糟糕体验,这也是困扰很多出海企业的重要因素。声网凭借在出海市场的多年沉淀与打磨,具备全球化服务部署的能力。在海外底层网络优化方面,声网一方面使用网络覆盖质量评价标准来指导建设全球边缘基础资源、提高网络覆盖,调整接入策略,优化关键性指标,提升用户体验。另一方面,声网还拥有完善的全球供应商管理体系,采用公有云、私有云等多种资源,覆盖200+国家和地区,特别针对东南亚、中东、北美和国内中小城市、小运营商做网络优化。
以印度地区为例,印度地域辽阔,有28个邦,数字消费人口规模世界第二,仅次于中国。但印度的通信基础设施短板却较为明显,印度拥有数百家网络运营商,网络关系错综复杂,具有基站数量不足、频带有限、数据容量不足等问题,导致用户的网络体验不佳。为了保证用户接入能够做到低延迟、低抖动、降低端到端延迟,声网在各个邦采用不同的网络运营商资源进行测试,得出用于覆盖不同邦最优的接入网络运营商资源,通过最佳覆盖点和最佳网络运营商组合的模式在当地建立了多个覆盖节点,提升了印度地区的用户体验。
面对海外地区普遍存在的弱网环境,很多出海企业往往束手无策,对此,声网拥有一套抗弱网传输与抗丢包算法,结合网络探测(如延时估计、带宽估计等)、抗丢包技术、自适应jitter buffer、网络拥塞控制策略等,可以实现80%丢包情况下,依然能保障音视频通话流畅,为用户在各种网络环境下提供流畅的互动体验。
对于欠发达地区参差不齐的设备状况,在与众多出海客户的多年实践与打磨中,声网已经可以支持适配30000+终端机型,例如One Plus 3T、Samsung Galaxy A10s、Redmi Note7 Pro 等在某地区还依然流行的特殊老旧机型,为每位用户带来流畅丝滑的体验。
凤鸣·空间音频带来沉浸式音频体验
伴随元宇宙、AIGC 等技术的发展,在语聊房等社交场景加入沉浸式的音频效果也成为一种趋势,海外市场亦是如此。声网凤鸣AI引擎同样具备空间音频的技术能力,通过纯软件算法方案,模拟头部球面区域立体声场,利用范围音频、人声模糊、空气衰减模拟等能力,完美模拟现实听觉感受。当用户操作相应角色在虚拟场景里移动,可以实现根据虚拟人物的面部朝向、音源朝向、远近距离与上下高度,呈现不同声音效果。
以范围音频为例,在空间听觉的研究和实现中,头部相关联的传递函数(HRTF)(Head Related Transfer Functions)与头部相关联的冲激响应(HRIR)占有十分重要的地位。而声网基于 HRTF 头相关传递函数、心理感知声学、声源指向模拟等算法自研了一整套 3D 声场渲染引擎。可以动态模拟空间中任意角度、朝向的声音在传递到左右耳时声音发生的变化从而实现了高精度的声音方位渲染。并且为了追求极致的听感与极致的可用性,渲染引擎以极小的算力要求,支持 48kHz全频带、多路音频渲染,让你在移动端不多费流量、不用担心算力也能畅享多人高清音质互动。
音源的朝向对我们的听觉也会有直接的影响,例如一个人背对着你说话相比正对着你说话声音会显得比较“闷”,因为背对着你说话时声音需要绕过身体这个障碍,不同频率的声波绕过障碍物时的能量衰减程度不同。声网 3D 空间音效还提供音源朝向功能,通过声学建模的方式可以模拟任意角度的音源方向带来的音色差异,最终通过模拟不同音源的位置与朝向,实现音量、音色的差异,从而完美模拟现实听觉的感受。
此外,人在真实环境中对上下、前后这两个方向的感知是比较模糊。这是因为人的耳朵基本上是对称的,相比水平方向,在垂直方向上左右耳声音的音量、延迟基本相同就不足以用来区分方向了。所以在虚拟空间中,声网还对这些方向的听感区分做了增强,让用户在“虚拟空间”中可以拥有超越现实的听音辨位能力。