全民K歌深耕音频技术，打造移动端高水准录唱体验

随着移动互联网的普及,越来越多的人开始使用移动端进行音乐创作和录唱。然而,由于移动设备的硬件和软件限制,要实现高质量的录唱体验,在技术上仍然面临着许多挑战。全民K歌从2014年开始深耕移动端上的录唱技术,通过多年的技术沉淀,我们建设了一整套的高质量录唱技术体系,本文将介绍一些关键技术指南,包括录唱时以及录唱后的编辑相关部分,帮助大家了解如何在移动端实现低延迟录唱、词伴对齐、声伴对齐、耳返、升降调、人声增强、3A处理、修音等技术,从而实现高质量的录唱体验。

低延迟、高音质打造丝滑录唱体验

音乐创作和录唱已经不再局限于专业录音室和昂贵的设备,但移动端录唱面临着诸如延迟高、录音品质不稳定等挑战,全民K歌技术团队为用户打造了丝滑录唱体验,着重优化了以下关键方面:

首先,干声采集参数对于录唱音质的影响至关重要。为了获得高质量的干声,我们需要选择合适的采样率、位深、声道数等参数。此外,合适的录音设备的选择和正确的录制手法也同样影响到最终采集干声的效果, 全民K歌会实时使用算法进行检测,对于可能存在的问题通过交互给予用户引导。全民K歌技术团队推荐采用 48kHz、16位、单声道进行录制,采集到的干声进行双声道转换,重采样至统一的采样率以输出给业务层使用,采集到的干声还会进行适当的质量检测如是否为静音数据、干声的响度等。

其次,在移动端进行录唱时,延迟是一个非常敏感的细节体验问题。低延迟录唱是指在录音和播放过程中,声音信号的录制和处理时间尽可能短,期望达到人耳无明显延迟感知的实时传输和播放效果。全民K歌安卓端采用高性能、低延迟的 OpenSL ES和AAudio API 进行录制,通过优化录制器的采样率、位深、缓冲区大小等参数,以满足低延迟场景的需求,最优可获得 30-70ms 的录播延迟,目前处于行业领先。

此外,更高的采样率可以容纳更多的用户原始歌声的高频信息,尽可能保持原有作品的听感效果。采样率是录音设备每秒钟甚至更短的时间单位内对声音的采样次数,全民K歌逐步将采样率提升至 48kHz,未来计划支持更高的96kHz采样率,以提升用户干声品质。

最后,全民K歌在蓝牙耳机录唱的场景中也做了技术提升。蓝牙耳机录制是目前业界相对领先的一项技术,市面上蓝牙耳机相对于有线耳机通常有着耳返延迟高的通病,但全民K歌通过和硬件厂商深度定制,目前在华为FreeBuds蓝牙耳机上可以实现耳返延迟在40ms以内人耳完全无延迟感的录唱体验,同时搭载了耳返音效能力,完全实现了无线极致录唱体验;同时和魅蓝Blus K耳机合作植入了K歌音效能力,提升录唱效果;另外全民K歌和Vivo蓝牙耳机tws 3e深度合作,通过自定义协议实现蓝牙耳机录唱的同时,可以在全民K歌平台上对耳返开关、音量大小等参数进行调节设置,提升整个录唱的体验。

集合多元技术增强录唱的细节表现力

全民K歌还在整个录唱环节进行了深度优化,通过收音检测、词伴对齐、声伴对齐等技术,提高了录唱的精细度,为用户提供了更加细致的交互体验,确保录唱作品的高质量。

收音检测是指在录制过程中,通过实时监测录制声音的状态并及时提示,如是否出现爆音、录制音量的大小、人声音量是否合适、环境是否嘈杂(背噪)等,协助用户录制到更高质量的人声数据,高质量的人声数据是高质量作品的一个基础。基于一段时间的 dB 数值的统计以及分析,估算人声音量或者是爆音的情况,如此可实现结果的一定准确性,且尽可能少的资源占用。基于 MCRA 噪声预估算法,实现了 0.5 秒数据的背噪预估,配合相关的操作交互,在录唱中给用户更好的提示引导。

词伴对齐是指在录唱过程中,将歌词与音乐伴奏进行精确对齐,使得歌词与伴奏在时间上保持一致。全民K歌使用QRC格式歌词,歌词的每个字都有对应的起始时间和持续时间,通过伴奏的进度实时更新歌词的进度,保证了歌词和伴奏的实时同步。全民K歌技术团队也开发一套算法,可校正线上的歌词和伴奏的对齐精度。

声伴对齐则是指在人声和伴奏混合时,对人声和伴奏的时间进行精确调整,使得它们能够完美地同步播放。这种对齐技术对录唱来说非常重要,因为如果人声和伴奏的时间没有对齐,就会影响整个演唱的听感。全民K歌基于人声和伴奏的音频指纹,以原唱作为参考选择最佳的remix延迟,同时也提供了正负600ms范围的手动调节交互面板供用户进行精细度调节,达到听感上的同步。

智能伴唱是指录唱时,在适当的时候提供伴唱,帮助用户更好地进入演唱状态。相比使用原唱,智能伴唱在开头或者关键位置进行伴唱,可以避免用户唱歌跑调,并且实时分析用户的声音,在跑调的时候进行伴唱帮助用户唱回到原来的调上。全民K歌的实现方案是从人声引出旁路,结合响度和音准信息评估用户当前的熟练程度,动态调整伴奏和原唱的比例,智能地给用户进行伴唱引导,辅助用户更好地完成演唱。

录唱过程中,通过调整音乐的升降音调来改变声音的高低。升调是将低音变为高音,降调则是将高音变为低音。这项功能在K歌等场景中非常实用,可以帮助用户更好地适应伴奏的音调,提高演唱效果。通常在伴奏中,同时包含了多种乐器演奏的声音,不同乐器之间的特性并不相同。在升降调的过程中,类似吉他之类的弦乐需要调整音调,但是类似鼓点的声音因为没有音调信息反而需要保持原样避免处理后变得拖沓。全民K歌的实现方案首先会对音乐中瞬态和谐波的分布进行逐帧的分析,只调整谐波的升降,同时保证帧间相位的连续,瞬态信号会只做位置的调整而不进行拉伸,进而保持原有的打击感。

耳机返听是一种实时音频处理技术,可以将录唱过程中的声音实时反馈给用户,通过耳返,用户可以实时调整自己的音量、音色和节奏,从而提高录唱质量。目前全民K歌安卓的耳返分为两种,硬件耳返和软件耳返。其中硬件耳返通过和硬件厂商深度定制,包括华为、荣耀、Oppo、Vivo、三星、小米、一加等硬件耳返,在硬件HAL层控制有线耳机录制到的声音直接送到耳机端,减少数据从硬件往软件的步骤,减少耗时,同时在部分硬件厂商HAL加入简单EQ实现了硬件耳返上的音效效果;另一种是软件耳返,即通过软件层控制录制器录入的声音回传给HAL层,软件耳返的录制器包括了OpenSL ES和AAudio,其中AAudio作为内部超低延迟能力,在部分手机上达到40ms以内,可以媲美硬件耳返,全民K歌的软件耳返延迟目前也是处于行业领先位置。iOS端实现的是软件耳返,耳返的实时性,与录制数据的回调间隔息息相关,间隔越短才会有更高实时性的耳返。AudioUnit 是目前 iOS 上录制回调间隔最小的,可达 5ms。通过使用系统提供的 AudioUnit 组件,同时实现「录」和「播」两个功能,每录制到 5ms 数据,便可控制 AudioUnit 立马进行播放,从而实现仅 17ms 左右延迟的耳返,处于行业领先。

多维打分是全民K歌中一套用户唱歌表现的评价系统,不但包含业界普遍认可的音准打分,更是行业内首创更丰富的多维度打分系统,使用基于原唱模版的有参考自研算法,对用户唱歌时的气息、节奏、技巧等纬度进行多角度评价。在此基础上还持续引入新生技术,创新性地研发了基于神经网络模型的无参考的歌声评价系统,对用户唱歌时的表现做出客观评价,帮助用户提升唱歌水平。全民K歌首创的有参考+无参考的评价体系,已经成为行业领先。

音频处理技术助力打造高品质音乐作品

在音乐创作领域,音频处理技术的不断创新为打造高品质音乐作品提供了强大支持。全民K歌技术团队致力于提升音频处理的各个方面,为录唱音乐作品营造注入流畅、自然的音乐效果,增加音乐表现力,助力全民K歌用户创作出更为出色和精致的音乐作品。

3A处理是音频数据采集后的预处理,是指自动增益控制(AGC)、自动噪声抑制(ANS)和自动回声消除(AEC)等三种音频处理技术。全民K歌实现3A处理有传统DSP方案和自主研发的神经网络模型方案。传统DSP方案,是基于经典的Wiener Filter架构实现线性回声消除,同时叠加非线性处理模块进一步抑制残余回声。模型方案是基于全民K歌大规模的真实歌声数据,训练神经网络模型来学习唱歌场景下的回声特征,在最大程度保持歌唱音质的前提下,抑制回采信息,获得清晰高品质的处理后歌声数据。ANS同样使用DSP与AI结合的手段实现不同场景下的降噪需求。

录唱过程中的音效处理是指在录制歌唱表演时,对声音进行后期处理,以增强或调整音频效果。音效处理可以包括添加或消除某些声音元素,调整音量、人声均衡、混响等参数,以及进行其他音频编辑操作。这些处理可以提高音质,使声音更加丰富、生动和有趣。全民K歌预置了涵盖空间渲染、EQ、Filter、Delay在内的各类数字效果器,通过服务器下发配置文件动态组合音效处理链路。同时全民K歌支持真实采样的脉冲文件来实现卷积混响,营造更为真实的现场体验。

声伴比是指人声和伴奏之间的相对音量比例,是一种衡量音频系统中人声和伴奏音乐之间平衡的指标。声伴比决定了人声和伴奏在最终混合音频中的相对清晰度和突出程度。一般来说,较高的声伴比意味着人声在混合音频中较为突出,而较低的声伴比则意味着伴奏在混合音频中较为突出。录唱中,为了更好地帮助用户更清晰地听到自己的声音,同时保持音乐的整体效果,全民K歌开发了一套智能声伴比技术,自动调节和控制录唱过程中的声伴比。在作品合成时,通过优化处理链路中各环节的增益,保持处理前后人声的响度不变。同时以原唱中人声和比例作为参考,动态调节用户干声和伴奏remix的响度比例。

人声增强是音频后处理的一项技术,主要作用是提高录唱中人声的清晰度、响亮度和音质,使人声听起来更加清晰、明亮和易于听清。这种技术可以通过滤波、增益、降噪等多种方法来实现,以便在录制音乐或演唱时使人声更加突出,同时减少背景噪音或其他音频元素的干扰。全民K歌通过有机组合降噪、多重滤波、多重激励器,并根据不同的用户性别、音色等来应用不同的处理参数,对不同用户实现了适配,提高了用户的演唱质量。

后期修音是对录唱作品进行一番调整修饰处理,比如增加响度、提升清晰度、调整音准和节奏等。录制干声合成音乐作品时,经常会遇到一些音质、音准、音色等录唱质量问题,修音技术可以通过对声音时频特性分析,并做针对性的检测和处理,实现对录唱干声的音质、旋律、音效等全方位的调整与修正,美化干声质量与色彩,让音乐作品更加流畅和自然,听感更加和谐出色。全民K歌通过MIR信息分析和获取用户干声多维度特征,使用修音模版对分句、分词、音准、技巧、效果等多维度参数进行评估和优化,再使用传统信号处理以及AI技术实现对应维度特征的修音处理,同时高度适配原始歌声旋律走向,最终得到修音后的和谐歌声。

综上所述,全民K歌历经近10年研发,建设了一套完整的高质量录唱技术体系,为移动端用户提供了领先的录唱体验,伴随着软硬件生态的发展,有效地解决了移动设备录唱所面临的独特技术挑战。不仅为用户提供了优质的录唱工具,让用户能够在移动端轻松享受到高水准的音乐创作和录制体验,也为音频处理领域的技术演进和创新提供了实际案例,为技术的落地运用绘制了更广阔的发展蓝图。

标签：