好内容与好体验齐飞，腾讯视频以AI技术打造智能化综艺制作

当前，AI技术正在全面赋能各行各业，带来生产力的变革。作为国内领先的综合视频内容平台，腾讯视频也在积极探索AI赋能综艺后期制作，加速补齐内容产业在生产过程中的短板。具体而言，综艺节目更注重时效性，其主要困境其实是后期制作与内容更新的“时间”较量。为实现更高质高效的内容供应，腾讯视频基于AI打造了全套综艺后期提效解决方案，通过解决海量素材处理、人工素材检索、人工记打唱词、人工逐帧调色所带来的低效率、高误差等问题，进一步优化整个制作流程，让观众能够不间断享受综艺节目带来的欢乐。

素材处理是所有后期剪辑的基础。如今综艺拍摄素材量越来越大，例如真人秀类节目每天会新增巨量素材，更进一步加剧了剪辑师查找素材的压力，直接影响到剪辑效率。腾讯视频凭借在AI技术领域多年沉淀下来的多模态识别能力与云计算技术深度融合，可在素材上传云端后进行画面、声音、文字、人物等的多模态识别，实现对相似内容的关联索引。基于这一能力，腾讯视频成功推出了一款与后期制作流程紧密结合的PR插件，后期人员可以在使用剪辑工具时直接检索所需素材，彻底告别了以往依赖人工记忆或观看全片的繁琐方式。为防止剪辑环境变化造成素材泄露，该插件还支持在无网络环境下进行素材检索，有效确保了剪辑过程的安全性与顺畅性。

不仅限于剪辑，后期制作还需要对综艺剧情脉络进行梳理，记打唱词就是其中的关键一环。这一步通常依赖专门的人员对综艺嘉宾说话内容进行速记听打，但在庞大的素材量面前，人工唱词准确率和效率均低下的问题就成了持续性内容供给的“拦路虎”。那么如何提升唱词准度和速度？腾讯视频通过拆解唱词工作流程、深耕CAM++、ERes2Net等算法技术，研发了多人声源分离流程和ASR唱词生成管线两项技术，以智能化工作流程辅助对音频的快速听写。

在“听”的方面，多人声源分离流程能够实现在声音环境复杂情况下快速提取干净音频，准确分流出主说话人的音频，为后续机器精确识别嘉宾说话内容筑牢坚实基础；在“写”的方面，ASR唱词生成管线则基于大模型技术将音频转化成文本，并通过自动处理停顿词、纠正人名识别错误等，大幅降低后期人员校对的难度。在这两项核心技术的加持下，腾讯视频打造了一个行业领先的声音和文本处理方案，一段20分钟的音频从处理到唱词生成仅需2分钟，生成的文字内容还将通过字数限制规则以及安全性的检测，查找出有问题的内容并提示后期人员修改。此外，生成的唱词文件无需额外的转化或处理即可直接导入PR剪辑软件，进一步精简了后期人员的工作流程。以操作上的“减法”创造效率“增益”，大大帮助行业工作者从繁杂的基础工作中解放出来，更能专注于创作的同时，也给观众的字幕阅读体验带来质的提升。

凭借高效精准的素材处理能力以及智能化的后期制作流程，腾讯视频综艺后期提效方案在行业中得到广泛落地，目前已应用到《舞台2023》《毛雪汪》等多个综艺节目中，帮助行业工作者将素材查找速度提升至分钟级，唱词生成环节实现100%整体提效，带来生产力的飞跃。后续腾讯视频将进一步扩展其技术应用范围，预计覆盖更多后期制作场景，致力于推动整个综艺后期制作过程的智能化升级。

AI技术的拓展应用背后，是腾讯视频凭借对艺术与科技的高追求，为行业带来的一场综艺后期生产力的变革。这场变革将继续走深走实，在《舞台2024》等未来更多综艺节目中与观众见面，让好内容与时代同行、与观众共鸣。同时，腾讯视频还将通过对AI等前沿技术应用领域的深入探索，持续为影视制作行业注入技术“活水”，激发供给侧潜力，输出更多高品质多样化视听内容。

标签：