新年伊始,OpenAI 扔出一枚重磅炸弹——发布文生视频模型 Sora。作为一款全新生成式人工智能模型, Sora能够根据文本指令创造出既逼真又富有想象力的场景,生成多种风格、不同画幅、最长为一分钟的高清视频。
从OpenAI 官网展示的众多案例我们可以看到,无论是效果、时长还是视频的真实性、稳定性、一致性、分辨率等方面,sora的能力都实在令人震惊!
截图自Sora生成视频
Sora 生成式AI新里程碑
据介绍,Sora采用了扩散模型和Transformer架构的结合(Diffusion Transformers, DiTs)。扩散模型通过逐渐添加噪声来破坏图像,然后学习逆向过程来恢复图像。Transformer架构则可以捕捉图像中的全局依赖关系。
Sora的生成过程可以分为以下几个步骤:将文本描述转换为一系列的语义向量;然后将语义向量输入到模型中,生成视频的潜在表示;将潜在表示解码为像素,生成最终的视频。
相比 ChatGPT,Sora有了质的飞跃。Sora不仅是一个视频生成工具,它还代表了AI在创意表达和视觉艺术领域新的可能性。
利用Sora,用户通过简单的文本描述,就能生成复杂、高质量的视频内容。这种能力打破了传统视频制作的界限,将视频生成内容能力拉到了一个全新的高度,也为内容创作、媒体、娱乐等行业带来了前所未有的机遇和挑战。
完美的视频 需要更深入人心的音频
Sora已经在影视界掀起了一场革命,其在视频生成长度、连贯性和视觉细节方面实现了前所未有的突破。但如此精彩的视频,因为声音的缺失,效果大打折扣。
而接下来,语音初创公司ElevenLabs用AI语音技术,成功为Sora视频添加了声音,无疑是画龙点睛的一笔。
从ElevenLabs发布的演示视频中,可以听到AI生成的各种声音元素:小鸟的叽喳声、狗的狂吠声、汽车行驶的轰鸣声、地铁的咔哒声、欢乐的舞龙锣鼓声,还有海浪拍打岩石的声音等。这些无一不为OpenAI的Sora视频模型赋予了生命,让本来静默无声的视频作品,瞬间充满了生命力和真实感。
AI语音技术 赋能音视频产业
Sora和ElevenLabs的梦幻联动,证明了AI技术在音视频领域的无限潜力,其强大的生成能力赋能音视频生产的各类场景,让创作者可以更自由地使用AI工具表达自己的想法,为内容创作提供了新的视角和工具。
在当下数字化时代,视频已然成为最富吸引力和最具影响力的媒介之一。从社交媒体到在线教育,广告娱乐,视频几乎渗透了我们生活中的方方面面。同时,随着用户鉴赏能力与鉴赏标准的不断提升,要求创作者不断增强创意设计、加快创作频率。
然而,一段高质量的视频内容往往需要复杂的后期制作以及专业配音,对许多创作者来说是一个不小的挑战。进一步降低音视频制作门槛,让创作者能够更容易地生产内容,成为推动音视频+垂直行业融合发展的动力。
标贝科技结合内容创作和音频产业需求现状,不断对产品进行打磨升级。在语音大模型能力支撑下,显著提高语言的迁移能力以及情感表现力,打造了声音复刻、声音转换、情感合成、歌唱合成等方案,可以提供大规模商业级语音定制服务,生成风格多样的情感音色,满足不同层面声音需求。
从技术角度来说,为了精确配合视频内容,AI配音不仅需要文本信息,还需要做到理解文本的语境,匹配业务场景,高度还原视频里不同主体的音色特征。
针对这个难点,标贝科技的全链路深度语音合成定制服务通过深度学习技术,支持声音自选或提供语料定制,可以根据具体视频的角色和情境,生成相匹配的声音。不仅大幅降低了制作成本,还在创作上提供了灵活性和创新空间。
此外,为了帮助用户快速输出音频,标贝科技建立了140余个覆盖不同语种和场景的自有版权音色库。针对多场景AI配音业务,我们提供包括外语、方言、情感音色在内的定制套餐包。无论是影视解说、有声阅读,还是历史解说、教程讲解场景,客户都可以选择适合的音色快速完成配音,让内容生产更加高质高效。
可以预见,sora引爆的生成式AI革命,将推动着我们更快走向AGI(通用人工智能)时代,音视频内容创作也将变得更加丰富、多样和个性化。标贝科技将继续把技术引领作为发展第一要位,加大布局在语音合成领域深耕,实现千人千面的个性化声音定制能力,为音视频频内容创作提供更多的助力。