Sora的问世给各行业都带来了改变,最先受益于Sora浪潮的无疑会是短视频产业。Sora前的Runway等视频大模型只能生成几秒视频,Sora最多可连续生成 60 秒高清视频,这正是互联网短视频的主流时长。
倘若其彻底开放,用户短视频创作的成本门槛变得更低、效率得到提高,视频内容将进一步爆发式增长,同时更加多元、个性和创意。实际上,在ChatGPT诞生后,国内的“类ChatGPT”应用就如同雨后春笋般诞生……不过,文生视频模型比大语言模型更为复杂,数据样本、算力成本以及场景落地,都是不可忽视的因素。
作为国内推出首个通过备案的视频大模型企业,新壹科技并非凭空黑马。其前身一下科技旗下的秒拍与一直播,曾分别是当年渗透率第一的国民级短视频与直播产品。在更早前,其掌舵人韩坤所创办的酷六网,也是第一家在纳斯达克上市的视频网站。
这些年来,韩坤和他的团队一直在视频行业耕耘,自2018年就开始在探索AI技术与视频的结合。在一下科技与抖音、快手的竞争中落败后接受现实,很早就All In AIGC视频业务,用视频大模型释放AIGC视频生产力。基于海量音视频数据和视频业务经验的积累,以及AI视频的多年探索,新壹科技成了视频大模型赛道不容忽视的玩家。
某种程度上,Sora的核心基石是“理解真实世界”,要做到这一点必须要对大量的视觉内容进行学习。Sora对比其早前的PixelDance、Stable Video Diffusion等雏形期的视频大模型有显著提升,数据量是不容忽视的因素;在国内,新壹科技的视频大模型表现相对成熟,也离不开秒拍、小咖秀、一直播等业务多年来积攒的视频内容底子。
另一个视角,Sora被训练的内容以英文素材为主,它的内容生成也是英文语境,这意味着在其他语种上存在较多本地化的机会,比如中文语义复杂容易出现理解偏差,此前英文版的文生图工具在面对“胸有成竹”“熊熊烈火”等成语生成要求时全都闹了笑话,视频生成同样面临这样的挑战。
再比如,英文语境训练内容下,大模型往往默认男人、女人、小孩都是白人,生成内容很少会有黄种人。类似这样的差异意味着视频大模型需要被“汉化”,中国大模型开发者更理解汉语语义和本土文化,拥有更多本土内容用于训练,大模型生成的内容也更能满足本土用户需求。
正如新壹科技CEO雷涛所言,Sora的诞生无疑会改变AI视频生成市场格局。“就国内而言,要看哪些企业能结合、利用新技术,完善符合国情的产品,比如提供定制化的视频生成服务、跨业态合作等。”
在Sora的素材级视频生成大模型外,行业还需要视频生成辅助工具,通过对不同视频大模型生成的AI素材和传统视频素材进行整合,帮助创作者高效率生成作品级内容,这是新壹科技等视频大模型团队在努力的方向。
当然,看得更远一些,视频产业只是Sora改变的冰山一角。Sora背后的AGI技术以及“理解与模拟现实世界”的能力,将催生AI手机、AI汽车、AI XR、AI机器人等新兴产业,在重构科技产业秩序的进程中,赋予人类全新的力量,而这显然是比“Sora是否取代影像工作者”更值得关注的事情。