12月22日,以“数字文化 智能视听”为主题的2024(GIAC)智能视听大会在青岛举行,旨在打造全国数字文化产业的协同创新平台,以智能视听赋能文化产业高质量发展。微博COO、新浪移动CEO王巍受邀参加本次大会,并分享了AIGC时代下,视频大模型的发展现状以及面临的挑战。
视频大模型的应用潜力巨大,这一领域已成为国内外诸多平台着重发力、激烈争夺的AI应用方向之一。
在这样的背景下,王巍表示,视频生成已进入多强竞争时期。“在国际范围,有Google的Veo 2、OpenAI的Sora等,这些头部玩家在视频生成领域具有较大影响力。在国内,快手可灵、字节即梦等产品实力也很强劲”,王巍表示,就目前实际情况而言,国内视频大模型所呈现出的效果和质量并不逊色于国外头部公司产品。
为了能够生成更高质量的视频内容,当下视频大模型的研发重心聚焦于构建一系列便捷高效的视频内容编辑工具,拓展视频创作的无限可能。
王巍介绍,“OpenAI发布的Sora提供了很多编辑工具,譬如re-cut功能,它允许用户找到视频中最满意的几帧,以此为核心向前后方向延伸以完成新视频的生成。这些AI视频编辑功能的不断涌现,为视频创作增添了更多创意元素。”
王巍还以电影制作模式为例,分享了视频大模型驱动下,将来可能呈现的智能视听形式:人类创作者确定主题和故事梗概,GPT生成电影分镜头脚本,视频生成工具Sora根据脚本自动生成分镜头视频内容……这些包括视频大模型在内的人工智能应用未来会贯穿整个视频内容制作过程。
虽然视频大模型在当下取得了突破性进步,但其发展之路仍面临诸多亟待解决的问题与挑战。“譬如目前视频大模型生成的视频内容往往逼真度欠佳,细节处理的不到位,在生成长视频时也有些力不从心”,对此,王巍表示,新浪在AI技术的使用上,会根据视频类型做区分。
“今年我们举办了新浪新闻探索大会,开场的探索主题视频就是我们完全利用视频大模型制作的,画面流畅自然,效果非常好”。但在一些需要真人参与的视频节目中,AI技术应用还有改进空间。王巍继续举例介绍,新浪新闻的真人秀访谈栏目《热浪之外》,需要嘉宾之间有一些互动,视频大模型可以生成人物与场景融合的远景视频,但对于手部姿态、面部表情等细节的生成还不太成熟,因此这类栏目还是主要由真人拍摄来完成,AI可以辅助剪辑包装。”
王巍指出,这些问题严重影响了视频大模型的应用效果,需要在后续的研究中不断探索改进,以突破现有困境。