ChatGPT的热度还未消散,OpenAI在2024开年又甩出另一王炸:首个文生视频大模型Sora发布。
简单来说,只需要一段文本描述作为提示词,Sora就可以生成60s的长镜头高清视频,不仅场景设计十分细腻,角色的表情更是栩栩如生。同时,Sora还具备强大的多镜头生成能力和扩展能力,能够从静态图像中生成动画或扩展现有的视频,并保持角色和风格的一致性和连贯性。
OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI的重要里程碑。
大佬们怎么看Sora?
在数字创意内容飞速发展的当下,Sora的出现改变了我们对视频创作的认知。Sora的工作原理,即扩展GPT的能力做视频和文本对齐。通过将多个高分辨率视频进行降维处理,然后进行密集训练,让模型能更好地遵循文本指令,最终达到想看什么就生成什么视频的效果。
那么圈内的技术大牛和内容行业从业者又是如何评价Sora?
马斯克评Sora:人类认赌服输,但AI增强的人类将创造出最好作品。
360创始人周鸿祎表示,Sora意味着AGI实现将从10年缩短到1年,“未来AGI比的就是算力和对世界的理解”。
谈及Sora最大的优势,周鸿祎提到“这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”“未来AGI比的就是算力和对世界的理解。”
文生视频创企Runway联合创始人兼CEO Cristóbal Valenzuela感慨,以前需要花费一年的进展,变成了几个月就能实现,又变成了几天、几小时。
美国旧金山早期投资人Zak Kukoff预测:一个不到5人的团队将在5年内用文生视频模型和非工会(即非美国编剧工会、演员工会等)的劳动力,制作一部票房收入超过5000万美元的电影。
无论如何,Sora的出现将对视频、影视、广告等更多艺术内容创作领域带来巨大冲击。Sora独自包揽导演、摄影、剪辑多种职责,短视频从业人员可以在几分钟内创作出成品视频。或许不久后,制片公司无需演员就能创作电影将成为现实。
算力短缺加剧,阿尔特曼开启“造芯”计划
Sora文生视频凭借其独特的创意和高质量的视觉呈现迅速爆火。算力与算法的结合,是提升Sora文生视频质量和时效的关键。无论是细腻的画面质感、流畅的帧率,还是精准的特效处理,这一切都离不开强大的算力支持。下图我们可以看到,随着训练计算的增加,样本质量显著提高。
(图片取自OpenAI Sora技术报告)
Sora的背后,对于物理世界的学习和观察能力所需的算力远超文本,这也加剧了算力的紧缺。在技术实现上,Sora采用了先进的扩散模型+Transformer架构,其在训练的过程中会阅读并学习大量视频,以超大量数据集不断扩大模型规模和提高模型表现,无疑对AI服务器、GPU等算力设备的需求提出了更高要求。
考虑到英伟达的芯片一直供不应求,在一定程度上制约了OpenAI的发展。为此,Sam Altman亲自下场“造芯”,计划筹集5万亿至7万亿美元,用于扩大全球AI芯片制造能力,以解决算力短缺的问题,同时减少对英伟达的依赖,更好地推动人工智能技术发展。
国产智算平台迎来更大机会
Sora展示了文生视频在数字时代的巨大潜力,可以预见,随着Sora和AI多模态能力的飞速发展,从文本、图像到视频生成,对智能算力的渴求已愈发明显。这一趋势下,也为国产算力带来前所未有的发展机遇。
(Sora生成:AI想象中的龙年)
优刻得是最早一批响应“东数西算”国家战略的云厂商,已在上海青浦和内蒙古乌兰察布建成两大智算中心,可提供A800/H800等多种高性能GPU算力,包括但不限于英伟达、AMD以及各类国产异构卡型,能够可靠支撑和保障千卡集群的大模型训练及日益增长的推理服务需求。
为进一步提升模型训练效率和人工智能技术的创新步伐,优刻得推出了“孔明”智算平台。该平台具备统一调度和管理训练集群的能力,提供任务管理、监控告警等全面功能,为企业打造稳定可靠的模型研发环境,并实现高效的资源利用和成本控制。同时,优刻得正积极与国产芯片厂商、产业伙伴携手合作,探索国产化智算中心的合营模式,共同为各行业的数字化转型提供坚实的智能算力和应用支撑。
Sora文生视频的崛起,标志着视频生成技术进入了新的里程碑。随着技术的不断演进和算力资源的日益丰富,我们期待一个更加高效、智能的AI新时代到来。