IDC中国视频云整体市场第一，阿里云视频云2.0的AI后燃之势

国际权威数据公司IDC发布《中国视频云市场跟踪（2023 H1）》报告，自2018年至今，阿里云持续保持中国视频云整体市场第一，整体市场占比达24.4%。

第一之外，低谷之上

近期，国际权威数据公司IDC最新发布了《中国视频云市场跟踪》，2023上半年中国视频云市场规模达到46.2亿美元。根据IDC定义，数据覆盖了面向视频应用场景的全部公有云和专属云基础设施、音视频内容分发网络CDN、以及在视频云基础设施上部署的视频产品/服务/解决方案，其中2023上半年中国视频云基础设施市场规模36.6亿美元，视频云解决方案市场规模9.6亿美元。

数据显示，2023年下半年阿里云视频云整体市场占比达24.4%，依然稳步保持中国视频云整体市场第一，这也是自IDC 2018年对外公布数据以来，阿里云视频云的持续性第一。

作为赛道的多年领跑者，从直播元年到疫情增势，从后疫情时代到元宇宙，从降本增效到VR幻影，阿里云视频云一同见证了赛道生命周期的流动波转。正如透过此次IDC报告中的数据，便能窥见赛道的短暂乏力。

报告显示，2023上半年中国视频云市场规模同比下滑7%，这也是受疫后终端用户娱乐需求增长放缓、行业客户缩减IT支出等多重因素所影响，相比2022年同期，视频云基础设施市场和解决方案市场也均呈现小幅下滑。

当然，一个赛道的飞行速度总有疾缓之变，恰如IDC分析师表示，“2023年，随着过往主要客户增长乏力带来的寒意不断向上游传导，视频云市场正在经历过去十年中、也可能是未来十年中的低谷。”

我们确实见证了客观环境给中国视频云市场的周期性调整，但更能看到从GPT4.0到行业数智化引发的烁烁之光，看到AI在视频云赛道酝酿的爆发性势能。

可想，低谷之后，必然是可预见的上扬之势，也是我们转向的下一个视角。

视频云2.0进行时

顺着AI的后燃，音视频领域也许不再是粗犷式的随风而长，是更具价值的应用探索，其应用更广、渗透更深，给了视频云赛道新生之力，这也是阿里云视频云着力向前的方向。

所以， AI把视频云升级到了2.0，让视野变得更宽阔。

在阿里云的视角，视频云的内核在进化：如果说云赋予了视频，带来视频云1.0，那如今已经是AI赋予了视频云，带来了视频云2.0，1.0正在向2.0过渡。

在1.0时代，视频应用主要聚焦于消费互联网领域，核心解决成本和体验问题，即B端的音视频企业成本和C端的用户体验。而随着AI算力和大模型兴起，在2.0时代，视频应用转向产业互联网领域，解决各行各业场景化音视频智能应用的问题。

更进一步，视频云2.0在通过基础大模型和场景小模型，助力行业的数智化。

就此，阿里云视频云拥有三大关键力：规模力，历经视频云1.0的多年积淀，阿里云成为全球和国内规模最大的视频云基础设施服务商之一，提供高质量、高性价比的视频服务；智能力，基于阿里云通义大模型，提供横贯媒资生产、处理、传输、消费全链路的产品智能化升级；场景力，基于多元化的行业实践，提供高易用、高性能的视频终端服务套件，全面降低客户使用门槛，同时更能协同场景化小模型实现行业应用的百花齐放。

从数字化到数智化，视频云与AI深度融合，做行业化、场景化的纵深探索，是长远价值所在。

IDC报告显示，针对2023H1市场规模9.6亿美元的视频云解决方案市场，两个行业的动态显然，一个是广电传媒需求在稳定增长，一个是教育行业需求在有效回暖。

广电传媒行业与音视频领域高度契合，阿里云视频云一直在其全链路渗透加强“智能力”。

沉淀几年，“人民日报社AI编辑部”是一个典型。

这是由阿里云视频云与人民日报报社技术部在2020年共同研发，演进至今，人民日报社AI编辑部已迭代至4.0版本，目前可实现各类新媒体产品的自动化、批量化、智能化生产。尤在近日，该产品荣获“王选新闻科学技术奖”一等奖，作为经国家科技奖励办公室批准设立的新闻界跨媒体的唯一科技奖项，用于表彰对新闻科学技术进步推动的突出贡献，这一定程度上侧面映射视频云2.0对行业的促动之力。

再看教育，如果不拘囿在线教育，视频云2.0更可以是对传统教育的一种重塑。这其中，艺术考试的数智化革新，可称为一个照亮行业的标杆。

2023年，阿里云视频云与中国美术学院合作创新，基于智能远程监考PaaS+解决方案，首创“云上艺考”新模式，保障了海内外4万+考生顺利线上艺考，同时，基于各类艺考场景的高复杂度，创新研发“智能防作弊”能力，在保证院校效率的同时，实现教育公平的最大化。美院信息技术相关负责人形象地说这是“千年考试史的变革”，在如今的音视频数字化驱动之上融合AI技术，助力更多艺术院校的普惠应用。今年，该方案也斩获中国信通院“鼎新杯”数字化转型应用大赛标杆奖、一等奖殊荣。

在艺术高校看来，“云上艺考”不只是为应对疫情而被迫采取，它是艺术类专业招生考试发展的大势所趋。视频云恰好有能力、有机会参与到教育形态的重塑。

此外更多，阿里云视频云也在推动升级，比如远程质检、远程医疗等领域。可窥见，叠加了AI的视频云，不再单维满足消费互联网的瀑布，不单纯聚焦直播延展或点播创新，更是渗透到质感复杂的TOB行业场域，做更难探索的、更具社会意义的，而这正是视频云2.0创造力的进行时。

大模型与全智能的探路者

前不久的云栖大会上，阿里云创始人王坚给出预判，“人工智能和云计算的结合将带来云计算的第三次浪潮”。

2023大抵是大模型元年，人工智能和云计算集中式爆发，GPT模型使得计算机对科技创新的革命产生了非常重要的影响。最新的OpenAI开发者大会，更要将APP Store时代移步GPT Store时代。

人工智能和大模型的能量，在制造热烈也在攻克崎岖，阿里达摩院就在近期利用“CT平扫+AI”实现了癌症筛查的极大突破，云计算和AI合体给了社会一股别样的暖流。

借助云+AI，2.0的视频云也可以做的更多，阿里云视频云也在做全智能布局和视频云大模型的探路者。

在过去一年，视频云团队潜入大模型领域，根据音视频业务特点，设计和搭建了一套视频云大模型算法开发的系统架构，整个系统涵盖了分析、规划、推理、评价、训练与微调的全链路，并且该系统是可进化、可决策的。其中，开发了多个算法原子，涉及音视频生产、处理、管理、传输与分发、播放与消费全链路的多环节。

比如，在音视频生产环节，阿里云视频云开发了实景抠图、声音克隆、文生图、图生图、AI作曲等等多个基于大模型的算法。其中人声克隆能力，经过算法的深入打磨，克隆声音与人物原声几乎不可分辨。更进一步，结合语音驱动的数字人技术，人声克隆还可打造出高度真实、自然的虚拟数字人，目前该产品也已上线并广受关注。

同时，考虑到单纯依靠大模型可以实现一些核心基本功能，但离“解决得好”还有不小距离，对此，视频云技术团队还提出了几种大小模型的协同，即让大小模型互相配合，发挥其各自优势。

不仅如此，我们知道大模型提供了多种解决问题的工具，比如问答、对话、图生图、视频描述等等，这些工具正在不断完善，且能力越来越强，但基本都在解决单维度的问题。于是，阿里云视频云也在探索具有感知、规划、行动能力的大模型。

大模型之上，是为了更好的应用。

近些年，为了追求质量、成本、算力、效能等多维的极致平衡，阿里云视频云都在强力投入全链路和全智能的升级：

MediaUni多元融合流媒体传输网络，在全球实时传输网络GRTN基础上升级而来，以一张网同时支持标准与低延迟直播、实时音视频通话、云渲染，数据传输、远程控制等多元业务，实现算网融合、实现高可靠和低成本的动态平衡。

MediaCodec智能编码，将传统编码与AI深度结合，在商业视角极致实现视频质量、成本、算力需求的最佳平衡，尤其凭借新一代编码Ali266的卓越能力，已实现带宽平均节省48%之上。

MediaService智能媒体服务，在帧级别融合媒体和AI能力，完成从传统媒体处理到AIGC的顶层设计和进化，用AI重塑业务能力，实现媒体服务的智能化、多样化、高效化。

MediaBox终端一体化套件，满足音视频能力在行业化和场景化下快速上线的需求，同时叠加场景AI新能力，不断落地微短剧、远程考试、企业直播等场景下的新方案。

媒体处理与服务能力是视频云的核心，也是智能化渗透更充分的领地，而MediaBox易用终端+MediaUni强大底座的交相辉映，恰好是音视频数字化能力在千行百业的低门槛实现和降本增效的高可靠保障。

对视频云而言，无论AI智力融合在全链路的哪个环节，无论大模型还是AIGC，路都还很长。而视频云服务也许即是一款集大成的平台工具，应用在哪，才更关键。

隐性增长，显性能量

言归落地，增长才是市场期待的主旋律。

对于中国视频云的市场规模，IDC此次预测，2027年可达191.6亿美元。

我们观察到，各类综合原因之下，IDC对中国视频云市场的年均复合增长率有所下调，预计2022-2027年均复合增长率在13.7%，但分析师也提示到，“2024-2026增长预期仍存在大幅修正可能，上游音视频平台流量格局变动、终端用户观看视频方式变革，都可能对远期市场增长造成重大影响。”

同时，从解决方案视角，IDC认为，智能化需求可能在中远期爆发，不同于视频生产创作与媒资管理稳定增长方式，假定“音视频+AI”在行业应用需求侧与技术服务供给侧能够在中远期完成商业闭环，则“其他”赛道可能迎来快速增长。

其实，真正的AI时代才刚刚起步，据IDC另一预测，全球生成式AI计算市场规模将从2022年的8.2亿美元增长至2026年的109.9亿美元。

同时，在Gartner发布的2024年十大战略技术趋势中发现，其背后透视一个共同的主题即是AI。其中，针对“全民化的生成式人工智能”（Democratized Generative AI）和“AI增强开发”（AI-Augmented Development）两大趋势，Gartner分别给出预测：到2026年，超过80%的企业将使用生成式人工智能的API或模型或在生产环境中部署支持生成式人工智能的应用，而在2023年初这一比例不到5%；到2028年，75%的企业软件工程师将使用AI编码助手，而2023年初这一比例还不到10%。增速势头惊人。

生成式AI、AI增强技术，自然都与当下和未来的视频云密不可分，尤其相较图文生成，视频生成的技术门槛显然更高，未来的空间也更大。

以往，在音视频领域，我们认为AI的产出质量远不如人工，但这个局面开始发生颠覆性改变，无论是AI修复的图像画质、AI生成的素材质量，亦或AI可以像人一样去理解媒资内容，甚至AI在分析与提炼视频结构上也比人更精细，如今，似乎已经到了音视频所有业务都可以用AI重做一遍的时候了。

恰巧，阿里云视频云生长在阿里云“AI+云计算”的双轮驱动之上，受益于这朵“AI时代最开放的云”，「云智新生」的视频云有为千行演化万象的可能。

制造Cloud Imagine

最后，很想引用IDC分析师魏云峰的一段话，来做视频云的延展之思。

“面向未来，很难预判‘想象力’带来的需求究竟会从哪年、哪个场景再次爆发，但更高清、更沉浸、更交互的终端需求始终代表着超视频时代终端用户追求的方向；同时，广泛分布并连接的视频云边缘资源和整体架构，在智能化浪潮席卷全球后，亦可能在各类宏伟、庞大的构想之下提供更多价值，甚至成为智能化应用和服务落地的催化剂。”

自2018年IDC开始对外发布权威数据以来，阿里云持稳中国视频云整体市场第一。回想2021年，阿里云视频云用“Imagine”主题上演了一场沉浸式峰会，着力勾勒超视频化的想象，从那时乃至更早，就对“视频+云”的空间想象坚定不移，而当下以后，更对“视频云+AI”的新境探索不遗余力。

如果说数学是生成式AI的推演前沿，那想象力是视频云的星海舵向。

总之，视频云的AI时代已来。