腾讯刘杉对话清华陶晓明,探索语义通信与视频编解码跨领域合作新方案

2023-10-11 10:43:27     来源:

近日,在腾讯全球数字生态大会“Techo前沿技术论坛”上,腾讯杰出科学家、腾讯云副总裁、腾讯多媒体实验室总经理、腾讯视频智能创作与内容平台部副总经理刘杉博士,与清华大学电子工程系教授、2021年"科学探索奖"信息电子领域获奖者陶晓明教授聚首,深入探讨了语义通信和视频编解码领域的交叉合作。

刘杉博士一直致力于多媒体及相关领域的技术研究,包括信号与信息处理、音视频与空间媒体数据压缩、传输交互和智能化应用等。她所带领的腾讯多媒体实验室,主要工作涉及两大方面:前沿技术的探索和标准制定,和面向产品的技术研发和应用落地。而陶晓明教授专注于广域特定场景下的语义通信,通过将人脑视觉感知、认知机理融入网络传输通信过程,解决大容量多媒体业务对无线网络带宽需求的压力。

两位专家结合各自领域的专业知识,围绕脑启发的视频质量评价、语义赋能视频编解码以及语义通信与视频编解码跨领域合作这三大方面展开了深入的讨论。

多媒体质量评价新思路,可引入人脑感知、认知、先验知识等特征

刘杉博士提及腾讯多媒体实验室面向产品的技术研发和应用落地,从技术细分领域来看主要分为三大方向:媒体的压缩传输,智慧融合媒体,以及互动沉浸式媒体。这些方向与当前热门的概念如AIGC、XR和元宇宙密切相关。她强调多媒体是一个系统,包括信号处理、压缩、传输、互动、渲染和建模等多个环节,需要联合优化以实现最佳性能和用户体验。性能和用户体验需要高效的质量评价体系量化评价,在传统质量评价体系之上发掘借鉴大脑的特征,来完成多媒体的质量评价,是非常有意义的创新和探索。

陶晓明教授认为,大脑有三个特征能够与多媒体通信相关。第一是在感知,人脑对于QoE能够有主观和定性的判断,能够直接感知到好还是不好;第二是在认知,人脑全局搜索和推理的能力,如果能引入通信的编解码里面,一方面可以降低视频编码的复杂度,还能在传输过程中更好地保护上下文重要的语义信息;第三是在先验知识方面,大脑能够自动匹配之前接触过的认知,如果应用到通信中,能够降低一些特殊场景下对带宽的需求。

深度学习、机器视觉等方法,能够解决更多通用和特殊场景下的编解码需求

视频编解码,在如今5G甚至6G蓬勃发展的现在尤为重要,特别是在多媒体数据压缩中。音频、视频、图像以及新兴的VR、高维度数据等,其数据量通常很大,需要大量存储空间和传输带宽。为了解决这个问题,视频编解码技术应运而生,经过几代标准的发展,如H.264/AVC、H.265/HEVC、H.266/VVC等。深度学习在音频信号压缩方面已经取得了一些进展,但在视频信号压缩方面仍然具有挑战性。

刘杉博士指出,在机器视觉、信息(如语音和图像)处理等方面,深度学习和人工智能已经在不少实际应用中发挥作用,进而推动在视频编解码中的使用探索。目前在视频编解码标准制定中,腾讯多媒体实验室也发现了许多技术提案和趋势,以适应不同应用和环境的需求。

陶晓明教授也表示,在乡村、留守老人和儿童等特殊情境,可以通过引入脑科学的思想,使用脑电图分析来提取人的主观感知,以改善用户体验。此外,陶晓明教授还介绍了一种基于时空素描图的编解码方法,通过提取视频的轮廓、语义和关系等特征,以减小数据量。因此在接收端,需要使用生成式机器学习和强化学习方法,能够实现在特殊长江下降低数据传输量,以满足用户的需求,生成最优用户体验的视频。

语义通信与视频编解码,或能达成跨领域合作

刘杉博士认为,质量评价是无所不在的,包括目前腾讯多媒体工作室正在研究的3D空间视频压缩传输。她认为这些领域尚未成熟,有很大的探索空间,从人脑反馈出发的研究方法十分具有潜力,未来也许会对多媒体编解码标准的改进起到推动作用。陶晓明补充说,在AR、VR和游戏等领域,脑电信号可以提供有关用户体验的宝贵信息,如交互性、感觉和延时等,这对语义通信的研究也是一个新的维度,期待未来能够与腾讯多媒体实验室一道,了解更多用户需求。

腾讯多媒体实验室自2018年初开始代表腾讯公司参与国际标准制定,迄今为止已有超过800项技术提案被多项国际标准采纳并积累超过1500项已授权专利,数十人次在国际标准制定过程中担任重要职务,技术贡献赢得国际标准组织和业界广泛认可。实验室荣获ISO/IEC杰出贡献奖、AVS产业技术创新单位奖、技术与工程艾美奖(Technical Emmy Award)、技术卢米埃奖(Technology Lumiere Award)、数博会领先科技成果奖、世界人工智能大会“镇馆之宝”。同时研发多媒体核心技术应用于腾讯旗下多款产品,为亿级用户提供优质服务。从2018年开始投入包括VR在内的沉浸式媒体XR技术研发和系统建设以及AIGC能力智能内容生产,在2019年首次将VR应用于腾讯产品,之后又陆续为新华社、故宫、敦煌等合作项目以及腾讯WE大会、腾讯全球数字生态大会、东北虎国家公园提供技术支持,以多媒体实验室技术为核心的“VR全景”、“自由视角”、“点云建模”、“点云压缩”等通用解决方案已上架腾讯云官网。2019年,腾讯杰出科学家刘杉博士,向其所领导的多媒体实验室团队提出展开面向“智能化内容生产”技术研发的要求,并在此后的时间里带领团队打造多项核心技术并逐步完善能力矩阵,应用于多个内容生产和创作的业务场景。2023年团队产品XMusic荣获2023年世界人工智能大会“镇馆之宝”。未来多媒体实验室将持续投入相关技术建设,持续为教育、工业、医疗、文旅、地产家居、金融等to B产业场景的建设做底层技术投入。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

抢先看!2023中国移动全球合作伙伴大会移动云展区亮点揭晓
酷狗音乐携手别克空降全国18城 用蝰蛇音效给你车内沉浸听歌体验
无人机表演预告!就在今晚,千机科技集团献礼漯河!
du联合华为发布全球首个“5G-A智慧家庭”
大家人寿北京分公司走进商圈开展金融知识教育宣传活动
全球首个、裸眼3D、4200㎡......用关键数字看亚运LED光显科技
2023中国移动全球合作伙伴大会将近 “星动嗨购节”内容先睹为快
零下20℃仍可正常工作!雅迪石墨烯电池获“石墨烯之父”称赞
特斯联参编《数字基础设施白皮书》,制定“城市数字基础设施总体框架”标准
小众城市旅游热度高涨 WiFi万能钥匙连接线上线下助力文旅融合
创新中国|传统产业逐浪数字蓝海 向智起航
走进清华四川院,绿色能源管理创赢计划第三季聚力构建新型电力系统
细胞好,你也好 MitoQ从微小启程,致力线粒体和细胞健康
职场高效神器 三星Galaxy Tab S9系列解锁办公新体验
锐仕方达获网络安全等保三级认证,达到国家非银机构最高评级
南方电讯助力传统制造业山东浩信集团多媒体会议室建设
Moonshot AI大模型服务Kimi Chat开始内测,火山引擎提供训练推理加速解决方案
歌尔冠名首届潍坊马拉松,用实际行动诠释“前行者”力量
向海图强天地阔 人海和谐绘盛景 2023中国·宁波(象山)全球海洋经济高层次青年人才创业大赛 决赛成功举行
顾雨春团队合作揭示iPSC来源内皮细胞移植通过BDNF介导mTORC1通路促进中枢神经系统(CNS)髓鞘再生
“乐见非遗”音乐大赛圆满落幕 恭王府博物馆与QQ音乐打造可以“听”的非遗
IBM缪可延:watsonx的三大“x因子”之我见
WeLab汇立集团创业十载引领香港金融科技崛起
乘“视”而上天地宽 浙江诸暨以高质量发展擘画数智之城
支持20万字输入,Moonshot AI开启千亿大模型的“长文本”时代
医渡科技徐济铭出席长城工程科技会议,强调要提高医疗大模型的可及性
90天无需动手倒灰尘!追觅Z10集尘基站吸尘器开启吸尘器智能清洁新篇章
金秋十月 三星BESPOKE缤色铂格冰箱助力全家饮食健康
Infor推出企业自动化解决方案,基于AWS的Infor OS云服务可帮助企业快速部署自动化并加速实现业务成果
普渡科技与软银机器人携手共塑商用服务机器人新格局