北京网络视听艺术大会丨微博王巍:未来智能创作将实现“所想即所得”

2025-07-04 14:17:57     来源:

7月2日,由中国文学艺术界联合会、中国作家协会、北京市人民政府指导,北京市广电局主办的第三届北京网络视听艺术大会在北京召开。微博COO、新浪移动CEO、微博技术委员会主席王巍受邀出席,分享了视频大模型的发展与应用,为网络视听艺术的高质量发展提供创新思路。

王巍在分享中指出,视频大模型的发展分为内容理解与内容生成两大方向:内容理解依托类似ChatGPT的自回归生成技术,如同人类的眼睛和大脑;内容生成则借助扩散生成模型,类似人类的双手创作。如今大模型已发展到多模态理解和生成使用同一套“大一统模型”来融合的状态,能够同时具备大脑、眼睛和双手,在短时间内读懂视频内容并生成相关内容互动。

“微博已经把大模型的多模态能力应用到视频理解当中。”王巍表示,“我们利用多模态大模型的OCR等能力理解视频内的数据、文字、图片等内容。结合人物识别技术与微博积累的人物画像数据,精准定位视频中的关键人物。同时通过场景化语义理解,识别视频中发生的事件、用户情绪,甚至是人说话的语气语调,以此判断内容属于八卦类的娱乐视频还是新闻类的叙事视频。同时还能理解多国语言、多种方言生成的相应的字幕。”

王巍还以微博智搜举例。“微博智搜结合微博实时热搜数据、历史沉淀数据以及微博账号信用体系,可以逻辑化地梳理出热点事件的前因后果,把事件脉络、网友精彩观点汇总呈现给用户。”王巍表示,在这个过程中,视频理解能够通过大模型的多模态理解和融合能力,快速检索到相关视频为图文内容做补充,让用户能够更全面立体地了解相关热点。

谈及视频生成,王巍认为,视频大模型能够在不久的将来大大提升视频创作能力,但短期内仍面临挑战。他举例,一个电影完全可以由AI生成,为什么现在AI生成的电影并不多?主要原因是目前视频生成技术在某些方面仍有缺陷,比如生成的人物和场景内容仍然有AI味,不像真实世界看到的景象;再比如细节失真,例如手部变形、快速运动中人体的扭曲等问题。这仍有待于模型进一步发展,才能真正产生高价值的应用。

关于视频大模型的未来发展趋势,王巍指出,随着算力与技术的持续突破,视频理解与生成技术有望实现深度融合,形成类似人类大脑的全面感知与整合能力。这一突破将推动智能创作迈入“所想即所得”的全新阶段。

 

标签:

猜你喜欢

全球最强恋爱游戏诞生!《恋与深空》打造国产游戏出海新名片
米纳威岩矿板亮相广州建博会:回归板材本源,直面材料初心
近一个月内更新三次,鸿蒙版微信新增视频号发表视频等近10项功能
2025 OSCAR 开源产业大会正式启动,“可信开源涌万业 无边智域启未来”
2025全球数字经济大会权威认证!蘑菇车联凭AI网络斩获三项行业标杆荣誉
独揽植发行业殊荣!大麦微针植发斩获毕马威 “中国健康科技企业50” 奖项
DLSS 4解锁升级游戏性能,暑假畅玩3A大作优选华硕天选6 Pro
OpenAI 由英伟达转向谷歌 TPU,中昊芯英 TPU 技术路线获印证
适配国际先进水平!国产操作系统支撑轨交"心脏"跳动
金山软件(3888.HK)斥约2000万港元回购58.64万股
爱化身语音智能体落地“阿联酋版微信”,中阿 AI 合作开启生态共建新阶段
钦州市数字底座建设案例荣登“2025智慧城市先锋榜”
直击AICon北京现场:硅基流动首发焕新品牌及国际站!
全图通荣获北京市北斗时空信息融合应用典型案例成果奖
大麦微针植发获毕马威“健康科技企业50”奖项,持续引领植发5.0时代
北大文创正式入驻京东 燕园文化符号走进大众生活
杭州热到全国第一! 京东空调在浙江多地销量同比提升超过150%
ISSE国际智慧空间展览会9月杭州首秀!全球智慧生态×国家级数贸平台,共绘智慧空间新蓝图
8999元起!来京东参与荣耀Magic V5预售赠内屏宝一年期
川奇光电成为元太科技第三座荣获UL2799"零填埋"铂金级认证厂区
从功能到服务,腾讯暑期全方位协助家长管理游戏账号
“新智”所向 恒生活荣膺“海诺奖-2025新消费典范品牌”
ZEROBASE 宣布与 zkVerify 建立深度合作伙伴关系
4000吨级!关键部件100%国产化!中联重科引领大吨位起重机技术创新发展
央视聚焦深圳“机器人谷”,越疆科技等企业新技术层出不穷
掌中视界,一触即达|鳍源水下机器人Q-iRC行业带屏遥控器正式发布!
索尼 WH-1000XM6与QQ音乐「臻品音质」达成合作 共筑高品质音频生态
三星Galaxy Tab S10系列:AI功能赋能学习新阶段
清北在身边!海亮科服朋辈伴行助力旗下学校打造特色育人导师制
BIRTV 2025 TVU参展预告:创新二十载 携手向未来