机器能模拟人类感受?明略科技多模态团队斩获ACMMM全球顶会“最佳论文提名”

2024-11-08 14:28:30     来源:

10月28日~11月1日,全球顶级多媒体会议ACM Multimedia(ACMMM)2024 在澳大利亚墨尔本成功召开。

明略科技集团多模态团队与北京大学共同完成的最新研究成果《Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding》在众多论文中脱颖而出,荣获最佳论文提名(Best paper nomination)。明略科技集团创始人、董事长兼CEO吴明辉,多模态大模型部门负责人赵晨旭,明敬算法负责人苏安炀受邀赴墨尔本出席此次会议。

据悉,本次会议共收到4385篇有效投稿,其中,1149篇论文被接收,174篇论文被评选为Oral,最终仅26篇获得最佳论文提名。

11.png

明略科技集团创始人、董事长、CEO兼CTO吴明辉

在 ACMMM Oral Session 讲解最新研究成果

22.png

明略科技集团多模态团队在 ACMMM 2024 会议现场

(左起:苏安炀、吴明辉、赵晨旭)

ACMMM会议是由国际计算机学会(ACM)主办的多媒体领域的顶级国际学术会议,同时也是中国计算机学会推荐的A类国际学术会议(CCF-A)。自1993年举办以来,今年是第32届。会议议题涵盖多媒体计算的各个方面,如多媒体内容分析、多媒体检索、多媒体安全、人机交互、计算机视觉等。

33.png

ACMMM 2024 会议现场公布最佳论文提名奖项

针对当前AI领域在视频内容理解方面主要聚焦于客观层面,缺少主观层面的测量标准,以及机器模拟人类主观感受的有效手段的发展情况,明略科技的最新研究成果整合脑电、眼动信号等多种非标模态,构建了全新的多模态大语言模型范式,在机器理解和模拟人类主观感受的研究方向,迈出了重要一步。

44.png

明略科技多模态团队论文荣获 ACMMM 2024 最佳论文提名奖项

论文题目:Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding

(超图多模态大语言模型:应用脑电和眼动模态来评估异质人群观看视频时的响应)

作者:吴明辉*,赵晨旭*,苏安炀*,狄东林,傅天宇,安达,何敏,高雅,马萌,颜鲲,王平(*为共同第一作者)

论文摘要:对视频创意和内容的理解往往因人而异,不同年龄、职业和性别的人的关注点和认知水平也存在差异。目前缺乏这方面的研究,没有可以进行评测的基础,大多数现有的基准都存在几个缺点:

1)模态数量有限,题目多为选择题,难以测量逻辑推理过程;

2)视频中的内容和场景过于单调,仅涉及到对视频内容的客观描述。

为了弥合与实际应用的差距,明略科技引入大规模的视频主观多模态评估数据集Video-SME。通过收集不同人群在观看相同视频内容时脑电图 (EEG) 和眼动追踪区域的真实变化,设立了新的任务和协议,分析和评估不同受试者对相同视频内容的认知理解程度。

依托新的评测标准,明略科技创新研发了超图多模态大语言模型 (HMLLM),探索不同人口统计、视频元素、脑电图和眼动追踪指标之间的关联。HMLLM可以弥合丰富模态之间的语义差距,并集成帧与帧之间的信息以执行逻辑推理。明略科技在Video-SME和其他基于视频的生成性能基准上设计了实验,大量实验评估证明了该方法的有效性。

什么是人的主观感受?

测量不同人群观看广告视频的主观响应有何意义?

人在观看广告视频时,对于素材元素的认知程度、情绪高低、眼睛注视程度高低都是人的主观感受,不同性别、年龄、职业、身份的人群都会有所不同。

如果机器能够模拟不同人群观看广告视频时的不同主观感受,那么相当于可以对广告视频的内容、创意等进行有效的测量,指导广告成片过程,节省广告投放成本。

下述画面展示了论文中的方法(HMLLM)对于经典广告成片的解析,从主观和客观两个维度进行分析:

图1.png

下述画面展示了论文中方法(HMLLM)对于同一段广告视频,通用人群和特定人群不同的主观反应:

图2.png

图3.png

让机器学习、理解和模拟人类的主观感受,可能是赋予机器主观意识的开端。明略科技提出的新基准Video-SME有望成为该领域的新起点,标志着机器对视频的理解从客观维度向主观维度的转变。作为一种全新的范式,明略科技多模态大模型HMLLM的研发,致力于为该领域研究人员解决非标准模态问题提供宝贵经验与启示,从而促进大模型领域向人机协同的美好未来迈进。

本研究课题由科技部科技创新2030——“新一代人工智能(2030)”重大项目支持。

论文链接:

https://dl.acm.org/doi/10.1145/3664647.3680810

GitHub地址:

GitHub - mininglamp-MLLM/HMLLM: [ACM MM2024] The code for HMLLM.

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

钻卡测试挑战车企极限?生命安全不是选择题
德力西电气与SAP于第七届进博会上签署合作,共启全球数智化新征程
法中携手应对气候变化,商业气候论坛聚焦脱碳未来
聚焦游戏长线经营,收益增长,360智慧商业举行游戏行业客户私享会
晨视铭——重塑清晰视界,开启裸眼新世界
5G已经够快,为何还需要5G+WiFi7
工业互联网“双跨”平台首次分级,百度是唯一获评A级的互联网企业
鸿蒙原生版汽车之家正式上架,日程提醒、内容接续革新汽车服务体验
AI赋能 科技焕新 心系天下三星W25开启掌上智能新境界
匠心筑梦 经典新生 心系天下三星W25 | W25 Flip演绎至臻美学
匠心绵延 再塑经典 心系天下三星W25深度诠释超高端品质
从数据融合到决策支持,墨迹天气加快探索“气象+交通”场景应用
融云:社交泛娱乐出海机会尚存,跨境电商异军突起
永信至诚「数字风洞」支撑国家级数据安全测评演练,护航第二届“数信杯”-数据安全积分争夺赛
摩熵数科亮相浙江中医药大学主办培训会!数据服务引领中医药行业创新未来!
激发创新潜能,共筑科技梦想 青少年科技菁英汇——2024年人工智能与我的航天梦想挑战暨系列交流活动全面启动
第七届进博会|链接全球,金柚网助力企业开拓国际新市场
炬芯科技周正宇:Actions Intelligence 端侧AI音频芯未来
酷狗音乐×敦煌超宇宙数字艺术展 跨界携手演绎国潮新风尚!
买Mac新品首选京东11.11 享政府补贴至高立减20%
2024粤港澳大湾区服务贸易大会举办,金柚网助力企业出海逐浪全球
万物智联时代,开鸿智谷如何助力“鸿蒙生态”无处不在?
创新香港-国际人才嘉年华2024(秋季)盛大开幕 汇聚全球精英共探职业发展机遇
60岁的他用AI辅助上课,豆包智能体收获众多“云学生”
这个双11,男装商家在抖音电商尝到甜头
X3D再创神话,技嘉X870小雕助力9800X3D打造卓越游戏体验
菲沃泰亮相AWC 2024深圳国际智能网联汽车产业展览会
聚焦AI翻译,时空壶X1同声传译器是否已达巅峰?
交行手机银行9.0焕新发布,适配原生鸿蒙并实现多系统同频迭代
携手进博,七载同行:雀巢携全明星产品阵容亮相进博会