TDRU重磅发布!掀起不确定性数据革命

2023-10-09 15:23:56     来源:

在数字化时代,数据对经济生活的影响日益深刻。2022年末,以ChatGPT为代表的大数据人工智能模型层出不穷、良莠不齐,其优劣高度依赖于输入数据的质量,这就对数据质量提出了更高的要求。但在对数据本质的认识上,人们仍然处于一个相对初级的阶段,导致现有的数据处理技术主要存在三个问题:一是忽略了数据本身存在不确定性,二是缺少对预测未来有效的数据处理方法,三是忽视了人与数据关系导致的偏差。针对上述问题,2023年10月9日,蒙格斯智库正式向全球推出TDRU(Tools of Data Reconstruction on Uncertainty)—一个基于不确定性原理,通过数据重构解决上述问题的工具。

TDRU理论来源

长期以来,蒙格斯智库一直在研究不确定性的相关问题,在数据科学领域中,蒙格斯智库学术委员会主席朱小黄先生在《中国银行业》杂志2023年第2期上发表的《不确定性与数据重构》一文深刻讨论了数据中存在的不确定性问题。他认为,世界的本质是不确定性,因此人类社会和行为都带有偶然性,数据作为反应客观世界和人类行为的载体,也存在不确定性。

为什么说世界的本质是不确定的?因为不确定性可以被理解为时间轴上我们永远无法知晓的未来,即四维空间。对于判断过往,传统的数据分析方法已经足够,但对于预测未来而言,未来是不确定性的四维空间,只有在三维和四维空间中具有逻辑关联的数据,才能够对未来行为产生实质性影响。相反,偶然性数据由于缺乏这种逻辑关联,对未来预测是无效的。在构建预测未来模型时,应排除这类偶然性数据。而在可重复数据的分类中(自然数据、历史数据、边际数据等),每一类数据都可以发挥一定程度的影响,因此要在预测未来的模型计算中赋予上述数据不同的权重,来表达这些数据对未来人的行为影响的不同和差异。

以人为中心的数据观。而在数据的产生过程中,胡本立先生在《以人为中心的数据观》中认为所有的数据都是人类对客观世界的主观反映,人与数据是一个不断循环的关系:人在产生大量数据的同时实际上也在被数据所影响,因此数据会带有一定的偏差,这是数据需要治理的基础性原因。

针对上述问题,依据不确定性数据重构原理和人与数据关系的观念,蒙格斯提出并设计了一套数据重构方法:将数据按不同维度分为历史数据和边际数据、自然数据和行为数据,以及必然性数据和偶然性数据,在剔除偶然性数据的基础上,对不同的数据设置调整参数并赋予不同的权重。而后在数个实际场景中,蒙格斯实践并完善了上述方法,最终研发出了TDRU1.0版。

TDRU简介与应用场景

TDRU主要功能包括智能分类、偏差调整、历史加权、漂移分箱、变量重构、数据补充、异常检测、客群分拆、择优抽样九大模块,通过六大核心流程、两套参数和七个工具协同工作,既可以解决由不确定性带来的两类问题,也可以对人与数据之间的偏差进行调整。TDRU不仅是一套方法论,也具备工具的实用性。其独特之处在于,TDRU是专门针对数据不确定性问题设计的工具,是现有数据处理方法上的明显进步。

此外,TDRU还独创了两套参数,纠偏参数和权重参数,进一步解决不确定的问题以及减轻数据产生过程中出现的偏差。作为不确定性数据工具,TDRU突破了传统观念,强调边际数据的价值,颠覆了对历史数据“越多越好”的传统看法,进一步强调了需剔除历史数据中不可重复的部分,专注于历史数据的质量处理。

TDRU以一套严密的流程设计逐步引领数据从混沌走向清晰。第一步是基础的数据准备;第二步根据数据特点进行精细分类;第三步是采取适宜的处理方法,处理不可重复数据;第四步是根据数据的抽象度等情况进行参数设定;第五步是对数据进行建模分析,并根据不同应用场景选择模型;最后通过动态调整不断优化重构过程。六大步骤逐步推进,形成完整的数据处理链条。

图片 1.png

TDRU是基于不确定性的底层数据工具,主要作用于数据分析的前期,即数据清洗阶段。由于底层工具的属性,使其应用场景非常广泛,包括经济、金融、能源等等众多需要使用大量数据进行建模分析预测未来的领域,因而其服务对象也非常广泛,涵盖全球范围内各种需要运用数据做预测的企业、金融机构与国际组织。此外,由于不确定性与风险管理的高度相关性,TDRU在风险管理方面也有它独到的价值。总的来说,TDRU不仅是一个国际上可以广泛使用的多功能、多领域方法,更是一把锐利的工具,可以解决各种数据质量问题,提升预测未来的准确性。同时,蒙格斯正在开发TDRU与大语言模型结合的一款数据重构智能助理软件。

TDRU应用案例

目前TDRU已在两个关键场景中获得有效验证,并将持续在更多场景中应用和验证:

(一)金融风控场景

蒙格斯将TDRU应用于某上市银行的个人信用评分卡上。从模型评估参数角度来看,使用TDRU前,模型AUC约为0.84、KS约为0.57[注释:AUC(Area Under Curve),为ROC曲线下与坐标轴围成的面积,AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值;KS(Kolmogorov-Smirnov):用于评估模型风险区分能力,指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强],使用TDRU后,AUC提升至0.88、KS提升至0.59,值得说明的是,这一效果在其多个产品线上都得到了印证。

图片 2.png

宏观经济预测的场景

蒙格斯团队运用TDRU对我国GDP做了行业层面的预测,结果显示:在11个行业大类的预测中平均拟合度超过了92%,而二季度GDP预测中,运用TDRU所达到的预测结果与实际季度GDP(6.3%)的差距不足0.2%,在众多市面上的预测机构中脱颖而出,详情如下图所示。这一结果印证了TDRU对数据质量的提升以及与之而来的模型结果的改善。

图片 3.png

未来展望

目前,TDRU1.0版已经在宏观经济预测、风险刻画等方面具备了成熟的应用价值,并已取得了软件著作专利,同时已经提交发明专利申请。蒙格斯已拟定将与KPMG、数交数据经纪、亚联咨询、希研工科等企业展开合作,进一步提升和验证TDRU在其他领域的使用价值。

今天,蒙格斯正式地向社会各界展示并推出这一实用工具,期望能够跟各方合作,一同拓展TDRU的边界和可能性,为提升数据质量、提高各场景预测效果贡献出一份力量。目前蒙格斯可以提供TDRU相应的咨询、培训、数据处理等相关服务,欢迎各数据企业、金融机构、咨询公司或任何有兴趣的机构垂询,并请大家期待未来TDRU智能助理的诞生。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

两行代码解决大语言模型对话局限!港中文贾佳亚团队联合MIT发布超长文本扩展技术
发挥UGC创意价值,助力传统文化传承,蛋仔派对让经典重获新生
福气多玉家居:超3亿人存在睡眠障碍,失眠过,才想睡好觉!
匠心品质 仁者气度 心系天下三星W24融汇传统美学与科技实力
营造建筑环境 构建美好生活 ——记大连理工大学陈滨教授
即时设计谢青青受邀出席自如设计周 分享AI+UI设计工具产品构建实践
视觉中国与华为云携手打造视觉大模型
小红书携手荣耀钱包折叠屏,邀你一起揭秘时髦精的搭配神器!
火山引擎×中手游,多元办公场景下的游戏安全研发
曼孚科技完成数千万元B轮融资,以数据构建面向未来的AI基础设施
2024慕尼黑上海电子生产设备展看点提前晓,抢定展位,锁定商机!
了解真实使用痛点 海信中央空调工地见呈现“5A工地”好安装
中央空调咋样安装更靠谱?海信中央空调工地鉴“5A级”安装品质
LeddarTech 携手 Hailo:共创 ADAS 成功!
北通智能制造工厂实录 一览北通斯巴达3生产过程
“五个女博士”打造个性化产品,探索口服美容领域
打印机信息安全风险浅谈
非标零件AI智能报价平台"meviy"正式登陆中国大陆地区市场
北通斯巴达3高颜值开箱 霍尔扳机双背键功能多样齐全
倒计时3天!2023中国移动全球合作伙伴大会,移动云亮点抢先看!
顺联动力郭洪安:回归一个商城,自营品牌赋能平台提升竞争力
“2023深圳企业500强榜单”重磅发布,新涛连续四年上榜!
赛时在线会议超过11万次 亚运钉稳定支持杭州亚运闭幕
吉利控股集团联合ToDesk,加速驶上智能化发展快车道
普渡科技加速海外拓展 服务机器人全球累计销量近7万台
龙芯中科携手百代存储打造新一代国产统一存储解决方案
第60届中国高等教育博览会将启幕,希沃高校数字化方案抢先看
被时光与音乐温柔包围,MORROR ART Y1时光相册歌词音箱
重新理解企业家精神,张维迎走进南科大-TCL创新创业大讲堂
【算数说】对话三翼鸟——智慧,重新定义「家」的未来视界