全模态覆盖生命科学领域 百图生科推出xTrimo V3基础大模型平台

2024-10-28 11:44:30     来源:

近年来,大模型的热潮已经扩展到自然语言和图片生成之外的更多领域,其中生命科学大模型毫无疑问以其高技术门槛和高应用价值,成为市场关注的焦点,科学界和产业界对大模型在药物研发、生物制造、医疗健康等问题上的赋能抱有很高期望。

作为全球生命科学基础大模型的先行者,BioMap百图生科在10月27日举办的第三届中国生物计算大会上,正式发布了全新一代生命科学基础大模型——xTrimo V3,为行业交上一份全新的答卷。

据悉,该模型在V2大模型突破千亿参数、理解蛋白质语言的基础上,进一步扩展到2100亿参数,覆盖蛋白质、DNA、RNA等七大生命科学主流模态,能够建模更加广泛的基因组学、细胞、系统等问题,为基因编辑、靶点发现、细胞调控、菌株改造、生命科学图像分析等场景带来新的能力。

xTrimo V3前传:四年磨一剑,剑成龙光寒

作为全球最早专注于生命科学基础大模型的平台公司,自2020年成立以来,百图生科始终致力于在这一高难度技术平台上取得突破 —— 生命科学基础大模型并非自然语言大模型 + 生物学文本的垂直应用、垂直“大模型”,而是需要围绕生命科学的氨基酸、碱基等高复杂序列数据,开发一套与自然语言基础大模型理念相近,但技术完全不同的基础大模型底层技术,从Transformer到训练框架,再到更关键的数据集与验证闭环,都与自然语言大模型截然不同、更加挑战、更加前沿。

如何与生命科学多样化具体任务结合,如何理解和对齐复杂的生命科学组学数据,如何理解生命科学规律并建立基础图谱,如何建立生命科学行业原有数据规模百倍以上的超大规模数据集 —— 这些都是过去四年间,生命科学基础大模型先行者们所面对的挑战。

2022年和2023年,百图生科先后发布xTrimo V1、V2,实现了世界首个千亿参数的生命科学基础大模型——利用海量蛋白质序列数据训练的千亿参数蛋白大模型,参数量较第二名高8倍以上,在数十个任务上超越行业达到SOTA水平,特别是支撑蛋白质结构预测等关键问题达到前所未有的准确度和性能,实现了大量的商业和技术突破;利用海量单细胞组学数据实现的单细胞大模型,初步验证了多维度、跨模态的技术,为跨模态建模复杂生命体打下了坚实的基础,并支撑十余个靶点发现、细胞分类等任务取得SOTA成绩。相关工作多次登上Nature子刊封面和学术顶会。

xTrimo基础大模型平台上,目前已有200余个任务模型取得评测SOTA水平,在药物研发中涉及通用蛋白、多种构型的抗体、细胞疗法、基因疗法等多个领域,以及靶点发现、工艺优化、合成生物学、生物制造、生命科学工具等多样的方向。基础大模型的贡献,并不在于能以一个单一技术,一己之力解决前沿问题,而是在面对多样化、缺乏数据的前沿问题、缺乏泛化能力的现有模型时,能够利用千亿参数和万亿数据中蕴含的知识,进行embedding赋能,为难解之题带来一些来源于十亿年生物进化树上的高维信息。

百图生科打造的200余个AI模型,已先后助力开发了20余种前沿抗体和酶、实现了10余个创新靶点的挖掘,并都经过了实验验证,推进进入临床前研发等后续阶段。AI模型驱动的高通量自动化流程,覆盖从分子生成、实验验证、闭环迭代的完整链路,大幅提高合作客户的研发效率,缩短研发周期。

截止目前,百图生科服务全球300余家用户,其中包括跨国药企、大型CRO、明星创业公司、国内外研究机构,签署了超过20亿美元的总潜在订单,共同在生命科学领域实现了一系列突破。

xTrimo V3:模态全家桶,生命科学新问题的探索利器

此次发布的基础大模型xTrimo V3,覆盖DNA、RNA、蛋白质、细胞、小分子、生物视觉和生物知识文本等生命科学7个主流模态,并在各个原有模态上依靠新的数据、新的架构,做了显著的增强。“这一版本一举实现了全模态的覆盖,从而能支撑快速发展的生命科学新领域新问题探索需求。”百图生科技术副总裁张晓明介绍,“与V2平台相比,V3不仅巩固了之前在蛋白质领域的基础和继续了在细胞领域的发展,还拓展至基因组学、转录组学、细胞复杂任务、影像分析和文本分析等领域,支持从分子早期研发到生产放大再到后期实验分析的全流程AI建模需求。”

据悉,xTrimo V3参数量突破2100亿,继续保持全球规模最大的全模态生命科学大模型的领先地位。特别是在蛋白质大模型领域,成为全球首个引入先进专家混合(MOE)架构的生命科学大模型,参数量达到千亿级规模;DNA大模型序列长度跃升至128K,实现超长序列解码生命,这些升级充分体现了百图生科在生命科学基础大模型领域的持续创新。

如何用好基础大模型?是否只有又懂生物又懂AI的前沿团队才能得到大模型赋能?百图生科在内部应用大模型平台实现高效建模后,一直在探索更强的工具链和产品化能力。2023年 3月,百图生科发布了基于xTrimo驱动的 AIGP(AI Generated Protein) 平台。这个被业界誉为“能生成蛋白质的ChatGPT”,为生命科学领域的研究者提供了一个便捷的交互窗口,即使是不具备编程能力的科研人员也可利用大模型和数十个蛋白质相关任务模型、配套软硬件系统,开展创新蛋白设计研究。

此次xTrimo V3平台还发布了专为生命科学AI模型设计的模型工具链 — 包含面向多种数据场景和用户需求的Model Builder模块,支持模型管理和组装的Model Hub模块,以及加速模型调用和物理计算的Model Booster模块等。

“基于xTrimo平台构建专属任务模型,让大模型能力与企业的私有数据、特定需求相结合,快速为企业打造专属的AI工具,是V3平台的重要特征之一。”张晓明介绍,“我们还结合已有模型与模型定制能力,在不同行业提出了药物研发解决方案、生物制造解决方案和AI4LS平台解决方案,通过AI模型和配套的服务,帮助企业加速创新,提升研发效率、优化流程,让企业能够更快地从实验室走向市场,直观感受到大模型作为直接生产力的巨大效能,推动行业的全面智能化发展。”

关于BioMap百图生科

BioMap 百图生科是全球生命科学基础大模型的先行者,通过2100亿参数的跨模态生物语言大模型,解码蛋白质、细胞、生物系统等底层规律,以更小的数据和成本消耗,构建高质量的生命科学AI任务模型。BioMap在药物研发、生物制造、医疗健康等领域实现了200余个State-of-the-Art(SOTA)模型表现,服务全球300余家用户,实现超过20亿美元的总客户订单,助力用户在AI全新蛋白质设计、AI靶点发现、AI酶设计等领域取得了众多突破性成果。公司由百度创始人李彦宏与原百度风投CEO刘维共同创立,并由原诺和诺德全球副总裁、原SAP全球副总裁等业界高管组成核心团队,在硅谷、北京、苏州、香港设立研发中心,先后获得超过2亿美元风险投资。

公司官网: https://www.biomap.com

 

标签:

猜你喜欢

喜报丨朝阳凯文学子在“2024英国数学测评”中喜获多枚全球金银奖
从比赛场到直播间,抖音电商助力退役运动员转型再就业
Aqara Space空间智能体验馆(沈阳旗舰店)盛大启幕
送价值4299元Claw掌机!微星泰坦18 Pro晒单有礼引爆双11
多元化战略持续兑现 立讯精密三季度利润增长23.06%
AI赋能影视创作,长信传媒携手APUS共创未来剧本新模式
开源网安获批设立博士后创新实践基地,持续攻克软件安全核心技术难题
国际钢铁巨头安赛乐米塔尔委托 dss+ 进行全面安全评估
计算智谷“一企一策”赋能数据标注产业,供需交流会共绘发展蓝图
张艺谋导演,何超琼引领:澳门2049,创新艺术的澳门宣言
2024第六届中国IT服务生态峰会在西安盛大召开
智邦国际:天工系列ERP为设备制造企业重构管理生态,转型升级走向高端
毫末出席WACV2024 无人配送风向标已然清晰
2025年“惠荆保”开放参保,为荆门百姓筑牢健康保障防线!
第七届“赢在昭通”创新创业大赛绿色生态赛道 创新驱动绿色发展新篇章
黎锦数字化产业基地:古艺新辉,璀璨交织,传承与创新的诗意启程
引领“萌”力经济!一图读懂抖音商城「亲子萌宠」品类日
助推苏州重点产业发展 西交利物浦大学召开战略生态构建推进大会
2024年美丽丰台科普行“美丽丰台科普行”系列主题活动:探索科普之旅,畅享知识盛宴
抖音电商“百大红人上新”引领秋冬服饰新潮流,近千名带货达人成交额破百万元
双11彩妆销售持续升温,国际大牌在抖音电商卖爆,40个品牌成交额同比增长超300%
手机厂商+芯片大厂强强联手,AI手机普及按下“加速键”
App兼容性测试服务化,如何选择服务商?
美国“换血”亿万富豪首露面,时光派第五届衰老干预论坛即将开幕!
广东老板京东11.11买电脑中奖100只清远鸡 员工喜提“养生福利”
数聚江西 智启未来 | 2024数据产业创新发展大会暨华为数字中国行·江西新质生产力峰会成功举办
计算智谷“一企一策”赋能数据标注产业,供需交流会共绘发展蓝图
i9K进化U9K,285k(ing) 新君下洞庭
AI PC“加菜”了,双十一最值得关注的10款酷睿Ultra 200V AI PC
天猫双11,淘宝开了个“法院杂货铺”