随着数字化转型步伐的提速,企业对云技术的应用日益广泛。在这过程中,运维不再仅仅是保障系统稳定运行的“幕后英雄”,而是成为推动企业数字化转型、提升业务连续性的核心力量。如何在云环境下,运用“确定性”的运维策略来有效应对各种“不确定性”因素,成为企业运维工作的关键课题。
8月23日,由华为云主办的“数智先锋100·企业运维稳定性治理研讨会”在南京顺利举办。众多业界专家与企业代表齐聚,共同探讨运维稳定性治理、运维体系建设以及一站式运维平台部署等前沿议题,赋能企业提升运维能力,推动云上业务的高效发展。
活动现场,华为云运维使能首席专家发表致辞,他指出,随着企业数字化转型的深入,运维及运营已成为生产力中不可或缺的部分。华为云基于对趋势的洞察及沉淀,提出“确定性运维”理念。经过两年多的发展,华为云确定性运维能力体系越来越完善,并总结出“1+N”的能力模型。其中,“1”是确定性运维能力的管理体系,包含运维组织、流程、工具;“N”是关键能力建设,包括高可用、持续交付、运维能力可信等。在下一阶段,他希望将大模型能力与运维相结合,开启确定性运维2.0大模型研究,将大模型能力低成本、高效率地应用于业务中,助力千行万业运维智能化升级。
华为云运维使能首席专家
传统企业数字化转型加速,波司登搭乘运维“快车”实现高效发展
在数字化浪潮的驱动下,传统企业依托新兴技术进行革新已是必然趋势。波司登作为一家服装行业的领先者,于2023年年底启动了数智化转型,迈上了应用现代化改造之路。波司登股份有限公司运维总监单德宝在分享中提到,波司登在改造过程中,通过与华为云携手,以价值流的方式梳理了核心业务场景,并对40多个应用系统进行了重构,已于今年8月正式上线。
波司登股份有限公司运维总监——单德宝
在运维方面,波司登从基本运维阶段开始,通过标准化手段变更管理流程,着重于构建可观测运维能力,包括统一的监控平台、日志管理和调用链路跟踪等,建立了自上而下的监控体系,保障业务稳定、高效发展。
故障管理无小事,华为云确定性运维坚守业务运行“生命线”
在企业运行过程中,故障管理是保障业务连续性和数据完整性的重要基石,成为企业稳定发展的生命线。华为云确定性运维故障管理专家聚焦“华为云确定性运维实践分享——故障管理”的主题,结合零售行业的成功实践展开分享。针对该零售企业在数字化转型过程中的变更流程不完善、故障频发、故障响应时间长等IT系统挑战,华为云运维团队在进行系统评估后,设计出三期改进方案——故障管理和混沌工程演练,构建可观测性和主动运维能力,实现初步确定性的运维状态。这些措施显著提升了系统稳定性和故障恢复速度,减少了故障数量并缩短了恢复时间,从而提升了客户体验。
华为云确定性运维故障管理专家
在具体实践中,专家重点介绍了基于容错视角的故障模式梳理方法,通过了解客户业务架构和资源部署,识别并梳理各种可能的故障模式,并利用故障快恢平台和韧性评估平台等工具快速定位问题并采取措施。混沌工程演练则通过模拟真实环境中的故障场景,暴露潜在问题,提高系统的恢复能力。同时还强调了质量文化、高可用架构及动态风险治理在故障管理中的重要性,为未来的运维工作提供了宝贵经验和指导。
AI技术与企业场景深度融合,华为云轻量化AI应用开发助力数智升级
在探讨华为云aPaaS在AI应用和运维领域的探索与实践时,不得不提到近期爆火的中国3A游戏《黑神话·悟空》,该游戏的成功背后,离不开GPU和深度学习等AI技术的应用所带来的加速效应。华为云AI原生应用引擎架构师表示:“AI在游戏行业的巨大潜力引发了我们思考如何将其与企业实际应用场景深度融合,以提升运维效率和客户体验。”
华为云AI原生应用引擎架构师
架构师介绍了华为云AI原生应用引擎架构在AGV企业智能客服的案例,分享了华为云轻量化AI应用开发的实践经验。该企业拥有超过1200台在线AGV小车,分布在仓储、制造、物流、医药等领域的600多家工厂。针对小车的故障运维难题,华为云依托AI原生应用引擎平台以及确定性运维实践经验,治理并集成了企业的售后知识、故障库知识、产品知识以及研发知识,形成企业AI大脑,并利用大、小模型结合、AI Agent快速编排等技术快速构建企业AI应用。根据实践数据显示,约70%的小车故障问题能够通过此方案得到及时解决;对于更复杂的问题,通过对话指导提取相关的日志并在对话中导入日志文件给出进一步问题解决策略,又额外解决了其中的50%。
他提到,AI是一场涉及“流程+组织+数据+IT”的端到端变革。为此,华为云提出了一套方法论,结合“AI+业务”场景梳理来快速识别企业痛点业务,通过AI智能客服7*24小时在线服务,实现智能快速排障;从源头上梳理AI应用的数据治理策略,进行数据准备与标注,基于自然语言交互自动规划研发流程,从而降低门槛,使AI能够应用于千行万业的业务场景中,提升企业运维效率并降低成本,加速企业智能化转型。
深化监控部署与资源保障,赞奇携手华为云构建高效运维新体验
企业云端业务在运行过程中,实时监控、智能部署、资源优化、安全保障,四大要素构成了云运维全流程的坚固框架。江苏赞奇科技股份有限公司是华为云重要合作伙伴,会上,江苏赞奇科技股份有限公司运维总监曹晖以“构建高效云运维:监控部署与资源保障全流程实践分享”为题展开演讲。他表示,赞奇与华为云在过去的四年合作中,共同解决了在大规模资源调度和实时性要求高的云工作站及渲染服务方面的种种挑战。
江苏赞奇科技股份有限公司运维总监——曹晖
通过协同工作,赞奇基于华为云的资源保障和高性能存储能力,构建了一套能够实时监控系统状态、确保稳定性和提升用户体验的运维体系。同时,赞奇采用云原生监控解决方案如Prometheus,实现了自定义监控项的兼容,并通过标准化工作流程和自动化部署提高了运维效率。此外,赞奇还建立了知识库,将以往依赖个人经验的问题处理方式转变为基于服务的运维2.0模式,减少了故障排查次数,并提升了团队的整体能力。
修复不拖延、资源不浪费,“一站式”运维平台全搞定
在当前企业数字化转型加速的大环境下,一站式运维平台联合解决方案扮演着至关重要的角色。研讨会上,华为云集成运维服务专家以及上海观测未来信息技术有限公司观测云资深技术专家翁一磊分别结合华为云一站式运维平台联合解决方案进行了分享。
华为云集成运维服务专家表示,华为云一站式运营中心(COC)旨在解决客户在运维过程中面临的监控分散、数据标准化不足、多云治理困难、故障定位难等一系列挑战。通过整合资源生命周期管理、确定性恢复、变更风险管控和服务韧性提升等四大场景能力,COC为不同角色的用户提供了一体化管理解决方案,包括决策支持的大屏展示、自动化运维作业以及故障快速恢复等功能。尤其值得一提的是,COC通过构建CMDB实现了资源与应用的关联,从而帮助客户在资源规划、发放、运维及运营等环节大大提升了工作效率。
华为云集成运维服务专家
翁一磊强调,观测云作为华为云的紧密合作伙伴,致力于为全球企业提供一体化的可观测监控平台。针对企业普遍存在的监控工具分散、缺乏全局视角等问题,观测云提供了一个统一的端到端可观测平台,支持SaaS和私有化部署模式,并且与华为云市场和云账单系统集成,方便用户使用和管理。观测云不仅能监控多云和本地资源,还支持多种日志采集与解析,提供从前端到后端的全面应用监控与可视化。通过集成现有的监控工具和CMDB平台,观测云帮助企业构建统一的观测平台,实现了降本增效。
上海观测未来信息技术有限公司观测云资深技术专家——翁一磊
凝结各界智慧与经验,企业数智化挑战迎刃而解
本次研讨会上,专家与企业家们还围绕运维稳定性的挑战与机遇、运维技术的未来趋势等议题进行了深入的探讨和交流。与会者各抒己见,结合各自领域的实践经验与智慧,为未来的运维工作提供了诸多有益的启示和借鉴。
可以说,当下正是企业数智化发展的黄金时期。在面对诸多机遇的同时,一些不确定性因素也将随之而来,要想保障业务的高效、长足发展,必要前提便是时刻确保系统的稳定运行。作为数字化领域的实践者与赋能者,华为云希望通过举办系列活动,凝聚行业中坚力量,打造畅所欲言的交流平台,碰撞出新点子、新思路、新方法以解决企业实际问题。
未来,华为云“数智先锋100”系列研讨会还将开启更多前沿议题的探讨,走入更多地区,携手各领域精英企业,以云、AI等为技术底座,探寻企业高质量发展的成功密码,在云时代“先人一步”。