身处数字时代,数字化转型对企业的重要性不言而喻。统计数据显示,91%的企业都参与了某种形式的数字化计划。87%的企业认为数字化将颠覆他们的行业。政策驱动、技术发展等等因素都在推动着企业走向数字化领域,从而在激烈的市场竞争中脱颖而出。
然而,随着数字化的逐步深入,云原生的广泛应用让分布式架构取代了原有的单体架构,微服务、容器、Serverless等部署方式能让企业低成本、快速实现搭建的同时,也会让整个系统愈加复杂,对企业IT能力要求变高,传统的被动“监控”难以追踪分布式架构中的通信路径和相互依赖关系,寻找和排查问题更是难上加难,维护运营成本飙升。一旦出现问题,可能“牵一发而动全身”。例如,8月28日,英国空中交通管制系统发生技术故障,当天有1500多个航班被取消,约占该系统需管制航班数量的四分之一,其影响持续数日之久,预估损失超过1亿英镑。数字化转型背后,其实是对企业的监控系统提出了新要求。
从传统监控到可观测性,企业寻求变革以满足不断增长的需求
随着微服务及容器化的普及,服务粒度细化,不同的服务模块甚至由不同的语言开发,运行在不同云环境,排查定位系统问题的难度呈指数级扩散。据CSDN年度重要调研报告《2022-2023 中国开发者调查报告》结果显示,开发者广泛认为复杂性高、规范 API 接口、降低延时和故障率,是云原生亟待解决的重要的问题。云原生技术的广泛应用使得 IT 系统环境变得更加复杂,微服务和容器产生了大量的数据,包括指标、事件、日志等。另外,DevOps实践让开发工程师和运维工程师共同对服务的稳定性负责,研发开始引入全链路追踪系统,帮助快速定位问题;同时也需要在研发过程中输出更多辅助定位系统问题的应用日志。
这些种种原因,让企业迫切需要一个新的解决方案,在多个厂商组成一套系统的背景下,能够融入开发与业务部门的视角,及时而灵活地在运行层面发现问题、解决问题,而不仅仅依靠监控指标,“可观测性”概念应运而生。早在2018年,CNCF就将可观测性一词引入IT领域,并称可观测性是云原生时代必须具备的能力。自此,“可观测性”逐渐取代“监控”,成为云原生技术领域最热门的话题之一。Gartner 将可观测性定义为软件和系统的一种特性,它允许管理员收集有关系统的外部和内部状态数据,以便他们回答有关其行为的问题。然后,I&O、DevOps、SRE、Support等团队可以利用这些数据来调查异常情况,参与可观察性驱动的开发,并提高系统性能和正常运行时间。
至此指标、日志、追踪都已经得到广泛应用,2018年CNCF提出可观测性分组,将监控、日志和追踪相关的项目都归入可观测性领域,后来又引入了混沌工程。总体来说,可观测性描述的就是“观测-判断-优化-再观测”这个闭环的连续性、高效性。如果说传统监控是告诉我们系统的哪些部分是工作的,可观测性就是告诉我们那里为什么不工作了。从某个意义上来说,监控是可观测性的子集和功能,可观测性是监控的超集和延展。
基调听云产品VP陈靖华近日受访中表示:任何企业的数字化系统,只有做到可观测,才能正在被有效监控,避免在转型过程中出现由复杂性导致的系统性能突发故障,从而提升数字化运维质量与效率。
顺势而为,性能监测Top厂商基调听云稳步推进可观测性能力建设
由于疫情带来全行业线上业务的爆发式增长,2020年前后,整个性能监控行业都在向可观测性转型。我们看到,作为性能监测行业第一梯队厂商,基调听云在转型上有着天然优势。CNCF(云原生计算基金会)定义的可观测性三大支柱包括链路追踪(Trace)、聚合度量(Metrics)和日志(Log)。这些也是应用性能监控(APM)的重要元素,它们帮助开发者和运维人员追踪应用的性能问题,聚合和分析应用的各项度量数据,以及通过日志来了解应用的行为和问题,因此基调听云入局可观测性可谓是“家学渊源”极深。但基调听云并不满足于现状,正在逐步完善自身的采集能力,打造出一体化的采集系统。
基调听云智能可观测性平台架构图
从上图可以看到,基调听云智能可观测性平台可接入600多种技术栈,其中除了追踪、指标、日志,平台还具备拓扑关系、诊断、用户体验、元信息等多种核心能力,并以统一探针、追踪、AI算法平台、业务分析引擎等平台级能力提供从基础设施、云原生、应用与微服务、终端体验、实时业务洞察等全方位的可观测性。
基调听云将智能可观测性平台建设思路分为夯实数据基础、数据治理&应用、增强可观测性三个阶段去建设,层层推进,稳步转型,值得业界参考。
第一阶段:夯实数据基础
查缺补漏,完善技术栈可观测性数据采集能力
以Tracing为追踪,全面采集APP、web、小程序、网络及后台系统应用指标数据;
以业务承载关系采集主机、云原生组件、数据库、消息队列指标数据;
采集设备,系统,应用等访问日志,业务日志、应用日志。
第二阶段:数据治理&应用
实现Tracings、Metrics 、Logs互联互通,实现统一建模与转化关联;
APM与基础组件联动分析,实现应用层全栈和基础组件关联,提升综合定位问题能力;
APM与日志联动分析,实现应用层全栈和日志的精确对接,提高定位效率和精度;
IT数据与业务数据联动分析,业务指标与性能追踪,统计分析业务数据并呈现价值。
第三阶段:增强可观测性
实现多源数据整合,引入先进的机器学习和AI算法模型,增强可观测性能力;
历史运维数据分析;
智能分析决策及设计反馈;
智能关联分析、告警收敛、容量预测。
最终形成基于行业传统的可观测性能力——指标、追踪、日志三大支柱之上,再加以诊断、用户体验,全新的五大支柱能力。
基调听云一直致力于提升用户体验,无论是在数据采集、一体化的探针打造,还是数据湖仓的构建等方面。所有这些努力都源于对用户的关注和重视。然而,系统后端的问题可以通过重启或快速修复来解决,但企业往往无法直接了解终端客户的个性化问题。这给用户带来很大的困扰,他们往往无法通过自行搜索解决问题。这些问题产生的沟通成本非常高,甚至可能导致企业失去用户。因此,基调听云将用户需求置于首位,致力于提供更加优质的产品和服务,以满足用户的个性化需求。
基调听云致力于通过智能可观测性平台实现问题的精准定位。当客户遇到系统问题时,无需发送截图或详细描述问题,通过在用户同意的情况下,运营者可以在系统后台直接打开相应的开关。用户只需按照指示复现操作,后台就能够获取到隐去个人信息的相同页面。通过这种方式,我们可以清晰地了解整个界面的渲染过程以及用户的每一步操作。这有助于后端快速了解每一位终端客户的情况,准确找出问题的根源。此外,该平台还能够提供关于用户所遇到问题的相关数据以及与后端微服务平台数据之间的关联信息,从而帮助企业更全面地了解问题并制定更有效的解决方案。
这些举措无疑是能大幅度提高可观测性的实用程度,致力打造五大支柱能力的基调听云智能可观测性平台将不仅仅推动企业的转型,更聚焦于高质高效地解决企业系统性能问题,提升用户满意度,加强企业在不确定性市场环境下的竞争力。