最近,我们通过针对一些企业内各个运营团队与工程师开展了一项调查。我们发现:大约有70%的受访者会使用MTTA(Mean Time To Answer,平均应答时间)和MTTR(Mean time to Repair,平均响应时间)作为主要运营能力的指标之一;而20%的受访者关注的是计划内与计划外的工作占比;还有10%的受访者则表示他们并无既定的衡量标准。当然,在实际运营过程中,光靠MTTA和MTTR是远远不够的。随着系统复杂性的增加,我们需要对各项服务的运行状况获取更加充分的了解。
下面,我们将和您在健康运营的过程中,企业所面临的各项挑战、痛点、以及需要衡量的各项关键指标。在此基础上,我们会进一步给出一个标准成熟度模型,以及对应的实践案例。
根据痛点,创建实用标准
在运营时,为了避免陷入海量却有无用的信息陷阱中,我们需要事先设计好准确的仪表板和监控指标。以下便是运营与基础架构团队经常遇到各种痛点和挑战。
那么基于上述痛点,我们该制定哪些关键性运营标准呢?
健康运营的关键指标
显然对于由系统产生的纷繁复杂的各类数据,我们并非只是为了监控而进行获取。我们需要确保在充分了解其所处上下文环境的基础上,合理进行选择,按需进行调整,以提高运营团队的能力与效率。如下是各个企业,特别是落地了DevOps的企业最常用的一些监控指标,您可以根据实际情况酌情进行选择:
值得注意的是,如果单独地去考量上述指标中的某一项,我们可能会被误导。例如,表面上看,那些部署能力高的团队似乎会比部署效率低下的团队更成功。但是,如果效率高的团队自身反而失败率或错误率也高的话,那就不能简单地将其认定为成功了。因此,我们需要花一些时间,弄清楚与每项指标相关的上下文环境。进而在此基础上,为每个团队或组织建立不同的标准成熟度模型级别。
标准成熟度模型
我们可以通过如下成熟度模型,来描述从脆弱到该领域的领导者,这种不断成长和提升的变化过程。下面是每个档次的不同关键特征:
可见,领导者级别是无法一蹴而就的,运营团队需要从目标系统的细微处入手,循序渐进地建立恰当的监控与处置标准。下面,我们来共同研究一个典型案例。
案例研究
2019年初,一家全球性电商公司的运营团队开始从那些最基础的关键性指标入手,其中包括:花费在事件处理上的时间,事件严重性级别的划分,以及区分何为计划内的工作(即功能性的)、何为计划外的工作(如:事件与错误)等。
通过半年的时间,他们建立了坚实的基准性指标,并从中了解到各项指标数据的发展趋势和改进机会。据此,他们发现:整个团队总工程时间的45%被花费在了计划外的工作上,这相当于每月额外消耗了20万美元。其中,主要事件都集中在产品页面上的各个处理流程中,包括:页面加载时间和故障排查时间等。
有了这些数据,他们开始进行深入分类,以分析出到底是什么导致了用户订单流程出现了问题。通过进一步的调查,他们认定这些错误与某个第三者反欺诈服务,以及支付商的数据库标签和API有关。
2020年第一季度,该运营团队进行了如下重点改进:
在2020年第一季度之后,团队再次进行了评估与衡量。他们发现:在用户使用流程(如:产品页面和支付结算流程)上的事件数量减少了76%;在计划外事故上花费的总工程时间占比下降了40%。尽管这并非他们健康运营的终点,但的确是一个很好的开端。
原标题:Here Are the Metrics you Need to Understand Operational Health,作者: Hannah Culver
文章名称:那些与健康运营密切相关的衡量标准
标题URL:http://www.csdahua.cn/qtweb/news7/323607.html
网站建设、网络推广公司-快上网,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 快上网