IT质量管理平台,切实推动整体质量的提升!

IT质量管理平台,切实推动整体质量的提升!

开发者广场内容精选NaN-NaN-NaN
解决方案
作者:杨晓丹
推荐理由
将质量工作集成化和标准化,达到提升质量管理效率及效果的目的。
参赛信息
ECARX/IT/技术研发部团队
@潘璐雯后端开发
@姜桐桐前端开发
@钱恒泽后端开发
@王浩静前端开发
@张斌杰测试/QM
应用信息
应用名称:IT质量管理平台
命名空间 :package_70c2ea__c
应用背景
出于对质量管理需求的提高、频繁的质量问题、多部门协作需求、合规要求,以及提升团队效能等原因,团队搭建了【IT质量管理平台】,将质量工作集成化和标准化,最终达到提升质量管理效率及效果的目的。
  1. 团队对质量管理的需求:随着团队的发展,对产品或服务质量的要求不断提高。为了更好地管理和控制质量,需要建立一个统一的质量管理平台,以确保产品或服务的一致性和高质量。
  1. 频繁的质量问题:团队在过去经历了频繁的质量问题,比如产品缺陷、客户投诉等,那么搭建一个质量管理平台可以帮助团队更好地追踪和解决这些问题,并提高质量控制的效率。
  1. 多部门协作需求:质量管理涉及多个部门的合作,如产品、研发、运维、运营等。搭建一个质量管理平台可以促进不同部门之间的协作和信息共享,提高整体质量管理的效果。
  1. 合规要求:上市公司有特定的法规或标准要求。为了符合这些要求,团队需要建立一个质量管理平台来确保产品或服务的合规性。
  1. 团队效能需求:搭建一个质量管理平台可以提升团队的工作效率和效能。通过集中管理和分析质量数据,团队可以更好地了解质量问题的根本原因,并采取相应的改进措施,从而提高工作质量和生产效率。
应用价值
集成了SQA主要的工作流 ,实现了故障管理线上化流程闭环、告警管理线上化流程闭环、服务状态实时看板、应用监控看板、前后端性能监控及其优化流程闭环的平台赋能;基于平台数据可视化的能力,实现了信息的透明化及人效的提升,最终有效推动了总体质量的提升。
  1. 故障管理线上化流程闭环,解决了故障管理流程化及标准化缺失的问题,提高了团队人效。
  1. 扩展线上故障统计来源(产品测、运营测、运维测,第三方,用户反馈,监控召回,内部走查召回),从被动收集转变为主动收集,线上问题收集率达90%。
  1. 集成飞书项目,实现了缺陷“收集—>确认—>处理—>发布—>统计分析”的全流程自动化,有效缩短了故障的响应及解决时长,与之前搭建的多维表格自动化流程相比节省了约1/2人力成本,质量管理效率同比提升100%,线上故障日清率达100%,缺陷日清率达72.1%。
  1. 告警管理线上化流程闭环,解决了告警收集及跟进处理规范性缺失的问题,提高了团队人效。
  1. 实现了告警“收集—>确认—>处理—>发布—>统计分析”的全流程自动化,与之前线下跟进相比节省了约1倍的人力成本,质量管理效率同比提升100%,线上告警日确认率达90%,日清率达50%。
  1. 前后端性能监控及其优化流程闭环,解决了性能监控及优化流程规范性缺失问题,可视化问题,推动优化,填补了性能质量方面的空白。
  1. 实现了慢接口“收集—>确认—>优化—>统计分析”的流程自动化,人效提升1倍。
  1. 按每周的FCP统计情况基于图表组件库能力搭建国内外性能统计趋势看板,清晰的展示出了优化前后的应用性能情况,可视化问题,推动优化,总体性能提升约20%。
  1. 服务状态看板、应用监控看板、接口稳定性看板:实现了信息透明化,直观地展示服务和应用程序的状态,帮助团队更好的理解系统的运行状况。故障发生时能够快速协调组织,并支持决策者做出基于数据的决策,帮助提高了团队对SLA故障的快速响应及处理能力,进而有效提升了系统的可用性和稳定性。
  1. 搭建了【IT服务状态中心】,看板展示IT对外提供的各项服务的实时状态、当月服务稳定性及相关故障报告等信息,帮助团队实时了解各项服务的运行情况,有效传递质量信息,将SLA工作的流动过程可视化,帮助了团队可视化风险;
  1. 集成第三方能力,提供实时的监控和故障排查能力,帮助迅速定位和解决故障。通过追踪和分析关键指标,可以快速识别并解决潜在的问题,减少故障的时间和影响,有效推动了服务稳定性99.9的目标达成。全年SLA风险持续收敛,IT提供的各项服务的稳定性均在99.95%以上;
  1. 自研应用通过火山云上报接口错误,超时等维度的统计,每天定时任务获取数据推送到平台,基于图表组件搭建接口错误总量/日,接口错误/应用,今日各应用接口错误占比,各应用接口错误占比,接口超时等可视化看板,帮助了团队可视化稳定性风险。
  1. 数据可视化的平台赋能:基于平台赋能实现了故障/告警/性能/接口稳定性等数据统计报表/的工具化和可视化,满足故障记录的合规要求,解决了报表产出成本高的问题;实现了信息的透明化,提升了团队人效,最终有效推动了总体质量的提升。
  1. 基于数据可视化能力搭建了告警仪表盘。每日晨会通报告警确认及处理进度,告警的日确认率达90%,日清率达50%;帮助解决了告警数据质量差的问题,有效提高了告警的故障转化率,当前故障转换率为52%,较期初(1.03%)提高50%;缺陷的告警召回率同比提高78.5%,有效缩短了缺陷的响应及处理时长,提高了用户体验及业务效能;
  1. 基于数据可视化能力搭建了性能仪表盘。依据前端上报的性能指标将数据推送至平台,针对各应用首页不同的秒开情况分类,按每周的FCP统计情况基于图表组件库能力搭建国内外性能统计趋势看板;有效的展示出优化前后的应用性能情况。每日晨会通报慢接口处理进度,慢接口周确认率达90%,周优化率达50%,总体性能提升30%;
  1. 集成飞书多维表格搭建了故障仪表盘,基于数据可视化的能力,发现问题,推动优化。2023年度SLA故障数同比下降45.9%,P0故障数同比下降100%,P1故障数同比下降77.7%,P2故障数同比下降73.6%;
  1. 基于数据可视化能力搭建了接口稳定性仪表盘;
  1. 总体质量管理效率同比提升100%,线上质量同比提升约65%。
应用展示
场景 1:故障管理线上化流程闭环
对外提供故障收集入口,用户可在【故障收集】页面提交故障信息,完成提交后,IT研发团队可以接收到故障通知消息卡片,点击跳转故障收集页面进行打标确认,确认为“无效”的故障反馈会通过消息卡片的形式反馈给故障提交人,并备注无效原因。确认为“有效”的故障会自动进入“故障清单”页面,同时会在【飞书项目】内创建一条缺陷记录,处理人在【飞书项目】内以缺陷状态变更的形式更新处理进度,实时同步【故障清单】修改故障状态,状态变更通知故障提交人当前故障处理进展。缺陷fix流程走完后可直接通过【飞书项目】进行fix发布,发布完成后,【故障清单】内对应故障状态同步变更为“已解决”,同时通知提交故障的用户,完成故障收集处理的闭环。后续质量组同事完成对故障的复盘,并在【故障清单】内维护对应故障的review报告,完成经验沉淀的闭环。
250px|700px|reset
250px|700px|reset
250px|700px|reset
250px|700px|reset
场景 2:告警管理线上化流程闭环
自研应用的日常告警数据通过告警中心实时同步到【IT质量管理平台-告警管理】模块,研发同学收到告警通知后在【告警打标】页面对告警数据进行打标确认,确认为“有效”的告警自动进入【告警处理】页面,【告警处理】页面集成了飞书任务,处理人通过飞书任务流程跟进告警的处理进度,状态实时回传【IT质量管理平台】,完成告警收集处理的闭环。后续处理人在【告警处理】页面维护“告警原因”及“解决方案”等相关信息,完成经验沉淀的闭环。
250px|700px|reset
250px|700px|reset
场景 3:前后端性能监控及其优化流程闭环
【前端】:
依据前端上报的性能指标将数据推送至【IT质量管理平台】,针对各应用首页不同的秒开情况分类,按每周的FCP统计情况基于图表组件库能力搭建国内外性能统计趋势看板,清晰的展示出了优化前后的应用性能情况,可视化问题,推动优化,总体性能提升约20%。
【后端】:
后端将有效的慢接口明细同步到【IT质量管理平台】,基于飞书任务流程跟进处理,任务创建后,状态标记为处理中,并将该条明细流转到慢接口处理表中,任务解决后状态实时回传,并标记为已处理,实现了慢接口“收集—>确认—>优化—>统计分析”的流程自动化,人效提升1倍。
250px|700px|reset
场景 4:服务状态看板、应用监控看板、接口稳定性看板
【服务状态看板】:
看板展示IT对外提供的各项服务的实时状态、当月服务稳定性及相关故障报告等信息,帮助团队实时了解各项服务的运行情况,有效传递质量信息,将SLA工作的流动过程可视化,帮助团队可视化风险。
250px|700px|reset
250px|700px|reset
【应用监控看版】:
集成第三方应用,提供实时的监控和故障排查能力,帮助迅速定位和解决故障。通过追踪和分析关键指标,可以快速识别并解决潜在的问题,减少故障的时间和影响,推动服务稳定性99.9的目标达成。
250px|700px|reset
【接口稳定性看板】:
自研应用通过火山云上报接口错误,超时等维度的统计,每天定时任务获取数据推送到平台,基于图表组件搭建接口错误总量/日,接口错误/应用,今日各应用接口错误占比,各应用接口错误占比,接口超时等可视化看板。
场景 5:数据可视化的平台赋能
基于平台赋能实现了故障/告警/性能/接口稳定性等数据统计报表/的工具化和可视化,满足质量合规要求,解决了报表产出成本高的问题;每日晨会同步统计结论,发现问题,推动优化,实现了信息的透明化,提升团队人效,最终推动总体质量的提升。
【告警数据可视化】:
【性能数据可视化】:
前端基于sentry监控,通过接口查询到性能情况,定时推送到【IT质量管理平台】;依据FCP指标,查询到首屏时间国内小于1s,1-3s,3s以上;国外小于3s,3-5s,5秒以上的占比情况,通过可视化的形式,有效的展示出性能优化前后的效果。
250px|700px|reset
250px|700px|reset
【接口稳定性可视化】:
【故障数据可视化】:
250px|700px|reset
先进生产力和业务协同平台
联系我们立即试用
更多人气推荐
查看更多

先进团队,先用飞书

欢迎联系我们,飞书效能顾问将为您提供全力支持
分享先进工作方式
输送行业最佳实践
全面协助组织提效
反馈给飞书 CEO:ceo@feishu.cn