飞书集成平台赋能企业安全高效运维——zabbix场景解析

飞书集成平台赋能企业安全高效运维——zabbix场景解析

开发者广场内容精选NaN-NaN-NaN
解决方案
作者:陈龙威
推荐理由
主要介绍zabbix+飞书+集成平台+多维表格的实际配置案例,低成本快速搭建应急指挥中心。
一、背景简介
我所在的公司是一家行业内较为领先的纺织产业+互联网企业,拥有多个业务板块。作为公司IT一员,我们的日常工作在企业快速的业务发展中承担了重要的基础支撑作用。
而当前,企业内IT监控系统繁多、专业人员较少、应急不及时等原因都可能导致运维SLA降低,甚至直接影响着生产系统的稳定性。因此,如何在日常工作中让我们及时收到、处理各类 IT 系统的告警信息,并且高效进行数据分析、经验总结,成为了目前的一大挑战。
二、场景挑战
以 Zabbix 这一监控解决方案为例,该场景有以下三点挑战:
1、跟进过程乏留痕:当 Zabbix 系统内出现一则告警信息时,“有无员工已经在跟进、从何时开始跟进”等问题的答案却无从而知,告警信息的处理过程无法做到完全留痕;
2、事件管理存档难:通过 Zabbix 系统,我们仅能得知问题是否已经被解决以及进行简单的原因分析记录,对于需要截图以及成百上千字的事故复盘报告,zabbix系统自带的功能并不足以进行高效的信息汇总;
3、绩效考核缺依据:以管理者视角来看,由于跟进过程缺乏留痕动作,我们每位 IT 及安全运维人员每周/月的分工、工作量无从得知,处理每次告警事故的时效性更是没有明显的数据看板,导致绩效考核时缺乏一定的依据。
250px|700px|reset
三、解决方案
1、配置好上述模板后,Zabbix 告警通知会自动写入多维表格形成新记录,并及时将消息卡片推送至技术群内,并@技术人员
Zabbix 告警信息同步到多维表格
Zabbix 告警信息发送飞书卡片消息
出现新告警时自动推送消息卡片
250px|700px|reset
250px|700px|reset
250px|700px|reset
  • 效果图如下:
消息卡片一键推送告警关键信息,处理人需点击“告警确认”⬇️
自动将【事件ID】、【事件时间】、【事件名称】、【事件信息】、【事件严重性】记录到多维表格中⬇️
2、处理人点击“告警确认”,事件处理状态由“未响应”变为“解决中”,并继续在技术处理群中推送相关消息卡片
当处理人在消息卡片中点击“告警确认”后,多维表格中该记录的事件状态由“未响应”变为“解决中”⬇️
250px|700px|reset
当事件状态变为“解决中”时,向技术处理群发送消息卡片⬇️
  • 效果图如下:
通过消息卡片告知群成员,已有员工跟进此事故处理,无需重复跟进⬇️
250px|700px|reset
自动将【处理人】、【响应时间】记录到多维表格中,并自动计算响应时间⬇️
3、处理人解决问题后,处理人点击卡片右侧的“解决问题后请点击该按钮”,告知群成员事故已处理
处理人在消息卡片中点击对应按钮后,多维表格中该记录的事件状态由“解决中”变为“已解决”⬇️
250px|700px|reset
当事件状态变为“已解决”时,向技术处理群发送消息卡片⬇️
  • 效果图如下:
事件处理状态变为“已解决”⬇️
250px|700px|reset
事故处理完成后,处理人点击"解决问题后请点击该按钮"⬇️
4、处理人点击"填写事故原因和解决方案",总结经验,完成归档
点击"填写事故原因和解决方案"⬇️
250px|700px|reset
如果本次处理的事件非常复杂,战线很长,不能用几行字描述清楚,可以使用“飞书云文档”编写事故报告,然后在【事故原因】和【解决方案】中插入飞书云文档,从而更好地进行知识归档。
处理人将【事故原因】、【解决方案】、【截图】记录到多维表格中,【恢复时间】及【持续时间】由 Zabbix自动推送至多维表格⬇️
四、方案效果
1、跟进过程与解决方案全程留档
  • 跟进过程可循迹:每一个事件从“未响应”到“解决中”到“已解决”的跟进过程(何人、何时跟进),都可以被清晰地保留在表格中;并且,飞书集成平台让消息更加高效、同频地传递到人,避免出现“重复跟进”的情况;
  • 解决方案可复用:若过去的技术故障复现,技术人员可根据多维记录中的【事故原因】及【解决方案】两个字段,一键定位到上次事故的解决方案,更加快速地处理事故。
250px|700px|reset
2、管理者视图清晰呈现
  • 事故大盘可查看根据【告警事件数量】、【告警事件解决数量】、【告警事件级别统计】的仪表盘视图及点击后的详情页面,管理者可以及时得知目前已处理及未处理的事件数量、事件级别及各事件细节;
  • 员工分工更清晰根据【各技术人员接单情况统计】的仪表盘视图,管理者可以清晰看出在某个时间段内,各个技术人员在处理事故方面的分工、工时,为各员工的绩效考评提供了部分有效依据。
五、方案价值&开发心得
在传统IT运维管理中,每个IT监控系统都是一座信息孤岛,频繁地切换系统页面、重复与人沟通进度、繁琐的报告撰写,不断消耗着时刻准备"救火"的运维人员所剩无几的精力。通过集成平台以及多维表格,我们只需要进行简单的开发和配置,即可高效地完成信息汇总、应急响应全生命周期管理、自动化告警配置以及文档资料管理,让团队协作更加丝滑、责任分明,让运维人员从琐碎的操作中释放出来专注于处理问题、总结经验,从而大幅度提升运维人效以及团队战斗力。
先进生产力和业务协同平台
联系我们立即试用
更多人气推荐
查看更多

先进团队,先用飞书

欢迎联系我们,飞书效能顾问将为您提供全力支持
分享先进工作方式
输送行业最佳实践
全面协助组织提效
反馈给飞书 CEO:ceo@feishu.cn