工作总结

发表时间：2026-03-28

运维个人工作总结〔2026精选〕。

这一年，我处理故障的方式，算是彻底翻了个个儿。

以前吧，设备出问题，脑子里第一反应是“这毛病我见过”，然后上手试，重启、切线路、换端口，凭经验蒙，蒙对了就收工，蒙不对再查日志。说白了，那是靠手感吃饭。今年不一样了，我的工位上多了一摞东西——工艺标准、施工规范、设备维护手册。现在遇到问题，我先把现象往标准上靠，看它哪条没满足，再动手。

这事得从年初说起。

当时我们上了一批新的汇聚交换机，按老习惯，上架、加电、跑通业务就算完事。但验收那天，我在巡检时发现有一台核心交换机的光模块收光功率一直在-22dBm附近晃，正常范围是-20dBm到-3dBm，它已经在临界值下面了。按以前，只要业务没丢包，这事儿我可能就记一笔“观察”就过了。但那会儿我刚被安排牵头修订运维验收规范，心里一直绷着根弦。我翻出光模块的硬件规格书，里面白纸黑字写着接收灵敏度下限是-20.5dBm。这不就是带病上岗吗？

我去找当时的实施方沟通，对方负责人说“先上线吧，真出问题再说”。我没同意。当场拉着一根光纤，换了三块模块对比测试，发现这批模块在交换机温度升上来之后，收光功率还会往下掉。最后确定是这批模块的批次性质量问题。三台设备，一共换了六块模块，当天晚上全部搞定。

事后我想，如果当时图省事放过去了，等到业务高峰期，这六块模块指不定哪天就同时“罢工”。凌晨三点被电话叫醒的滋味，我可不想再尝了。

真正让我下定决心把流程固化下来的，是今年夏天那次环路故障。

那是一个周三的下午，我正蹲在机房换风扇，突然监控报警弹了一屏幕，核心业务延迟从几毫秒飙到三百多毫秒，丢包率也在涨。我扔下手里的螺丝刀，登录设备一看，CPU占用率冲到90%以上，端口流量异常。我按老办法，先切流量、重启交换机，业务恢复了，前后不到十分钟。大家松了口气，我也没多想，就当是偶然事件。

但当天晚上七点多，我处理完后续工作，坐在机房地板上喝水，脑子里突然闪过一个念头：三个月前，也是这批设备，也是下午，也是类似的报警。当时也是重启解决的。我怎么在同一块石头上绊了两次？

我越想越不对，又折回去，把那两台交换机的日志导出来，对着时间点一条条看。MAC地址漂移记录、端口状态变化、STP（生成树协议）的拓扑变更通知……折腾到半夜，我锁定了问题：一台备用交换机的STP配置里的桥优先级参数，跟主设备的不匹配。当主链路有波动时，备用设备会误判，试图接管，结果反而把环路广播捅出来了。

这个故障的根因，其实三个月前就有苗头。当时缺的就是一张完整的复盘表，逼着自己把问题问到底：为什么发生？什么条件下触发？怎么从配置上根除？

●读书笔记吧冷门神作挖掘:

运维工作总结 | 网络运维总结 | 个人工作总结 | 个人院运会工作总结 | it运维个人工作总结 | 运维个人工作总结

我把这事的始末写成了一份详细的复盘报告，把STP配置里的所有参数都列出来，跟厂商核对，重新做了基线。从那以后，我们所有的网络设备上线，STP配置必须按这个基线走，少一个参数都不能签字。这三个月，同类问题再没出现过。

推行这套流程的时候，不是没有阻力。有个老同事私下跟我说：“你这么搞，一天能处理几个故障？有这功夫还不如多盯几台设备。”我没跟他争，而是把那份复盘报告丢给他，说：“你看，同样的故障，我们一年能出两次。如果第一次就按现在这套走，第二次就不会发生。你要算总账，不是算单次的时间成本。”他没再说话，后来再开会的时候，反而主动帮我推进流程。

今年我们还改了验收流程。以前新系统上线，运维就是走个过场，跑两个用例就签了。现在我把“故障演练”写进了验收标准里。记得有个新业务系统，开发团队拍着胸脯说“绝对稳定，压测都过了”。我让人模拟一台应用服务器宕机。结果负载均衡策略压根没生效，流量全涌向另一台，差点把那台也压垮。开发组的人脸色铁青，但那正是我要的效果——问题在凌晨三点之前暴露，总比在凌晨三点把我叫起来强。

今年我给自己算了一笔账：全年我们完成了61次系统变更，全部按新流程执行，其中9次因方案不完整被驳回修改。配置错误引发的故障，从去年的6次降到1次。这1次还是因为操作人漏了一个步骤，我已经在流程里加了二次确认环节。

我不知道这些变化算不算“成绩”，但有一点我挺确定：系统稳定这事，靠的不是一个人有多能“救火”，而是让每个人在干活的时候，都有规矩可循，知道什么能做、什么不能做。这条路，没什么捷径，但走得稳，比走得快重要得多。

推荐阅读:

更多精彩的工作总结，欢迎继续浏览：工作总结

热门标签:

个人维稳工作总结