运维故障：假若下次注意，可能不会这么幸运-数据库教程-爱易网页

日期：2014-05-16　浏览次数：20711 次

运维故障：假如下次注意，可能不会这么幸运

最近开始做运维，连着2天发生过意外，虽然都有惊无险，但我认为是侥幸！

故障记录如下：

1. 2014-4-1 新项目上线，在执行DDL时忘了确认字符集，导致开发同学那边查出来是乱码。

2. 2014-4-3 部署Oracle DG，自以为主库不是线上库，初始化后重启了主库

发生事情是我们都喜欢事后诸葛亮，然后扪心自谓:"我下次注意"，不要忘了，生产环境是随机行走的，你无法意料它的走向。我的意思是不可控的风险很多，甚至有些是无法避免。

针对这2天的故障，做了些反思：

1. 备份：任何操作前都必须备份

2. 删除：该操作能不做就最好不做，要做的话，最好先各方沟通协调，确认无误再执行，执行前也必须先备份

3. 重启：重启前必须知会相关业务方、程序方以及你的部门老大

4. 评估：你必须很清楚你所执行命令的用途、会有哪些风险、变更是否可回滚....等等

5. 环境：服务器资源(CPU,IO,MEM)、数据库实例个数以及各自状态、所服务的业务是什么......这些是你管理的DB，你关心过他们吗？

6. 方案：上线前或执行重大操作，必须先整出一份方案，细化到每一份可能带来的风险

如果有兴趣的朋友，也可看下之前写的文章逃离故障的十条运维工作经验总结

请尊重而且敬畏你的线上环境！

假如下次注意，也许会很幸运。

Good Luck！

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。