所谓自动化运维,即以最少的人工干预,结合脚本和第三方工具的使用,保证业务系统7*24小时高效稳定运行。这应该是所有业务系统运维的最终目标。
根据运维的发展成熟度,运维大致可以分为三个阶段:
○依靠纯手工、重复的软件部署和运维;
○通过编写脚本,方便软件的部署和操作;
○使用第三方工具高效部署和运行软件;
我们对运维的要求通常是:
1.提前警告
监控各业务系统及底层软硬件,确保业务系统正常运行。做事前警告,避免失败,事后才知道。
2.解决问题
可能会发生无法预料的情况,即使是完美的解决方案也可能会出现意想不到的失败。为保证业务在最短的时间内恢复,系统必须能够快速定位故障点。并调度和解决警报
3.事后闭环
这里更强调运维管理的过程方法,对产生的告警进行告警调度和解决。形成报警闭环管理。
要实现上述要求,需要一支经验丰富、高效的运维团队。随着我们业务系统的不断增加,业务量的不断增加,传统的人工运维方式逐渐被淘汰。
我们更加注重通过脚本和第三方工具的运维方式,不仅可以满足我们的运维需求,解放生产力,还可以让我们的运维管理更加规范和规范,从而实现自动化运维和维护。
自动化运维的实现工具(脚本和第三方工具,通常两者必须结合使用。)
脚本(SHELL、DOC)
1、硬件状态监控:通过编写脚本,实时监控CPU、MEM、DISK、TOPProcesses、Network等关键硬件参数的状态,发现异常触发报警信息给管理员;
2、服务拨测:通过编写脚本对常用服务网站进行实时拨测,发现异常网页时向管理员发送告警信息;
3、系统安全加固:通过编写脚本对常用的Windows、Linux、Unix服务器进行快速安全加固;
4、数据备份:通过编写脚本实现对关键业务数据、关键日志、数据库、操作系统、中间件等(本地和异地)的快速备份。