SQL Server 2008 镜像的监控

最近新建立了多个热备镜像,于是把如何管理和监控镜像的认识总结一下。镜像在建立好之后,就需要去管理其运行状况。最重要是性能状况评估和关键指标的自动监控警报。

1. 首先我们要获取镜像状态的信息,才能做出判断或者监控。要获取这些信息,就要了解两个重要的镜像监控组件:数据库镜像状态表和数据库监控作业。

     1.1.数据库镜像状态表

        这个表指的是msdb库中的dbm_monitor_data表。它在首次调用数据库镜像监控器或者首次创建数据镜像监控作业时被自动创建,主体和镜像都有。每个镜像会话库每次更新时将会在其中插入一行。

        更新频率是可以配置的。表中数据默认保留最近7天的数据。

     1.2. 数据库监控作业

         这个作业就是用来更新数据库镜像状态表的。调用系统存储过程sys.sp_dbmmonitoraddmonitoring创建。如果它不能正常运作,则数据库镜像状态表的数据会是过时的

         用sys.sp_dbmmonitorchangemonitoring来修改作业调度(默认是1次/分钟),用sys.sp_dbmmonitordropmonitoring删除此作业。

  通常用脚本直接创建的镜像,不会自动生成数据库监控作业,需要我们手动创建。用GUI界面直接配置的镜像,通常会生成此作业。

 

2. 有了前面的定时刷新的状态数据来源,我们就可以查阅和监控镜像状态。可以使用数据库镜像监视器或 dbmmonitor 系统存储过程

    2.1 数据库镜像监视器

         选中镜像会话中的库–右键–任务–执行数据库镜像监视器。如果出殃红色的error icon,可能是实例连接没被正确注册;需要在Action->Manage Instance Server Connection对相关的镜像会话的实例正确注册。

        

      界面上分割为四块,分别看到一些状态数据:状态,主体日志,镜像日志,全局状态。各个指标具体含义参考数据库镜像监视器概述

      还有一个Tab叫做警报,这里将用于设定一些警阀值,本文后面会涉及。

   2.2 dbmmonitor 系统存储过程

        通过执行系统存储过程sp_dbmmonitorresults来查询数据库镜像状态表中状态数据。要说明的是:此SP只能在msdb库下运行,我的截图涂黑部分是库名,而且返回的列不只这么多。

       

     当然系统存储过程不只这一个,还有

     sp_dbmmonitoraddmonitoring

     创建定期更新服务器实例上每个镜像数据库的状态信息的作业。

     sp_dbmmonitorchangemonitoring

     更改数据库镜像监视参数的值。

     sp_dbmmonitorhelpmonitoring

     返回当前更新持续时间。

     sp_dbmmonitorresults

     返回所监视数据库的状态行,使您能够选择此过程是否预先获取最新的状态。

     sp_dbmmonitordropmonitoring

     停止并删除服务器实例上所有数据库的镜像监视器作业。

 

3. 我们有状态数据数据而且又知道如何查看,然后我们要根据某些关键状态的指标来建立起警报,实现自动化监控

    3.1 可以在数据库镜像监视器的Warnings面板中设定相关触发警报的阀值。

          

        下面是MSDN关于阀值的说明:

        

        如果为性能指标定义了警告阈值,则在更新状态表时,将针对阈值计算最新的值。如果已达到阈值,则更新过程 sp_dbmmonitorupdate 会针对指标生成一个提示性事件(“性能阈值事件”),

        然后将此事件写入 Microsoft Windows 事件日志。下表列出性能阈值事件的 ID。

        

  3.2 既然我们设定阀值警报会触发特定的windows 事件,则可以据此设定数据库警报来通知DBA.

       在设定数据库警报前,需要完成Database Mail和Operator的启用和配置。可以参考MSDN上的How to相关资讯或者网络上资料。

       在SQL Server Agent—》Alerts里新建针对“未发送日志”的警报,如下图。因为这个实例下,我有多个库用于镜像,所以我的数据库库名选择的是“all database”。错误号如3.1中所述为32042。

       

       在“响应”选项卡中,我只是选择用Email通知“操作者”DBA。可以根据需要,勾选“执行作业”。写一个能够抓取更多信息的作业(如性能数据,执行情况等等)或者针对警报做出响应的处理脚本,然后在此执行。

       

      在“选项”选项卡中,我只勾选了邮件中包含警报错误信息。也可以根据需要,添加额外的文本信息。

      “两次响应的间隔”我设定为一分钟。

      

      到这里算是邮件警报设定完成了。有时候我的邮箱会收到警报,最好还别收到。。。。

      

 

总结:

      1. 截图来自生产环境,它是英文的。说明文字来自我自己,又是中文的。有些关键字和固有名词,是我自己的说法,比较生硬,而且看起来怪怪的。。。

      2. 其它关于警报还有很多种方式,WMI的警报,PerfCounters的警报等等。

      3. 这些总结内容只能算是summary。

此条目发表在未分类分类目录,贴了标签。将固定链接加入收藏夹。