如何阻止AWS CloudWatch UnHealthHostCount虚假警报？

2018-06-28 16:06:51

我们每天几次（通过电子邮件）收到此消息：

警报：美国弗吉尼亚州的“elb-production-UnHealthHostCount”

您收到此电子邮件是因为您的Amazon CloudWatch警报“elb-production-UnHealthHostCount”在美国 - 弗吉尼亚北部地区已进入警报状态，因为“阈值交叉：1个数据点（0.2）大于阈值（0.0）”。 “ 在“2016年1月21日星期四17:39:39 UTC”。

在AWS管理控制台中查看此警报：https://console.aws.amazon.com/cloudwatch/home?region=us-east-1#s=Alarms&alarm=elb-production-UnHealthHostCount

警报详细信息： - 名称：elb-production-UnHealthHostCount - 说明： - 状态更改：OK - > ALARM - 状态更改原因：阈值交叉：1个数据点（0.2）大于阈值（0.0）。 - 时间戳：2016年1月21日星期四17:39:39 UTC - AWS账户：1234567890

阈值： - 如果度量标准为GreaterThanThreshold 0.0，则报警处于ALARM状态60秒。

受监控的度量标准： - MetricNamespace：AWS / ELB - MetricName：UnHealthyHostCount - 维度：[LoadBalancerName =生产量] - 周期：60秒 - 统计量：平均值 - 单位：未指定

状态更改操作： - 确定： - 警报：[arn：aws：sns：us-east-1：1234567890：DevOps] - INSUFFICIENT_DATA：

但是，在查看我们的nginx日志文件后，似乎AWS能够在警报“启动”的时候联系我们的每台服务器。换句话说，我们的ec2实例在每个请求周围返回200个/healthcheck ，时间为2016年1月21日星期四17:39:39 UTC。

AWS似乎每30秒左右检查一次我们的实例。

有没有人遇到过这个问题？如果是这样，你做了什么呢？

我已经更新了一些设置...

每当：UnHealthyHostCount> 0

统计：平均

... 至 ...

每当：UnHealthyHostCount> = 1时

统计：最大

如果我的问题继续发生，我会更新这个答案。

更新：

问题继续发生：/

我在当前的UnHealthyHostCount警报上更新了一个设置...

连续1个周期（s）

... 至 ...

连续2个周期（s）

...并且我创建了一个新的警报来跟踪多台服务器在一段时间内是否关闭...

在这里输入图像描述

如果我的问题继续发生，我会更新这个答案。

链接地址: http://www.djcxy.com/p/80079.html

上一篇: How to stop AWS CloudWatch UnHealthHostCount false alarms?

下一篇: Query AWS CloudWatch custom metrics across dimensions