TroubleShooting

[ECS Fargate][TroubleShoot] Health Check 실패 (Unhealthy Host 0,1 무한반복)

[앙금빵] 2022. 8. 31.

1. 이슈상황

 

1-1. 특정 ECS Service에서 Task가 생성되고 지워지는 현상이 반복되는 현상이 지속적으로 발생하였으며 Stopped 된 사유는 Scaling activity로 인해 발생한 것으로 확인됨

 

1-2. ECS Service와 연결된 ELB에서 Unhealthy Host 상태값이 0, 1 무한 반복

 

1-3. Desired Task를 증가시켜도 항상 1개의 추가 Task가 생성되어 정상적으로 처리되지 않는 Task가 존재

 

2. 해결방안

 

만약 문제가 발생한 ECS 서비스에 Retired Task가 존재한다면 다음의 조치를 취하면 된다.

(1) Desired Task를 2로 증가 (권장사항, Single Point Failure를 피하기 위함)
(2) Force New Deployment 실행

 

Retired Task가 운영중인 ECS서비스 내 존재할 시 발생하는 문제이며, 해당 이슈는 AWS에서 내부적으로 확인된 이슈이다. ECS Service 내 Retired Task가 존재할 때 ECS Sheculer 버그로 인하여 발생하는 현상으로 전달받으며, AWS 내부적으로 해결중에 있다.

 

문제가 발생한 ECS Service에는 140일이 경과한 Task가 존재하였다.

 

# 참조사항

https://docs.aws.amazon.com/AmazonECS/latest/userguide/task-maintenance.html

ECS Service Task 에 대하여 오래된 Task가 확인될 시 AWS에서는 자동으로 오래된 Task를 Stop시키고 새로운 Task를 실행시키며, 별도의 알림은 전송하지 않는다. 

 


참조

  • AWS Case Open

 

 

댓글