Skip to main content
“엔진이 현재 과부하 상태입니다. 나중에 다시 시도해 주세요”라는 메시지와 함께 503 오류가 발생하면, Serverless Inference 서버에 트래픽이 몰려 현재 요청을 처리할 수 없다는 의미입니다. 이 페이지에서는 이 오류가 발생하는 이유와 이를 완화하는 방법을 설명합니다.

이런 현상이 발생하는 이유

수요가 많은 시기에는 Inference 엔진이 일시적으로 과부하 상태가 될 수 있습니다. 이 상태는 보통 트래픽이 잦아들면 저절로 해결됩니다.

할 수 있는 작업

503 응답에서 복구하고 다시 이를 겪을 가능성을 줄이려면 다음 전략을 사용하세요:
  • 잠시 기다린 후 다시 시도:
    • 요청을 다시 시도하기 전에 몇 초 정도 기다리세요.
    • 혼잡을 더 악화시키지 않도록 지수 백오프를 사용하세요.
  • 요청 분산:
    • 요청을 많이 보내는 경우 시간 간격을 두고 분산해서 보내세요.
    • 트래픽 급증을 완화할 수 있도록 요청 대기열을 구현하세요.

Server Errors