Linux 장애 진단

증상에 맞는 명령어 묶음을 고르는 순서

서버가 느리거나 멈춘 것처럼 보일 때는 프로세스, 메모리, 디스크, 네트워크, 서비스 순서로 큰 병목부터 확인한다.

CPU

프로세스

ps, top, htop으로 점유율과 상태 코드를 먼저 본다.

MEM

메모리

free와 vmstat에서 available, swap, I/O wait를 구분한다.

DISK

디스크

df, du, lsof +L1로 용량과 삭제된 열린 파일을 확인한다.

NET

네트워크

ss, curl, dig, tcpdump로 포트와 연결 흐름을 나눈다.

SVC

서비스

systemctl과 journalctl로 재시작 여부와 최근 로그를 확인한다.

정상 종료 우선

프로세스 종료는 SIGTERM을 먼저 보내고 SIGKILL은 최후 수단으로 남긴다.

증거 보존

삭제, 재시작, kill 전에는 PID, 로그, 포트, 열린 파일 상태를 기록한다.