디버깅 원인 분류

OS 장애 분석 흐름

모든 도구를 한 번에 켜기보다, 실패한 경계가 파일인지 네트워크인지 CPU인지 먼저 가정하고 가장 직접적인 관측 도구부터 적용합니다.

느린 응답 어디서 시간을 쓰는지 본다

CPU 병목이면 perf, I/O 대기면 strace 통계와 /proc/io를 먼저 봅니다.

샘플링perf record -g
시스템 콜 시간strace -c
파일 또는 네트워크 실패 프로세스가 실제로 요청한 경로를 추적

설정 경로 오류, 권한 문제, 연결 타임아웃은 시스템 콜 결과에 직접 드러납니다.

파일strace -e trace=file
네트워크strace -e trace=network
비정상 종료 죽은 순간의 증거를 보존

코어 덤프와 커널 로그를 함께 보면 NULL 역참조, OOM, 디스크 오류를 구분할 수 있습니다.

콜 스택gdb app core
커널 사건dmesg --level=err
시간을 맞춘다 로그, strace, perf 결과를 같은 재현 구간으로 묶어 비교합니다.
관측 비용을 본다 운영 환경에서는 짧게 수집하고 민감한 출력 권한을 제한합니다.
증거를 남긴다 명령, 시간, PID, 커널 메시지를 함께 기록하면 재발 분석이 쉬워집니다.