빈도 패턴

빈도 문제는 키 정책, 집계, 선택 기준 분리

맵과 셋은 한 번 순회로 정보를 쌓는 도구입니다. 정확도는 키 정규화와 동점 정책에서 먼저 갈립니다.

normalize

키 통합

대소문자, 공백, 기호, 결측값을 같은 규칙으로 맞춥니다.

count

맵 누적

key -> count를 만들고 입력 크기 N과 고유 키 수 U를 분리합니다.

select

셋 판정

중복 여부나 이미 처리한 값은 셋으로 빠르게 확인합니다.

rank

Top-K 선택

K가 작으면 전체 정렬보다 힙 유지가 더 적합합니다.

복잡도 변수
N 전체 입력 크기입니다.
U 정규화 후 고유 키 수입니다.
K 상위 결과로 유지할 개수입니다.
운영 확장

무한 누적 대신 윈도우와 메모리 상한을 둡니다

스트림 입력에서는 오래된 키 제거, 근사 집계, 샤딩을 함께 검토합니다. 정규화 실패나 동점 미정의는 재현성 없는 결과를 만들고, 기준이 고정되면 중복 탐지와 Top-K로 쉽게 확장됩니다.