키 통합
대소문자, 공백, 기호, 결측값을 같은 규칙으로 맞춥니다.
맵과 셋은 한 번 순회로 정보를 쌓는 도구입니다. 정확도는 키 정규화와 동점 정책에서 먼저 갈립니다.
대소문자, 공백, 기호, 결측값을 같은 규칙으로 맞춥니다.
key -> count를 만들고 입력 크기 N과 고유 키 수 U를 분리합니다.
중복 여부나 이미 처리한 값은 셋으로 빠르게 확인합니다.
K가 작으면 전체 정렬보다 힙 유지가 더 적합합니다.
스트림 입력에서는 오래된 키 제거, 근사 집계, 샤딩을 함께 검토합니다. 정규화 실패나 동점 미정의는 재현성 없는 결과를 만들고, 기준이 고정되면 중복 탐지와 Top-K로 쉽게 확장됩니다.