정규화 반례

같은 단어가 여러 키로 찢어지는 순간 오답이 시작된다

공백, 대소문자, 기호 정책을 먼저 고정하지 않으면 중복 추출, Top-K, 아나그램 판정이 모두 다른 결과를 냅니다.

정규화 없음

표기 그대로 세면 3개 키

" Apple "1
"apple"1
"APPLE!"1
중복 없음으로 보이거나 Top-K 순위가 흔들립니다.
trim
+
lower
+
punct rule normalize
정규화 있음

같은 의미는 하나의 키

apple3
banana2
cache1
중복, Top-K, 아나그램 판정이 같은 기준으로 계산됩니다.