정규화 반례
같은 단어가 여러 키로 찢어지는 순간 오답이 시작된다
공백, 대소문자, 기호 정책을 먼저 고정하지 않으면 중복 추출, Top-K, 아나그램 판정이 모두 다른 결과를 냅니다.
정규화 없음
표기 그대로 세면 3개 키
" Apple "1"apple"1"APPLE!"1중복 없음으로 보이거나 Top-K 순위가 흔들립니다.
trim
+
lower
+
punct rule
normalize
정규화 있음
같은 의미는 하나의 키
apple3banana2cache1중복, Top-K, 아나그램 판정이 같은 기준으로 계산됩니다.