원문 전체를 통째로 넣기보다 검색에 의미가 있는 청크 단위로 준비합니다.
벡터 데이터베이스의 핵심은 원문을 그대로 찾는 것이 아니라, 임베딩을 저장해 질의와의 의미적 거리를 계산하는 데 있습니다.
원문 전체를 통째로 넣기보다 검색에 의미가 있는 청크 단위로 준비합니다.
벡터 자체와 함께 문서 ID, 출처, 시간 같은 연결 정보를 함께 저장합니다.
저장된 값은 “의미 좌표”이므로, 키워드가 달라도 비슷한 내용을 가까운 이웃으로 찾을 수 있습니다.
예: “환불 규정이 어떻게 되지?” 같은 질의를 같은 벡터 공간으로 투영합니다.
코사인 유사도 또는 최근접 이웃 탐색으로 질의와 거리가 짧은 항목을 우선 정렬합니다.
정확히 같은 단어가 없어도 의미가 가까운 문서가 먼저 올라오므로, 검색 품질이 키워드 매칭보다 자연스럽게 개선됩니다.
검색된 여러 청크를 함께 전달하면 단일 문서보다 문맥이 풍부해집니다.
벡터 DB는 LLM 앞단에서 근거 문서를 찾는 검색 엔진 역할을 하며, 유사 상품·유사 문서 추천에도 같은 구조를 씁니다.
즉, 벡터 DB는 “임베딩 저장소”이면서 동시에 “유사도 검색 엔진”이기 때문에 AI/ML 시스템의 핵심 구성 요소가 됩니다.
벡터 DB의 차이점은 저장 형식보다 검색 방식에 있습니다. 원문을 같은 좌표계의 벡터로 바꾸고, 질문도 같은 방식으로 바꿔 가장 가까운 항목을 찾기 때문에 LLM과 RAG에서 특히 강력합니다.