머신러닝 & 딥러닝/LLM

[LLM] 검색 알고리즘 비교: 용어 기반 검색 vs. 임베딩 기반 검색

Haru_29 2025. 3. 5. 00:12

1. 검색 알고리즘 비교: 장단점 분석

검색 기술은 크게 용어 기반 검색(Term-Based Retrieval)과 임베딩 기반 검색(Embedding-Based Retrieval)으로 나뉩니다.

📌 🔹 용어 기반 검색 (Term-Based Retrieval)

빠른 검색 속도

  • 검색 시, 단어를 문서 내에서 단순 매칭하여 검색하므로 속도가 빠름
  • 텍스트를 벡터로 변환하는 과정이 없기 때문에 계산 비용이 낮음

즉시 활용 가능

  • Elasticsearch, BM25 등 기존의 검색 시스템에서 바로 사용 가능
  • 별도의 모델 학습 없이 키워드 기반으로 검색 가능

🚨 한계점

  • 문맥을 고려하지 않음 → 단어가 정확히 일치해야 검색 가능
  • 동의어나 유사 개념을 인식하지 못함 → 예: "AI"와 "인공지능"을 다르게 처리할 가능성 있음
  • 단어 중의성(Ambiguity) 문제 → 예: "Apple"이 회사인지 과일인지 구분 어려움

📌 🔹 임베딩 기반 검색 (Embedding-Based Retrieval)

의미적 검색(Semantic Search) 가능

  • 단순 키워드 일치를 넘어서 문장의 의미까지 고려 가능
  • 동의어나 유사한 개념도 검색 가능 → "AI" ≈ "인공지능"

학습을 통해 지속적인 개선 가능

  • 임베딩 모델을 개선하면 검색 품질이 점진적으로 향상
  • RAG(Retrieval-Augmented Generation) 시스템과 결합하여 AI 응답 품질 향상 가능

🚨 한계점

  • 검색 속도가 상대적으로 느림 → 벡터 연산이 필요하기 때문
  • 벡터 데이터베이스 필요 → 일반적인 관계형 데이터베이스(RDBMS)에서는 활용하기 어려움
  • 임베딩 생성 비용 → 새로운 데이터가 추가될 때마다 벡터 변환이 필요하므로 비용이 증가할 수 있음

2. 검색 성능 평가 기준: Context Precision & Context Recall

검색 품질을 평가하는 대표적인 두 가지 기준이 있습니다.

📌 🔹 Context Precision (맥락 정밀도)

"검색된 문서 중에서 실제로 관련성이 높은 문서의 비율"

  • 검색된 문서 중에서 정확한 문서가 몇 %인지 평가
  • Precision이 높을수록 정확한 검색 결과를 제공

📌 🔹 Context Recall (맥락 재현율)

"관련성이 높은 문서 중에서 검색된 문서의 비율"

  • 전체 관련 문서 중에서 실제로 검색된 문서의 비율
  • Recall이 높을수록 더 많은 관련 문서를 검색

🚨 현실적인 문제점

  • 실제 데이터에서는 Context Recall을 계산하는 것이 어렵다!
  • 검색된 모든 문서와 전체 문서를 비교해야 하기 때문에 정확한 평가가 어려움
  • 일반적으로 AI 평가 시스템에서는 Context Precision을 주로 활용

📌 📊 예제: Context Precision vs. Context Recall

검색된 문서 10개 중 관련 문서 8개 전체 관련 문서 20개 중 검색된 문서 8개

Context Precision = 8/10 = 80% Context Recall = 8/20 = 40%

Precision을 높이면 검색 결과의 정확성이 증가하지만, 관련 문서를 놓칠 가능성이 있음

Recall을 높이면 더 많은 문서를 검색하지만, 정확도가 떨어질 위험이 있음


3. 검색 속도, 성능, 비용 비교

📌 용어 기반 검색 vs. 임베딩 검색 비교

비교 항목 용어 기반 검색 임베딩 기반 검색
검색 속도(Querying Speed) ✅ 매우 빠름 🚨 벡터 변환과 검색에 시간이 걸림
검색 성능(Performance) ✅ 초기 성능 우수 (즉시 사용 가능) ✅ 모델을 튜닝하면 성능 향상 가능
검색 품질(Search Quality) 🚨 단어 중의성 문제로 인해 오류 가능 ✅ 문맥을 이해하여 보다 자연스러운 검색 결과 제공
잘못된 검색 가능성(Wrong Matches) 🚨 키워드 오류로 인해 엉뚱한 문서 검색될 가능성 있음 ✅ 의미 기반 검색으로 인해 정확한 문서 검색 가능
비용(Cost) ✅ 비교적 저렴함 (모델 학습 불필요) 🚨 임베딩 생성 및 벡터 데이터 저장 비용이 높음

정리:

  • 즉각적인 검색이 필요하면BM25, Elasticsearch 같은 용어 기반 검색이 유리
  • 문맥을 이해하는 검색이 필요하면임베딩 기반 검색이 유리
  • 비용 절감을 고려하면전통적인 검색이 적절하지만, AI와 결합하면 임베딩 검색이 강력한 옵션

4. 검색 알고리즘의 미래: 하이브리드 검색(Hybrid Search)

최근 검색 시스템에서는 용어 기반 검색과 임베딩 기반 검색을 결합하는 하이브리드 검색이 점점 증가하고 있습니다.

📌 🔹 하이브리드 검색(Hybrid Search)의 장점

속도 + 정확도 → 키워드 검색의 빠른 속도와 의미 기반 검색의 높은 정확도 결합

비용 절감 → 자주 사용되는 데이터는 키워드 검색으로 처리하고, 복잡한 질의는 임베딩 검색 활용

최신 검색 기술 트렌드 → Google, Microsoft, OpenAI 같은 기업들이 하이브리드 검색 도입

📌 📊 하이브리드 검색 예제

1️⃣ 1단계: 키워드 기반 검색(BM25) 수행

2️⃣ 2단계: 검색된 문서 중에서 의미적으로 가장 유사한 문서를 임베딩 기반 검색 수행

3️⃣ 3단계: 최종적으로 검색 결과를 정렬하여 사용자에게 제공

이 방식은 빠른 검색 속도를 유지하면서도, 문맥을 고려한 정확한 검색이 가능!


5. 결론: 최적의 검색 알고리즘 선택하기

빠른 검색이 중요하면?BM25 같은 용어 기반 검색

AI 기반의 의미적 검색이 필요하면?임베딩 기반 검색

최상의 검색 품질을 원한다면?하이브리드 검색이 정답!

미래의 검색 시스템은 "하이브리드 검색"이 주도할 것이다!