머신러닝 & 딥러닝/LLM

[LLM] RAG의 확장: 문서 기반 검색을 넘어 멀티모달 RAG로

Haru_29 2025. 3. 5. 00:23

1. RAG 시스템의 컨텍스트 확장 (Contextual Augmentation in RAG)

📌 컨텍스트 보강(Context Augmentation)이란?

"검색된 문서의 청크에 짧은 컨텍스트를 추가하여 검색 정확도를 향상시키는 기법"

💡 문제점:

  • 검색된 문서의 일부 청크(Chunk)만 보면 문맥을 이해하기 어려울 수 있음
  • AI 모델이 올바른 정보를 제공하려면, 검색된 청크가 전체 문서에서 어떤 역할을 하는지 알 필요가 있음

📌 해결 방법:

  • 각 청크에 짧은 문맥(Context)을 추가하여 검색 엔진이 더 정확한 결과를 반환할 수 있도록 함
  • Anthropic의 접근 방식
    • 각 청크 앞에 해당 청크의 의미를 설명하는 컨텍스트 요약을 추가
    • 이 보강된 청크를 검색 시스템이 인덱싱

결과:

  • 검색된 문서가 더 유의미한 결과를 제공
  • AI가 문맥을 더 정확하게 이해하여 환각(hallucination) 현상을 줄임

2. 검색 솔루션 평가 기준 (Evaluating Retrieval Solutions)

📌 검색 시스템을 평가할 때 고려해야 할 주요 요소

🔹 1️⃣ 검색 메커니즘 및 기능

✅ 어떤 검색 기법을 지원하는가?

  • 용어 기반 검색(BM25) 또는 임베딩 기반 검색(FAISS, HNSW)
  • 하이브리드 검색 지원 여부

✅ 어떤 벡터 임베딩 모델을 지원하는가?

  • OpenAI의 CLIP, Sentence-BERT, Cohere 등과의 호환성

🔹 2️⃣ 확장성 (Scalability)

✅ 데이터 저장 용량과 트래픽 처리 능력

  • 대규모 데이터 저장 및 검색 요청을 원활히 처리할 수 있는가?
  • 고부하 트래픽 환경에서도 원활하게 작동하는가?

✅ 인덱싱 속도

  • 새로운 데이터를 추가하거나 삭제할 때 얼마나 빠르게 처리할 수 있는가?

✅ 쿼리 대기 시간 (Query Latency)

  • 실시간 검색이 가능한가?
  • 예제: 챗봇의 경우 100ms 이하의 응답 속도가 요구됨

🔹 3️⃣ 비용 (Pricing & Management)

클라우드 기반 검색 솔루션은 어떻게 요금이 부과되는가?

  • 문서 개수당 과금 or 쿼리 요청량당 과금?
  • 대량 데이터를 검색할 경우 비용이 급증할 가능성이 있는가?

✅ 기업 환경에서의 추가 기능

  • 보안, 접근 제어, 규정 준수(Compliance), 데이터 보호 기능 제공 여부

📌 최적의 검색 솔루션을 선택하려면, 검색 정확도뿐만 아니라 성능과 비용도 고려해야 한다!


3. RAG의 확장: 멀티모달 RAG (Multimodal RAG)

📌 문서 기반 검색을 넘어, 이미지, 오디오, 비디오 등 다양한 데이터 유형을 검색하는 RAG 시스템

💡 왜 멀티모달 RAG가 필요한가?

  • 텍스트뿐만 아니라, 이미지, 영상, 오디오, 표(Tabular Data)도 중요한 정보원이기 때문
  • 예제:
    • "Up 영화 속 집의 색깔은?" → 텍스트 문서뿐만 아니라, 관련된 이미지도 검색해야 올바른 답변을 제공

1️⃣ 텍스트 데이터베이스와 이미지 데이터베이스에서 검색

2️⃣ 검색된 정보를 바탕으로 AI가 응답 생성

3️⃣ 이미지가 필요할 경우, 검색된 이미지도 함께 제공

이점:

  • 이미지 검색과 텍스트 검색을 결합하여 더욱 강력한 검색 기능 제공
  • 기존의 텍스트 기반 RAG보다 더 풍부한 정보를 제공할 수 있음

4. 멀티모달 검색을 위한 AI 모델: CLIP (Contrastive Language-Image Pretraining)

📌 이미지를 검색하려면, 이미지와 텍스트를 동일한 벡터 공간에 매핑할 수 있어야 함

CLIP (Radford et al., 2021)

  • OpenAI에서 개발한 텍스트-이미지 임베딩 모델
  • 텍스트와 이미지를 같은 벡터 공간에 인코딩하여 서로 비교 가능
  • 예제:
    • "빨간색 자동차"라는 검색어를 입력하면, 유사한 색상의 자동차 이미지 검색 가능

CLIP을 활용한 검색 프로세스

1️⃣ 쿼리(예: "노란 집")를 임베딩 벡터로 변환

2️⃣ 이미지 데이터베이스의 벡터들과 비교하여 가장 유사한 이미지 검색

3️⃣ 검색된 이미지와 함께, AI 모델이 텍스트 응답 생성
LLM2CLIP (Microsoft,  2024)

  • 기존 clip 모델보다 길고 복잡한 텍스트 정보를 처리 가능
  • LLM2Vec 접근법을 적용하여 LLM을 텍스트 인코더로 변환
  • LLM 기능 공간을 정렬하기 위해  CLIP Vision Image Encoder 미세조정

📌 멀티모달 검색은 AI가 현실 세계의 데이터를 더 잘 이해하고 활용할 수 있도록 만든다!


5. 결론: RAG 시스템의 미래는 멀티모달 검색이다!

텍스트 기반 RAG → 검색된 문서의 문맥을 보강하여 AI의 응답 품질을 향상

검색 시스템 평가 시, 검색 성능, 확장성, 비용 등을 종합적으로 고려해야 함

멀티모달 RAG → 텍스트뿐만 아니라, 이미지, 오디오, 영상 검색까지 확장

CLIP과 같은 AI 모델을 활용하면, 텍스트와 이미지 검색을 결합한 강력한 검색 시스템 구축 가능

AI 검색의 미래는 "텍스트 + 이미지 + 비디오"를 모두 활용하는 멀티모달 RAG에 있다!