머신러닝 & 딥러닝/LLM

[LLM] RAG의 확장: 문서 기반 검색을 넘어 멀티모달 RAG로

Suisei_AI 2025. 3. 5. 00:23

1. RAG 시스템의 컨텍스트 확장 (Contextual Augmentation in RAG)

컨텍스트 보강(Context Augmentation)이란?

"검색된 문서의 청크에 짧은 컨텍스트를 추가하여 검색 정확도를 향상시키는 기법"

문제점:

  • 검색된 문서의 일부 청크(Chunk)만 보면 문맥을 이해하기 어려울 수 있음
  • AI 모델이 올바른 정보를 제공하려면, 검색된 청크가 전체 문서에서 어떤 역할을 하는지 알 필요가 있음

해결 방법:

  • 각 청크에 짧은 문맥(Context)을 추가하여 검색 엔진이 더 정확한 결과를 반환할 수 있도록 함
  • Anthropic의 접근 방식
    • 각 청크 앞에 해당 청크의 의미를 설명하는 컨텍스트 요약을 추가
    • 이 보강된 청크를 검색 시스템이 인덱싱

결과:

  • 검색된 문서가 더 유의미한 결과를 제공
  • AI가 문맥을 더 정확하게 이해하여 환각(hallucination) 현상을 줄임

2. 검색 솔루션 평가 기준 (Evaluating Retrieval Solutions)

검색 시스템을 평가할 때 고려해야 할 주요 요소

1. 검색 메커니즘 및 기능

어떤 검색 기법을 지원하는가?

  • 용어 기반 검색(BM25) 또는 임베딩 기반 검색(FAISS, HNSW)
  • 하이브리드 검색 지원 여부

어떤 벡터 임베딩 모델을 지원하는가?

  • OpenAI의 CLIP, Sentence-BERT, Cohere 등과의 호환성

2. 확장성 (Scalability)

데이터 저장 용량과 트래픽 처리 능력

  • 대규모 데이터 저장 및 검색 요청을 원활히 처리할 수 있는가?
  • 고부하 트래픽 환경에서도 원활하게 작동하는가?

인덱싱 속도

  • 새로운 데이터를 추가하거나 삭제할 때 얼마나 빠르게 처리할 수 있는가?

쿼리 대기 시간 (Query Latency)

  • 실시간 검색이 가능한가?
  • 예제: 챗봇의 경우 100ms 이하의 응답 속도가 요구됨

3. 비용 (Pricing & Management)

클라우드 기반 검색 솔루션은 어떻게 요금이 부과되는가?

  • 문서 개수당 과금 or 쿼리 요청량당 과금?
  • 대량 데이터를 검색할 경우 비용이 급증할 가능성이 있는가?

기업 환경에서의 추가 기능

  • 보안, 접근 제어, 규정 준수(Compliance), 데이터 보호 기능 제공 여부

최적의 검색 솔루션을 선택하려면, 검색 정확도뿐만 아니라 성능과 비용도 고려해야 한다!


3. RAG의 확장: 멀티모달 RAG (Multimodal RAG)

문서 기반 검색을 넘어, 이미지, 오디오, 비디오 등 다양한 데이터 유형을 검색하는 RAG 시스템

왜 멀티모달 RAG가 필요한가?

  • 텍스트뿐만 아니라, 이미지, 영상, 오디오, 표(Tabular Data)도 중요한 정보원이기 때문
  • 예제:
    • "Up 영화 속 집의 색깔은?" → 텍스트 문서뿐만 아니라, 관련된 이미지도 검색해야 올바른 답변을 제공

1. 텍스트 데이터베이스와 이미지 데이터베이스에서 검색

2. 검색된 정보를 바탕으로 AI가 응답 생성

3 .이미지가 필요할 경우, 검색된 이미지도 함께 제공

이점:

  • 이미지 검색과 텍스트 검색을 결합하여 더욱 강력한 검색 기능 제공
  • 기존의 텍스트 기반 RAG보다 더 풍부한 정보를 제공할 수 있음

4. 멀티모달 검색을 위한 AI 모델: CLIP (Contrastive Language-Image Pretraining)

이미지를 검색하려면, 이미지와 텍스트를 동일한 벡터 공간에 매핑할 수 있어야 함

CLIP (Radford et al., 2021)

  • OpenAI에서 개발한 텍스트-이미지 임베딩 모델
  • 텍스트와 이미지를 같은 벡터 공간에 인코딩하여 서로 비교 가능
  • 예제:
    • "빨간색 자동차"라는 검색어를 입력하면, 유사한 색상의 자동차 이미지 검색 가능

CLIP을 활용한 검색 프로세스

1. 쿼리(예: "노란 집")를 임베딩 벡터로 변환

2. 이미지 데이터베이스의 벡터들과 비교하여 가장 유사한 이미지 검색

3. 검색된 이미지와 함께, AI 모델이 텍스트 응답 생성
LLM2CLIP (Microsoft,  2024)

  • 기존 clip 모델보다 길고 복잡한 텍스트 정보를 처리 가능
  • LLM2Vec 접근법을 적용하여 LLM을 텍스트 인코더로 변환
  • LLM 기능 공간을 정렬하기 위해  CLIP Vision Image Encoder 미세조정

멀티모달 검색은 AI가 현실 세계의 데이터를 더 잘 이해하고 활용할 수 있도록 만든다!


5. 결론: RAG 시스템의 미래는 멀티모달 검색이다!

  • 텍스트 기반 RAG → 검색된 문서의 문맥을 보강하여 AI의 응답 품질을 향상
  • 검색 시스템 평가 시, 검색 성능, 확장성, 비용 등을 종합적으로 고려해야 함
  • 멀티모달 RAG → 텍스트뿐만 아니라, 이미지, 오디오, 영상 검색까지 확장
  • CLIP과 같은 AI 모델을 활용하면, 텍스트와 이미지 검색을 결합한 강력한 검색 시스템 구축 가능