multimodal 2

[LLM] AI Agent의 기능 확장: 멀티모달 처리, 코드 해석, 쓰기 액션(Write Actions) 및 보안 고려

1. AI 에이전트의 기능 확장 (Capability Expansion for AI Agents)AI 모델은 특정 기능(예: 계산, 번역, 코드 실행)에 약할 수 있다.해결책: 외부 도구를 활용하여 기능을 확장하는 방식예제: 기본적인 AI의 한계 해결하기수학 계산이 약한 AI → 계산기 API(Wolfram Alpha) 연동번역 기능 부족 → 다국어 번역 API 연결코드 실행 불가능 → 코드 인터프리터(Code Interpreter) 도구 추가2. AI의 멀티모달 처리(Multimodal AI Processing)기존 AI 모델은 텍스트만 처리 가능하지만, 멀티모달 기능을 추가하면 더 강력한 AI가 된다!텍스트 전용 AI를 멀티모달 AI로 확장하는 방법텍스트 + 이미지AI가 텍스트뿐만 아니라, 이미지도 ..

[LLM] RAG의 확장: 문서 기반 검색을 넘어 멀티모달 RAG로

1. RAG 시스템의 컨텍스트 확장 (Contextual Augmentation in RAG)컨텍스트 보강(Context Augmentation)이란?"검색된 문서의 청크에 짧은 컨텍스트를 추가하여 검색 정확도를 향상시키는 기법"문제점:검색된 문서의 일부 청크(Chunk)만 보면 문맥을 이해하기 어려울 수 있음AI 모델이 올바른 정보를 제공하려면, 검색된 청크가 전체 문서에서 어떤 역할을 하는지 알 필요가 있음해결 방법:각 청크에 짧은 문맥(Context)을 추가하여 검색 엔진이 더 정확한 결과를 반환할 수 있도록 함Anthropic의 접근 방식각 청크 앞에 해당 청크의 의미를 설명하는 컨텍스트 요약을 추가이 보강된 청크를 검색 시스템이 인덱싱결과:검색된 문서가 더 유의미한 결과를 제공AI가 문맥을 더 ..