1. 기반 모델(FM) vs. 강화 학습(RL) 플래너
📌 FM(Foundation Model)과 RL(Reinforcement Learning) 에이전트의 차이점
✅ 기반 모델(FM) 플래너:
- 대형 언어 모델(LLM) 기반
- 프롬프트 엔지니어링을 통해 계획을 생성
- 일반적으로 사전 학습된 모델을 활용
- 즉시 활용 가능하지만, 계획 성능이 최적화되지 않을 수 있음
✅ 강화 학습(RL) 플래너:
- 강화 학습을 통해 지속적으로 성능이 개선됨
- 환경과 상호작용하며 최적의 계획을 학습
- 훈련에 많은 데이터와 시간이 필요
- 특정 작업에 맞춘 최적화가 가능
💡 결론:
- FM 플래너는 즉시 사용 가능하지만, RL 플래너는 장기적으로 더 최적화된 결과를 제공
- 미래에는 FM과 RL 플래너가 결합하여 더욱 강력한 AI 시스템이 탄생할 가능성이 높음
2. 계획 생성(Plan Generation)과 실행 방식
📌 AI가 계획을 세우는 가장 쉬운 방법: 프롬프트 엔지니어링 활용
🔹 예제: 제품 검색 에이전트 (Kitty Vogue)
💡 목표:
- 고객이 특정 제품 정보를 검색할 수 있도록 AI 에이전트를 설정
💡 AI가 사용할 수 있는 기능(External Tools):
1️⃣ get_today_date() → 현재 날짜 가져오기
2️⃣ fetch_top_products(start_date, end_date, num_products) → 특정 기간 동안 인기 제품 검색
3️⃣ fetch_product_info(product_name) → 특정 제품 정보 검색
4️⃣ generate_query(task_history, tool_output) → 쿼리를 생성하여 응답
5️⃣ generate_response(query_result) → 최종 사용자 응답 생성
📌 예제 프롬프트 (SYSTEM PROMPT)
Propose a plan to solve the task. You have access to 5 actions:
- get_today_date()
- fetch_top_products(start_date, end_date, num_products)
- fetch_product_info(product_name)
- generate_query(task_history, tool_output)
- generate_response(query_result)
The plan must be a sequence of valid actions.
✅ 예제 1: 특정 제품 정보 검색
사용자 입력:
"Fruity Fedora에 대해 알려줘."
생성된 계획(Plan):
[fetch_product_info, generate_query, generate_response]
✅ 예제 2: 지난주 베스트셀러 검색
사용자 입력:
"지난주 가장 많이 팔린 제품은?"
생성된 계획(Plan):
1. get_today_date()
2. fetch_top_products(start_date, end_date, num_products)
3. fetch_product_info(product_name)
4. generate_query()
5. generate_response()
📌 추가적인 고려 사항:
- 함수의 매개변수(Parameters)는 이전 단계의 결과를 참고하여 설정
- 예: get_today_date()가 "2030-09-13"을 반환하면, fetch_top_products()의 start_date는 "2030-09-07"로 자동 설정
3. AI의 계획 생성 과정에서 발생하는 문제점
📌 매개변수(Parameters) 설정의 어려움
- AI가 정확한 값을 예측하지 못하는 경우 발생
- 예제:
- "지난주 가장 많이 팔린 제품의 평균 가격은?"
- → "지난주"가 아니라 "지난 한 달"의 데이터를 참고할 수도 있음
- → AI는 정확한 기준을 알기 어려우므로, 추측할 수밖에 없음
📌 AI의 환각(Hallucination) 문제
- AI가 존재하지 않는 함수 호출 또는 잘못된 매개변수 전달 가능
- 예제:
- 존재하지 않는 API 호출 (fetch_most_popular_product_of_the_year())
- 잘못된 매개변수 입력 (fetch_top_products(start_date="wrong format"))
📌 결론:
- AI가 적절한 계획을 세우기 위해서는 잘못된 계획을 감지하고 수정하는 메커니즘(Reflection & Error Correction)이 필요
- 환각을 방지하기 위한 검증 시스템(예: 매개변수 유효성 검사)이 필수적
4. 결론: FM vs. RL 플래너 및 AI 계획 생성의 과제
✅ FM 플래너 → 즉시 사용 가능하지만, 최적화 부족
✅ RL 플래너 → 장기적으로 더 최적화되지만, 훈련이 필요
✅ AI의 계획 생성(Plan Generation)은 단순한 프롬프트로 가능하지만, 매개변수 설정이 중요한 문제
✅ 환각(Hallucination) 문제를 해결하려면, 검증 및 오류 수정 시스템이 필요
미래의 AI 플래너는 FM과 RL의 장점을 결합하여 더욱 강력한 시스템이 될 것이다!
'머신러닝 & 딥러닝 > 딥러닝' 카테고리의 다른 글
[LLM] 희소 검색(Sparse Retrieval) vs. 밀집 검색(Dense Retrieval) (0) | 2025.03.05 |
---|---|
Gradient Accumulation 문제 및 해결 방법과 Batch 비교 (2) | 2024.11.27 |
UNet과 Text Encoder의 학습 방법 (0) | 2024.11.25 |
Stable Diffusion 3.5 Large Fine-tuning Tutorial 정리 (1) | 2024.11.24 |
Stable Diffusion 3.5 Medium 모델 학습 최적화 가이드 (0) | 2024.11.23 |