머신러닝 & 딥러닝/딥러닝

[LLM] 기반 모델(FM) vs. 강화 학습(RL) 플래너 및 계획 생성(Plan Generation)

Haru_29 2025. 3. 6. 01:37

1. 기반 모델(FM) vs. 강화 학습(RL) 플래너

📌 FM(Foundation Model)과 RL(Reinforcement Learning) 에이전트의 차이점

기반 모델(FM) 플래너:

  • 대형 언어 모델(LLM) 기반
  • 프롬프트 엔지니어링을 통해 계획을 생성
  • 일반적으로 사전 학습된 모델을 활용
  • 즉시 활용 가능하지만, 계획 성능이 최적화되지 않을 수 있음

강화 학습(RL) 플래너:

  • 강화 학습을 통해 지속적으로 성능이 개선됨
  • 환경과 상호작용하며 최적의 계획을 학습
  • 훈련에 많은 데이터와 시간이 필요
  • 특정 작업에 맞춘 최적화가 가능

💡 결론:

  • FM 플래너는 즉시 사용 가능하지만, RL 플래너는 장기적으로 더 최적화된 결과를 제공
  • 미래에는 FM과 RL 플래너가 결합하여 더욱 강력한 AI 시스템이 탄생할 가능성이 높음

2. 계획 생성(Plan Generation)과 실행 방식

📌 AI가 계획을 세우는 가장 쉬운 방법: 프롬프트 엔지니어링 활용

🔹 예제: 제품 검색 에이전트 (Kitty Vogue)

💡 목표:

  • 고객이 특정 제품 정보를 검색할 수 있도록 AI 에이전트를 설정

💡 AI가 사용할 수 있는 기능(External Tools):

1️⃣ get_today_date() → 현재 날짜 가져오기

2️⃣ fetch_top_products(start_date, end_date, num_products) → 특정 기간 동안 인기 제품 검색

3️⃣ fetch_product_info(product_name) → 특정 제품 정보 검색

4️⃣ generate_query(task_history, tool_output) → 쿼리를 생성하여 응답

5️⃣ generate_response(query_result) → 최종 사용자 응답 생성

📌 예제 프롬프트 (SYSTEM PROMPT)

Propose a plan to solve the task. You have access to 5 actions:

- get_today_date()
- fetch_top_products(start_date, end_date, num_products)
- fetch_product_info(product_name)
- generate_query(task_history, tool_output)
- generate_response(query_result)

The plan must be a sequence of valid actions.

예제 1: 특정 제품 정보 검색

사용자 입력:

"Fruity Fedora에 대해 알려줘."

생성된 계획(Plan):

[fetch_product_info, generate_query, generate_response]

예제 2: 지난주 베스트셀러 검색

사용자 입력:

"지난주 가장 많이 팔린 제품은?"

생성된 계획(Plan):

1. get_today_date()
2. fetch_top_products(start_date, end_date, num_products)
3. fetch_product_info(product_name)
4. generate_query()
5. generate_response()

📌 추가적인 고려 사항:

  • 함수의 매개변수(Parameters)는 이전 단계의 결과를 참고하여 설정
  • 예: get_today_date()가 "2030-09-13"을 반환하면, fetch_top_products()의 start_date는 "2030-09-07"로 자동 설정

3. AI의 계획 생성 과정에서 발생하는 문제점

📌 매개변수(Parameters) 설정의 어려움

  • AI가 정확한 값을 예측하지 못하는 경우 발생
  • 예제:
    • "지난주 가장 많이 팔린 제품의 평균 가격은?"
    • → "지난주"가 아니라 "지난 한 달"의 데이터를 참고할 수도 있음
    • → AI는 정확한 기준을 알기 어려우므로, 추측할 수밖에 없음

📌 AI의 환각(Hallucination) 문제

  • AI가 존재하지 않는 함수 호출 또는 잘못된 매개변수 전달 가능
  • 예제:
    • 존재하지 않는 API 호출 (fetch_most_popular_product_of_the_year())
    • 잘못된 매개변수 입력 (fetch_top_products(start_date="wrong format"))

📌 결론:

  • AI가 적절한 계획을 세우기 위해서는 잘못된 계획을 감지하고 수정하는 메커니즘(Reflection & Error Correction)이 필요
  • 환각을 방지하기 위한 검증 시스템(예: 매개변수 유효성 검사)이 필수적

4. 결론: FM vs. RL 플래너 및 AI 계획 생성의 과제

FM 플래너 → 즉시 사용 가능하지만, 최적화 부족

RL 플래너 → 장기적으로 더 최적화되지만, 훈련이 필요

AI의 계획 생성(Plan Generation)은 단순한 프롬프트로 가능하지만, 매개변수 설정이 중요한 문제

환각(Hallucination) 문제를 해결하려면, 검증 및 오류 수정 시스템이 필요

미래의 AI 플래너는 FM과 RL의 장점을 결합하여 더욱 강력한 시스템이 될 것이다!