[LLM] 기반 모델(FM) vs. 강화 학습(RL) 플래너 및 계획 생성(Plan Generation)

머신러닝 & 딥러닝/딥러닝

[LLM] 기반 모델(FM) vs. 강화 학습(RL) 플래너 및 계획 생성(Plan Generation)

Haru_29 2025. 3. 6. 01:37

1. 기반 모델(FM) vs. 강화 학습(RL) 플래너

📌 FM(Foundation Model)과 RL(Reinforcement Learning) 에이전트의 차이점

✅ 기반 모델(FM) 플래너:

대형 언어 모델(LLM) 기반
프롬프트 엔지니어링을 통해 계획을 생성
일반적으로 사전 학습된 모델을 활용
즉시 활용 가능하지만, 계획 성능이 최적화되지 않을 수 있음

✅ 강화 학습(RL) 플래너:

강화 학습을 통해 지속적으로 성능이 개선됨
환경과 상호작용하며 최적의 계획을 학습
훈련에 많은 데이터와 시간이 필요
특정 작업에 맞춘 최적화가 가능

💡 결론:

FM 플래너는 즉시 사용 가능하지만, RL 플래너는 장기적으로 더 최적화된 결과를 제공
미래에는 FM과 RL 플래너가 결합하여 더욱 강력한 AI 시스템이 탄생할 가능성이 높음

2. 계획 생성(Plan Generation)과 실행 방식

📌 AI가 계획을 세우는 가장 쉬운 방법: 프롬프트 엔지니어링 활용

🔹 예제: 제품 검색 에이전트 (Kitty Vogue)

💡 목표:

고객이 특정 제품 정보를 검색할 수 있도록 AI 에이전트를 설정

💡 AI가 사용할 수 있는 기능(External Tools):

1️⃣ get_today_date() → 현재 날짜 가져오기

2️⃣ fetch_top_products(start_date, end_date, num_products) → 특정 기간 동안 인기 제품 검색

3️⃣ fetch_product_info(product_name) → 특정 제품 정보 검색

4️⃣ generate_query(task_history, tool_output) → 쿼리를 생성하여 응답

5️⃣ generate_response(query_result) → 최종 사용자 응답 생성

📌 예제 프롬프트 (SYSTEM PROMPT)

Propose a plan to solve the task. You have access to 5 actions:

- get_today_date()
- fetch_top_products(start_date, end_date, num_products)
- fetch_product_info(product_name)
- generate_query(task_history, tool_output)
- generate_response(query_result)

The plan must be a sequence of valid actions.

✅ 예제 1: 특정 제품 정보 검색

사용자 입력:

"Fruity Fedora에 대해 알려줘."

생성된 계획(Plan):

[fetch_product_info, generate_query, generate_response]

✅ 예제 2: 지난주 베스트셀러 검색

사용자 입력:

"지난주 가장 많이 팔린 제품은?"

생성된 계획(Plan):

1. get_today_date()
2. fetch_top_products(start_date, end_date, num_products)
3. fetch_product_info(product_name)
4. generate_query()
5. generate_response()

📌 추가적인 고려 사항:

함수의 매개변수(Parameters)는 이전 단계의 결과를 참고하여 설정
예: get_today_date()가 "2030-09-13"을 반환하면, fetch_top_products()의 start_date는 "2030-09-07"로 자동 설정

3. AI의 계획 생성 과정에서 발생하는 문제점

📌 매개변수(Parameters) 설정의 어려움

AI가 정확한 값을 예측하지 못하는 경우 발생
예제:
- "지난주 가장 많이 팔린 제품의 평균 가격은?"
- → "지난주"가 아니라 "지난 한 달"의 데이터를 참고할 수도 있음
- → AI는 정확한 기준을 알기 어려우므로, 추측할 수밖에 없음

📌 AI의 환각(Hallucination) 문제

AI가 존재하지 않는 함수 호출 또는 잘못된 매개변수 전달 가능
예제:
- 존재하지 않는 API 호출 (fetch_most_popular_product_of_the_year())
- 잘못된 매개변수 입력 (fetch_top_products(start_date="wrong format"))

📌 결론:

AI가 적절한 계획을 세우기 위해서는 잘못된 계획을 감지하고 수정하는 메커니즘(Reflection & Error Correction)이 필요
환각을 방지하기 위한 검증 시스템(예: 매개변수 유효성 검사)이 필수적

4. 결론: FM vs. RL 플래너 및 AI 계획 생성의 과제

✅ FM 플래너 → 즉시 사용 가능하지만, 최적화 부족

✅ RL 플래너 → 장기적으로 더 최적화되지만, 훈련이 필요

✅ AI의 계획 생성(Plan Generation)은 단순한 프롬프트로 가능하지만, 매개변수 설정이 중요한 문제

✅ 환각(Hallucination) 문제를 해결하려면, 검증 및 오류 수정 시스템이 필요

미래의 AI 플래너는 FM과 RL의 장점을 결합하여 더욱 강력한 시스템이 될 것이다!

저작자표시

'머신러닝 & 딥러닝 > 딥러닝' 카테고리의 다른 글

[딥러닝] Flux.1 파인튜닝 모델 Chroma의 특징 및 아키텍쳐 설명 가이드 (0)	2025.03.20
[LLM] 희소 검색(Sparse Retrieval) vs. 밀집 검색(Dense Retrieval) (0)	2025.03.05
Gradient Accumulation 문제 및 해결 방법과 Batch 비교 (2)	2024.11.27
UNet과 Text Encoder의 학습 방법 (0)	2024.11.25
Stable Diffusion 3.5 Large Fine-tuning Tutorial 정리 (1)	2024.11.24

현재글[LLM] 기반 모델(FM) vs. 강화 학습(RL) 플래너 및 계획 생성(Plan Generation)

Haru's 개발 블로그

샘 올트먼, Objective-C, 오블완, 프롬프트 엔지니어, 챗봇, OpenAI, Neural Networks, TCA, Image Classification, 딥러닝, linear classification, flux 모델 최적화, Diffusion, torchao, SwiftUI, 경사 하강법, 스탠포드, torch.compile(), 티스토리챌린지, flux.1-dev,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Haru's 개발 블로그