입력 준비Latent : 이미지의 공간보다 낮은 공간을 차지하면서 계산 속도에 대해 영향을 끼침 + 시작하기 전에 랜덤 노이즈로 초기화 진행Text Prompt: 사용자가 입력한 텍스트, T5 Encoder와 CLIP으로 분리됨T5 Encoder는 언어의 문맥을 파악하는데 특화됨CLIP은 이미지-텍스트 쌍으로 학습이 진행되기 때문에 시각적 개념과 텍스트 상의 연관성을 잘 표현Scheduler → Timesteps: Diffusion Process stepsScheduler : Diffusion process에서 노이즈 제거 속도와 품질을 조절하는 파라미터 생성Timesteps : 각 Timestep은 노이즈 제거 과정의 특정 지점을 표Guidance: 생성 과정을 제어하는 파라미터Image Ids와 Te..