Haru's 개발 블로그

[논문 리뷰] Cold Diffusion : Inverting Arbitrary Image Transforms Without Noise 논문 리뷰 본문

논문 리뷰/Diffusion

[논문 리뷰] Cold Diffusion : Inverting Arbitrary Image Transforms Without Noise 논문 리뷰

Haru_29 2024. 4. 22. 08:53

Link

Abstract

연구진들은 Diffusion Model의 생성적 동작이 이미지 저하의 선택에 크게 의존하지 않는다는 것을 관찰했으며 완전히 결정적인 저하(blur, masking 등)를 사용하는 경우에도 규칙을 쉽게 일반화하여 생성 모델을 만들 수 있습니다. 이러한 완전 결정론적 모델의 성공은 gradient Langevin dynamics 또는 변분 추론의 노이즈에 의존하는 확산 모델에 대한 의문을 제기하고 일반화된 확산 모델의 길을 열어줍니다.

 

Introduction

본 논문에서는 Diffusion Model이 실제로 작동하기 위해 가우스 잡음과 같은 랜덤성의 필요를 조사하고 Diffusion Model 이 생겨난 이론적 프레임워크의 범위 밖에 있는 일반화된 확산 모델을 고려합니다.

 

랜덤성이 필요하지 않은 cold-diffusion(낮은 랜덤성)의 존재는 확산 모델에 대한 이론적 이해의 한계에 대한 질문을 제기합니다.

 

Generalized Diffusion

model components and training

주어진 이미지 x0에 대해 t만큼 저하 작업 D를 적용한 것을 xt = D(x0, t)라고 하고 다음을 만족합니다.

또한 D의 반대 연산을 수행하는 R

확산 모델의 목적(이하 신경망 θ 생략)

 

Sampling from the model

작은 t의 경우 R을 한 번만 적용하여 한 번에 복원된 이미지를 얻을 수 있지만, R은 L1 손실로 훈련되기 때문에 큰 t에서 흐릿한 결과가 생성됩니다.

 

DDPM에서는 역연산 과정에서 노이즈를 반복적으로 다시 추가합니다.

알고리즘 1이 노이즈 기반 확산에서 잘 작동하지만 매끄럽고 미분 가능한 저하를 갖는 저온 확산의 경우에는 좋지 않다는 것을 발견했고 저온 확산을 위한 새로운 알고리즘을 제안합니다.

 

Properties of Algorithm2

Cold Diffusion에서 알고리즘 2는 완변하지 않는 복원 연산 R에 관대합니다. 이유를 알아보기 위해서 D(x, s) ≈ x + s · e 형식의 선형 저하 함수가 있는 모델 문제를 고려합니다.

 

 

귀납법을 통해 알고리즘 2가 R의 선택에 관계 없이 모든 s에 대해 xs = D(x0,s)를 생성한다는 것을 알수 있습니다. 즉, R이 어떤 선택을 하든지 간에 R이 F의 완벽한 반전일 때와 동일하게 작동이 됩니다.

 

반면에 알고리즘 1은 R이 완벽하지 않을 때 고정적인 x0을 생성 할 수가 없습니다.

 

따라서 알고리즘 1은 Cold diffusion에 대해 안정적으로 작동되지가 않습니다.

 

Generalized Diffusions with Various Transformations

서로 다른 저하에 대한 이미지 생성 수행

 

Deblurring

Gaussian blur 연산에 대한 Diffusion.

(Direct = R(D(x0,T)), Alg. = 알고리즘 2)

 

Inpainting

2D Gaussian curve 마스크를 이용해 픽셀들을 점진적으로 회색으로 만드는 저하됩니다.

 

Super-Resolution

 

Snowification

 

Cold Generation

Generation using deterministic noise degradation

고정된 노이즈로 "결정적" 샘플링을 하는 두 가지 방법 연구를 진행하였습니다.

우선 고정된 노이즈 z와 데이터 포인트 x 사이의 결정론적 보간을 사용할 수 있습니다.

 

또는 다음 공식을 통해 t 단계에서 사용할 노이즈 z를 결정론적으로 계산할 수 있다. 이 방법은 DDIM과 유사합니다.

 

두 방법 비교

 

Image generation using blur

Blur로 완전한 저하된 이미지  xT는 단일 색상으로, 샘플링하기 좋은 폐쇄형 분포를 가지고 있지 않다. 대신데 RGB 패널 평균으로 3-vector를 얻고 이에 대한 분포는 가우시안 혼합 모델로 표현이 가능하다.

 

샘플링된 이미지는 낮은 주파수를 가지는데 픽셀 간의 대칭을 깨기 위해  xT에 소량의 가우스 노이즈를 추가하면서 생성 품질을 크게 향상 시켰습니다.

 

Generation using other transformations

이 섹션에서는 blur에서의 생성을 다른 변환에까지 확장합니다.

가우스 마스크 변환(위 섹션의 inpainting)의 완전한 저하는 모든 픽셀을 검게 하는 것이지만 생성 다양성을 위해 마스킹된 부분은 단일 색상으로 대체합니다.

 

초해상도의 경우 최종 저하는 2x2의 1차원 벡터이며 이 분포에서 모델링됩니다.

거의 모든 변환을 역전시킬 수 있습니다.

Comments