Diffusion 11

[논문 리뷰] Cold Diffusion : Inverting Arbitrary Image Transforms Without Noise 논문 리뷰

Link 논문 링크 https://arxiv.org/abs/2208.09392v1 깃허브 링크 https://github.com/arpitbansal297/cold-diffusion-models Abstract 연구진들은 Diffusion Model의 생성적 동작이 이미지 저하의 선택에 크게 의존하지 않는다는 것을 관찰했으며 완전히 결정적인 저하(blur, masking 등)를 사용하는 경우에도 규칙을 쉽게 일반화하여 생성 모델을 만들 수 있습니다. 이러한 완전 결정론적 모델의 성공은 gradient Langevin dynamics 또는 변분 추론의 노이즈에 의존하는 확산 모델에 대한 의문을 제기하고 일반화된 확산 모델의 길을 열어줍니다. Introduction 본 논문에서는 Diffusion Model..

[논문 리뷰] RePaint: Inpainting using Denoising Diffusion Probabilistic Models 논문 리뷰

Link 깃허브 링크 https://github.com/andreas128/RePaint 논문 링크 https://arxiv.org/pdf/2201.09865.pdf Abstract 극한의 마스크에도 적용할 수 있는 DDPM 기반 인페인팅 접근 방식인 RePaint를 제안합니다. pretrained unconditional DDPM을 기반으로 주어진 이미지 정보를 사용하여 마스크되지 않은 샘플링합니다. 원래 네트워크 자체를 수정하지 않고 모든 인페인팅 형식에 대해 고품질의 다양한 출력 이미지를 생성합니다. Preliminaries: Denoising Diffusion Probabilistic Models 순방향 과정 VLB VLB를 분해한 학습 목표식 역방향 과정에서 신경망으로 얻은 분포에 대한 샘플링을..

[논문 리뷰] Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (Imagen)

Link 프로젝트 링크 https://imagen.research.google/ Abstract 전례 없는 수준의 photorealism과 깊은 수준의 언어 이해를 갖춘 text-to-image 확산 모델인 Imagen을 제시합니다. Imagen은 대형 transformer 언어 모델의 힘을 기반으로 하며 사전 훈련된 일반 대형 언어 모델이 이미지 합성을 위한 텍스트 인코딩에 놀라울 정도로 효과적이라는 것을 발견했습니다. Text-to-image 모델을 더욱 깊이 있게 평가하기 위해 포괄적이고 도전적인 벤치마크인 DrawBench를 소개한다. Introduction Text-to-image 데이터에만 의존하는 이전 작업들과 달리 대형 LM(Transformer Language Models)의 텍스트 임베..

[논문 리뷰] An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion 논문 리뷰

Link 프로젝트 링크 https://textual-inversion.github.io/ Abstract 아직 Text-to-image 모델이 어떻게 이미지를 생성, 구성하는지 불분명합니다. 본 논문에서는 창조적 자유를 허용하는 간단한 접근 방식을 제시한다. 3~5개의 이미지만을 이용하여 임베딩 공간에서 새로운 "words"를 통해 표현하는 방법을 배웁니다. Introdution 새로운 개념을 대규모 모델에 도입하는 것은 어렵습니다. 재교육에는 비용이 많이 들고, fine tuning은 기존의 것을 망각할 위험이 있습니다. 사전 훈련된 text-to-image 모델의 텍스트 임베딩 공간에서 새로운 word를 찾아 이러한 문제를 극복할 것을 제안합니다. 새로운 pseudo-word를 S*로 표시하고 생성모..

[논문 리뷰] Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models 논문 리뷰

Link 논문 링크 https://arxiv.org/abs/2207.13038v1 Abstrct Retrieval-Augmented Diffusion Models(RDM)의 추론 중에 검색 DB를 특정 비주얼 스타일의 이미지만 포함하는 보다 전문화된 DB로 교체합니다. 이것은 일반 훈련된 모델에 특정 시각적 스타일을 지정하는 새로운 방법을 제공합니다. Recap on Retrieval-Argmented Diffusion Models RDM의 목적 함수 Dtrain을 Dstyle로 교체합니다. Text-Guided Synthesis of Artistic Images with RDMs 하단 : ImageNet에서 훈련된 RDM 모델 상단 : DB를 ImageNet에서 WikiArt로 교체 Fine-Grain..

[논문 리뷰] High-Resolution Image Synthesis with Latent Diffusion Models (LDM) 논문 리뷰

Link 깃허브 링크 https://github.com/CompVis/latent-diffusion 코드 리뷰 AutoEncoder.py AutoEncoder를 적대적 방식으로 훈련하여 패치 기반 판별기가 재구성 이미지 D(E(x))와 원본 이미지를 구별하도록 최적화를 진행합니다. Discriminator와 loss function의 구현은 contperceptual.py에서 볼 수 있습니다. 정규화 방식은 두 가지가 있는데 VQ 방식의 경우 양자화 과정에서 발생하는 loss를 줄여 정규화를 진행합니다. class VQModel(pl.LightningModule): def encode(self, x): h = self.encoder(x) h = self.quant_conv(h) quant, emb_los..

[논문 리뷰] Retrieval-Augmented Diffusion Models 논문 리뷰

Link 논문 링크 https://arxiv.org/abs/2204.11824 깃허브 링크 https://github.com/lucidrains/retrieval-augmented-ddpm Abstract 자연어 처리에서 RAG에 영감을 받아서 검색 기반 접근 방식으로 Diffusion Model을 보안하고 외부 데이터베이스 형태의 명시적 메모리를 도입하는 것을 제안합니다. 본 논문의 확산 모델은 CLIP을 통해 각 훈련 인스턴스의 이웃에서 검색된 유사한 시각적 특징으로 훈련됩니다. 또한 적은 계산 및 메모리 오버헤드를 발생시키고 구현하기 쉽습니다. Introduction Diffusion model을 사용한 retrieval-augmented 생성 모델링을 위한 간단한 프레임워크를 제시합니다. CLIP..

[논문 리뷰] Cascaded Diffusion Models for High Fidelity Image Generation 논문 리뷰

Link 논문 링크 https://arxiv.org/abs/2106.15282 Abstract Cascade 확산 모델이 샘플 품질을 높이기 위한 보조 이미지 분류기의 도움 없이 충실도가 높은 이미지를 생성할 수 있음을 보여줍니다. Cascade 확산 모델은 가장 낮은 해상도에서 표준 확산 모델로 시작하여 이미지를 연속적으로 업샘플링하고 더 높은 해상도 세부 사항을 추가하는 하나 이상의 초해상도 확산 모델이 뒤따르는 형태로 다중 확산 모델 파이프라인으로 구성됩니다. 또한 연구진은 conditioning augmentation이 cascade 모델에서 샘플링하는 동안 복합 오류를 방지하여 cascading pipeline을 훈련하는 데 도움이 된다는 것을 발견했습니다. Introduction Cascadi..

[논문 리뷰] Pretraining is All You Need for Image-to-Image Translation (PITI) 논문 리뷰

링크 기술 문서 https://tengfei-wang.github.io/PITI/index.html Abstract 이전의 image-to-image 변환 방법은 전용 아키텍처 설계가 필요하고 처음부터 훈련하며 대규모의 쌍을 이루는 데이터셋이 필요했습니다. 본 논문에서는 image-to-image 변환을 다운스트림 작업으로 간주하고 다양한 종류의 변환을 수용하기 위해 사전 훈련된 확산 모델을 적용하는 간단하고 일반적인 프레임워크를 소개합니다. 또한 생성 품질을 개선하기 위한 정규화된 가이드 샘플링과 함께 확산 모델 훈련에서 텍스처 합성을 향상하기 위한 적대적 훈련을 제안합니다. Introduction 이미지 변환은 사전 훈련된 신경망을 사용하여 자연스러운 이미지 매니폴드를 탐색하고 입력 의미와 관련된 실..

[논문 리뷰] Classifier-Free Diffusion Guidance 논문 리뷰

Link 논문 링크 https://arxiv.org/abs/2207.12598 Abstract Classifier 없이 순수한 생성 모델에 의해 가이드가 실제로 수행될 수 있음을 보여준다. Classifier-free guidance로 조건부 및 무조건 모델을 공동으로 훈련하고 결과 점수 추정치를 결합하여 샘플 품질과 다양성 간의 균형을 달성한다. Introduction Classifier이전의 연구는 diffusion models의 점수 추정치를 분류기의 gradient와 혼합하였습니다. Gradient의 강도를 변경하여 Inception score와 FID 점수를 절충할 수 있습니다. 또한 Classifier 지침은 모델 파이프라인을 복잡하게 만들고 노이즈가 있는 데이터에 대해 훈련해야 하므로 사전 ..