목록2024/04 (17)
Haru's 개발 블로그
Link 깃허브 링크 https://github.com/XavierXiao/Dreambooth-Stable-Diffusion 논문 링크 https://arxiv.org/abs/2208.12242v1 Abstract 이미지 몇 개만 입력하면 pretrained된 text-to-image 모델을 finetuning하여 고유 식별자를 해당 특정 대상에 바인딩하는 방법을 학습합니다. 고유 식별자를 사용하여 다른 장면에서 맥락화 된 대상의 완전히 새로운 사실적 이미지를 합성할 수 있습다. Introduction Text-to-image diffusion 모델의 “personalization” 를 위한 새로운 접근 방식을 제시합다. 본 논문의 목표는 대상의 이미지 몇 개(3~5)가 주어지면 고유 식별자로 합성될 수..
Link 논문 링크 https://arxiv.org/abs/2208.09392v1 깃허브 링크 https://github.com/arpitbansal297/cold-diffusion-models Abstract 연구진들은 Diffusion Model의 생성적 동작이 이미지 저하의 선택에 크게 의존하지 않는다는 것을 관찰했으며 완전히 결정적인 저하(blur, masking 등)를 사용하는 경우에도 규칙을 쉽게 일반화하여 생성 모델을 만들 수 있습니다. 이러한 완전 결정론적 모델의 성공은 gradient Langevin dynamics 또는 변분 추론의 노이즈에 의존하는 확산 모델에 대한 의문을 제기하고 일반화된 확산 모델의 길을 열어줍니다. Introduction 본 논문에서는 Diffusion Model..
Link 깃허브 링크 https://github.com/andreas128/RePaint 논문 링크 https://arxiv.org/pdf/2201.09865.pdf Abstract 극한의 마스크에도 적용할 수 있는 DDPM 기반 인페인팅 접근 방식인 RePaint를 제안합니다. pretrained unconditional DDPM을 기반으로 주어진 이미지 정보를 사용하여 마스크되지 않은 샘플링합니다. 원래 네트워크 자체를 수정하지 않고 모든 인페인팅 형식에 대해 고품질의 다양한 출력 이미지를 생성합니다. Preliminaries: Denoising Diffusion Probabilistic Models 순방향 과정 VLB VLB를 분해한 학습 목표식 역방향 과정에서 신경망으로 얻은 분포에 대한 샘플링을..
Link 프로젝트 링크 https://imagen.research.google/ Abstract 전례 없는 수준의 photorealism과 깊은 수준의 언어 이해를 갖춘 text-to-image 확산 모델인 Imagen을 제시합니다. Imagen은 대형 transformer 언어 모델의 힘을 기반으로 하며 사전 훈련된 일반 대형 언어 모델이 이미지 합성을 위한 텍스트 인코딩에 놀라울 정도로 효과적이라는 것을 발견했습니다. Text-to-image 모델을 더욱 깊이 있게 평가하기 위해 포괄적이고 도전적인 벤치마크인 DrawBench를 소개한다. Introduction Text-to-image 데이터에만 의존하는 이전 작업들과 달리 대형 LM(Transformer Language Models)의 텍스트 임베..
Link 프로젝트 링크 https://textual-inversion.github.io/ Abstract 아직 Text-to-image 모델이 어떻게 이미지를 생성, 구성하는지 불분명합니다. 본 논문에서는 창조적 자유를 허용하는 간단한 접근 방식을 제시한다. 3~5개의 이미지만을 이용하여 임베딩 공간에서 새로운 "words"를 통해 표현하는 방법을 배웁니다. Introdution 새로운 개념을 대규모 모델에 도입하는 것은 어렵습니다. 재교육에는 비용이 많이 들고, fine tuning은 기존의 것을 망각할 위험이 있습니다. 사전 훈련된 text-to-image 모델의 텍스트 임베딩 공간에서 새로운 word를 찾아 이러한 문제를 극복할 것을 제안합니다. 새로운 pseudo-word를 S*로 표시하고 생성모..
Link 논문 링크 https://arxiv.org/abs/2207.13038v1 Abstrct Retrieval-Augmented Diffusion Models(RDM)의 추론 중에 검색 DB를 특정 비주얼 스타일의 이미지만 포함하는 보다 전문화된 DB로 교체합니다. 이것은 일반 훈련된 모델에 특정 시각적 스타일을 지정하는 새로운 방법을 제공합니다. Recap on Retrieval-Argmented Diffusion Models RDM의 목적 함수 Dtrain을 Dstyle로 교체합니다. Text-Guided Synthesis of Artistic Images with RDMs 하단 : ImageNet에서 훈련된 RDM 모델 상단 : DB를 ImageNet에서 WikiArt로 교체 Fine-Grain..
Link 깃허브 링크 https://github.com/CompVis/latent-diffusion 코드 리뷰 AutoEncoder.py AutoEncoder를 적대적 방식으로 훈련하여 패치 기반 판별기가 재구성 이미지 D(E(x))와 원본 이미지를 구별하도록 최적화를 진행합니다. Discriminator와 loss function의 구현은 contperceptual.py에서 볼 수 있습니다. 정규화 방식은 두 가지가 있는데 VQ 방식의 경우 양자화 과정에서 발생하는 loss를 줄여 정규화를 진행합니다. class VQModel(pl.LightningModule): def encode(self, x): h = self.encoder(x) h = self.quant_conv(h) quant, emb_los..
Link 논문 링크 https://arxiv.org/abs/2204.11824 깃허브 링크 https://github.com/lucidrains/retrieval-augmented-ddpm Abstract 자연어 처리에서 RAG에 영감을 받아서 검색 기반 접근 방식으로 Diffusion Model을 보안하고 외부 데이터베이스 형태의 명시적 메모리를 도입하는 것을 제안합니다. 본 논문의 확산 모델은 CLIP을 통해 각 훈련 인스턴스의 이웃에서 검색된 유사한 시각적 특징으로 훈련됩니다. 또한 적은 계산 및 메모리 오버헤드를 발생시키고 구현하기 쉽습니다. Introduction Diffusion model을 사용한 retrieval-augmented 생성 모델링을 위한 간단한 프레임워크를 제시합니다. CLIP..