'논문 리뷰/Diffusion' 카테고리의 글 목록

FLUX.1 Kontext Architecture 및 기술적 특징 정리

개요 Black Forest Labs의 FLUX.1 Kontext는 생성형 flow matching 모델로서 단일 아키텍처 내에서 이미지 생성과 편집을 통합한 획기적인 모델입니다. 12B 파라미터를 가진 텍스트와 이미지 입력으로부터 의미적 컨텍스트를 통합하여 새로운 출력 뷰를 생성하며, 기존 최첨단 시스템 대비 8배 빠른 생성 속도와 뛰어난 캐릭터 일관성을 달성했습니다.특히 간단한 시퀀스 연결 접근법을 통해 로컬 편집과 생성형 in-context 작업을 모두 처리할 수 있으며, 이는 다중 턴 편집에서 캐릭터와 객체의 일관성을 크게 개선하였습니다. 링크논문 링크 : https://arxiv.org/html/2506.15742v2huggingface 링크 : https://huggingface.co/blac..

논문 리뷰/Diffusion 2025.07.02

[논문 리뷰] Improved Vector Quantized Diffusion Models 논문 리뷰

링크논문 링크 : https://arxiv.org/abs/2205.16007깃허브 링크 : https://github.com/microsoft/vq-diffusionAbstractVQ-Diffusion에서 때때로 낮은 품질의 샘플이나 약한 상관관계의 이미지를 생성했는데, 주요한 원인 샘플링 전략 때문임을 발견하였고 주 가지 중요한 기술을 제안합니다.이산 확산 모델에 대한 classifier-free guidence를 탐구하고 보다 일반적인 방법을 제안VQ-Diffusion의 joint distribution 문제를 완하하기 위한 푸론을 제안 IntroductionVQ-Diffusion의 주용 장점으로 각 이산 토큰에 대한 확률을 추정이 가능하여 상대적으로 적은 추론 단계로 고품질 이미지가 생성이 가능합니..

논문 리뷰/Diffusion 2024.05.11

[논문 리뷰] Vector Quantized Diffusion Model for Text-to-Image Synthesis 논문 리뷰

Link깃허브 링크 : https://github.com/cientgu/VQ-Diffusion논문 링크 : https://arxiv.org/abs/2111.14822 AbstractDiffusion + VQ-VAE + MaskingDiffusion으로 벡터 양자화에 의한 오차의 누적을 피하고 이미지 해상도에 따라 선형적으로 비용이 증가하고 선형 회기 방법(AR)과 달리 엄청 빠른 속도가 나오면서 더 나은 품질을 보여 줍니다. IntroductionDALL-E와 같은 AR 방식의 단점1. 왼쪽 위에서 오른쪽 아래 텐서 순으로 예측이 되기 때문에 편향이 생길 수가 있습니다.2. 추론 단계가 이전에 샘플링된 토큰을 기반으로 실행되기 때문에 앞선 토큰의 오차가 계속해서 누적이 됩니다.따라서 Diffusion..

논문 리뷰/Diffusion 2024.05.11

[논문 리뷰] DreamBooth : Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 논문 리뷰

Link 깃허브 링크 https://github.com/XavierXiao/Dreambooth-Stable-Diffusion 논문 링크 https://arxiv.org/abs/2208.12242v1 Abstract 이미지 몇 개만 입력하면 pretrained된 text-to-image 모델을 finetuning하여 고유 식별자를 해당 특정 대상에 바인딩하는 방법을 학습합니다. 고유 식별자를 사용하여 다른 장면에서 맥락화 된 대상의 완전히 새로운 사실적 이미지를 합성할 수 있습다. Introduction Text-to-image diffusion 모델의 “personalization” 를 위한 새로운 접근 방식을 제시합다. 본 논문의 목표는 대상의 이미지 몇 개(3~5)가 주어지면 고유 식별자로 합성될 수..

논문 리뷰/Diffusion 2024.04.24

[논문 리뷰] Cold Diffusion : Inverting Arbitrary Image Transforms Without Noise 논문 리뷰

Link 논문 링크 https://arxiv.org/abs/2208.09392v1 깃허브 링크 https://github.com/arpitbansal297/cold-diffusion-models Abstract 연구진들은 Diffusion Model의 생성적 동작이 이미지 저하의 선택에 크게 의존하지 않는다는 것을 관찰했으며 완전히 결정적인 저하(blur, masking 등)를 사용하는 경우에도 규칙을 쉽게 일반화하여 생성 모델을 만들 수 있습니다. 이러한 완전 결정론적 모델의 성공은 gradient Langevin dynamics 또는 변분 추론의 노이즈에 의존하는 확산 모델에 대한 의문을 제기하고 일반화된 확산 모델의 길을 열어줍니다. Introduction 본 논문에서는 Diffusion Model..

논문 리뷰/Diffusion 2024.04.22

[논문 리뷰] RePaint: Inpainting using Denoising Diffusion Probabilistic Models 논문 리뷰

Link 깃허브 링크 https://github.com/andreas128/RePaint 논문 링크 https://arxiv.org/pdf/2201.09865.pdf Abstract 극한의 마스크에도 적용할 수 있는 DDPM 기반 인페인팅 접근 방식인 RePaint를 제안합니다. pretrained unconditional DDPM을 기반으로 주어진 이미지 정보를 사용하여 마스크되지 않은 샘플링합니다. 원래 네트워크 자체를 수정하지 않고 모든 인페인팅 형식에 대해 고품질의 다양한 출력 이미지를 생성합니다. Preliminaries: Denoising Diffusion Probabilistic Models 순방향 과정 VLB VLB를 분해한 학습 목표식 역방향 과정에서 신경망으로 얻은 분포에 대한 샘플링을..

논문 리뷰/Diffusion 2024.04.20

[논문 리뷰] Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (Imagen)

Link 프로젝트 링크 https://imagen.research.google/ Abstract 전례 없는 수준의 photorealism과 깊은 수준의 언어 이해를 갖춘 text-to-image 확산 모델인 Imagen을 제시합니다. Imagen은 대형 transformer 언어 모델의 힘을 기반으로 하며 사전 훈련된 일반 대형 언어 모델이 이미지 합성을 위한 텍스트 인코딩에 놀라울 정도로 효과적이라는 것을 발견했습니다. Text-to-image 모델을 더욱 깊이 있게 평가하기 위해 포괄적이고 도전적인 벤치마크인 DrawBench를 소개한다. Introduction Text-to-image 데이터에만 의존하는 이전 작업들과 달리 대형 LM(Transformer Language Models)의 텍스트 임베..

논문 리뷰/Diffusion 2024.04.20

[논문 리뷰] An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion 논문 리뷰

Link 프로젝트 링크 https://textual-inversion.github.io/ Abstract 아직 Text-to-image 모델이 어떻게 이미지를 생성, 구성하는지 불분명합니다. 본 논문에서는 창조적 자유를 허용하는 간단한 접근 방식을 제시한다. 3~5개의 이미지만을 이용하여 임베딩 공간에서 새로운 "words"를 통해 표현하는 방법을 배웁니다. Introdution 새로운 개념을 대규모 모델에 도입하는 것은 어렵습니다. 재교육에는 비용이 많이 들고, fine tuning은 기존의 것을 망각할 위험이 있습니다. 사전 훈련된 text-to-image 모델의 텍스트 임베딩 공간에서 새로운 word를 찾아 이러한 문제를 극복할 것을 제안합니다. 새로운 pseudo-word를 S*로 표시하고 생성모..

논문 리뷰/Diffusion 2024.04.20

[논문 리뷰] Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models 논문 리뷰

Link 논문 링크 https://arxiv.org/abs/2207.13038v1 Abstrct Retrieval-Augmented Diffusion Models(RDM)의 추론 중에 검색 DB를 특정 비주얼 스타일의 이미지만 포함하는 보다 전문화된 DB로 교체합니다. 이것은 일반 훈련된 모델에 특정 시각적 스타일을 지정하는 새로운 방법을 제공합니다. Recap on Retrieval-Argmented Diffusion Models RDM의 목적 함수 Dtrain을 Dstyle로 교체합니다. Text-Guided Synthesis of Artistic Images with RDMs 하단 : ImageNet에서 훈련된 RDM 모델 상단 : DB를 ImageNet에서 WikiArt로 교체 Fine-Grain..

논문 리뷰/Diffusion 2024.04.20

[논문 리뷰] High-Resolution Image Synthesis with Latent Diffusion Models (LDM) 논문 리뷰

Link 깃허브 링크 https://github.com/CompVis/latent-diffusion 코드 리뷰 AutoEncoder.py AutoEncoder를 적대적 방식으로 훈련하여 패치 기반 판별기가 재구성 이미지 D(E(x))와 원본 이미지를 구별하도록 최적화를 진행합니다. Discriminator와 loss function의 구현은 contperceptual.py에서 볼 수 있습니다. 정규화 방식은 두 가지가 있는데 VQ 방식의 경우 양자화 과정에서 발생하는 loss를 줄여 정규화를 진행합니다. class VQModel(pl.LightningModule): def encode(self, x): h = self.encoder(x) h = self.quant_conv(h) quant, emb_los..

논문 리뷰/Diffusion 2024.04.20

Haru's 개발 블로그

논문 리뷰/Diffusion 15

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31