전체 글 107

[AI 기초 다지기] 스탠포드 대학 딥러닝 기초(3) - Neural Networks

뉴럴 네트워크의 기초: 완벽 가이드 1. 뉴럴 네트워크란?1.1 기본 개념뉴럴 네트워크를 이해하기 위해 먼저 선형 분류기를 살펴보겠습니다. 기존의 선형 분류에서는 다음과 같은 공식을 사용했습니다:s = Wx # 여기서 s는 점수, W는 가중치 행렬, x는 입력 벡터예를 들어 CIFAR-10 데이터셋의 경우:x: [3072x1] 크기의 이미지 픽셀 데이터 벡터W: [10x3072] 크기의 가중치 행렬s: 10개 클래스에 대한 점수 벡터1.2 뉴럴 네트워크의 기본 수식기본적인 뉴럴 네트워크는 다음과 같은 형태를 가집니다:s = W2 * max(0, W1x)여기서:W1: [100x3072] 크기의 첫 번째 가중치 행렬max(0,-): ReLU 활성화 함수W2: [10x100] 크기의 두 번째 가중치 행렬3층 ..

[AI 기초 다지기] 스탠포드 대학 딥러닝 기초(2) - Optimization: Stochastic Gradient Descent & Backpropagation, Intuitions

Optimization: Stochastic Gradient Descent 1. 개요머신러닝에서 최적화는 모델의 성능을 향상시키는 핵심 과정입니다. 이 글에서는 이미지 분류 문제를 예시로 들어 최적화 과정을 설명하겠습니다. 핵심 구성요소점수 함수(Score Function): 입력 이미지를 클래스 점수로 매핑 (예: 선형 함수)f(xi,W) = Wxi손실 함수(Loss Function): 예측값과 실제값의 차이를 측정L = (1/N) * ∑i∑j≠yi[max(0,f(xi;W)j−f(xi;W)yi+1)] + αR(W)최적화(Optimization): 손실 함수를 최소화하는 매개변수 W를 찾는 과정 2. 손실 함수 시각화고차원 공간에서 정의되는 손실 함수CIFAR-10의 경우: 가중치 행렬 W는 [10 x ..

[AI 기초 다지기] 스탠포드 대학 딥러닝 기초(1) - Image Classification & Linear classification

시작하기 전지금으로부터 4년전 OpenAI의 CEO 샘 알트먼이 둠 프로그래머로 유명한 존 카맥을 초대하여 openAI 사람들과 이야기하며 일리야 수츠키버가 자신이 정리한 30가지 항목을 주며 이를 다 이해하면 업계 내의 정보 90퍼센트를 따라왔다라고 이야기를 하였습니다. 물론 4년전 내용이라 과거의 내용일지 모르겠지만 기초를 다시 다지는데 이보다 더 좋은 코스는 없을 것 같아 조금씩 따라가 보도록 하겠습니다.https://tensorlabbet.com/2024/09/24/ai-reading-list/ 스탠포드 대학 딥러닝 기초 목차1. Image Classification: Data-driven Approach, k-Nearest Neighbor, train/val/test splits2. Linear..

[논문 리뷰] Improved Vector Quantized Diffusion Models 논문 리뷰

링크논문 링크 : https://arxiv.org/abs/2205.16007깃허브 링크 : https://github.com/microsoft/vq-diffusionAbstractVQ-Diffusion에서 때때로 낮은 품질의 샘플이나 약한 상관관계의 이미지를 생성했는데, 주요한 원인 샘플링 전략 때문임을 발견하였고 주 가지 중요한 기술을 제안합니다.이산 확산 모델에 대한 classifier-free guidence를 탐구하고 보다 일반적인 방법을 제안VQ-Diffusion의 joint distribution 문제를 완하하기 위한 푸론을 제안 IntroductionVQ-Diffusion의 주용 장점으로 각 이산 토큰에 대한 확률을 추정이 가능하여 상대적으로 적은 추론 단계로 고품질 이미지가 생성이 가능합니..

[논문 리뷰] Vector Quantized Diffusion Model for Text-to-Image Synthesis 논문 리뷰

Link깃허브 링크 : https://github.com/cientgu/VQ-Diffusion논문 링크 : https://arxiv.org/abs/2111.14822  AbstractDiffusion + VQ-VAE + MaskingDiffusion으로 벡터 양자화에 의한 오차의 누적을 피하고 이미지 해상도에 따라 선형적으로 비용이 증가하고 선형 회기 방법(AR)과 달리 엄청 빠른 속도가 나오면서 더 나은 품질을 보여 줍니다. IntroductionDALL-E와 같은 AR 방식의 단점1. 왼쪽 위에서 오른쪽 아래 텐서 순으로 예측이 되기 때문에 편향이 생길 수가 있습니다.2. 추론 단계가 이전에 샘플링된 토큰을 기반으로 실행되기 때문에 앞선 토큰의 오차가 계속해서 누적이 됩니다.따라서 Diffusion..

[논문 리뷰] DreamBooth : Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 논문 리뷰

Link 깃허브 링크 https://github.com/XavierXiao/Dreambooth-Stable-Diffusion 논문 링크 https://arxiv.org/abs/2208.12242v1 Abstract 이미지 몇 개만 입력하면 pretrained된 text-to-image 모델을 finetuning하여 고유 식별자를 해당 특정 대상에 바인딩하는 방법을 학습합니다. 고유 식별자를 사용하여 다른 장면에서 맥락화 된 대상의 완전히 새로운 사실적 이미지를 합성할 수 있습다. Introduction Text-to-image diffusion 모델의 “personalization” 를 위한 새로운 접근 방식을 제시합다. 본 논문의 목표는 대상의 이미지 몇 개(3~5)가 주어지면 고유 식별자로 합성될 수..

[논문 리뷰] Cold Diffusion : Inverting Arbitrary Image Transforms Without Noise 논문 리뷰

Link 논문 링크 https://arxiv.org/abs/2208.09392v1 깃허브 링크 https://github.com/arpitbansal297/cold-diffusion-models Abstract 연구진들은 Diffusion Model의 생성적 동작이 이미지 저하의 선택에 크게 의존하지 않는다는 것을 관찰했으며 완전히 결정적인 저하(blur, masking 등)를 사용하는 경우에도 규칙을 쉽게 일반화하여 생성 모델을 만들 수 있습니다. 이러한 완전 결정론적 모델의 성공은 gradient Langevin dynamics 또는 변분 추론의 노이즈에 의존하는 확산 모델에 대한 의문을 제기하고 일반화된 확산 모델의 길을 열어줍니다. Introduction 본 논문에서는 Diffusion Model..

[논문 리뷰] RePaint: Inpainting using Denoising Diffusion Probabilistic Models 논문 리뷰

Link 깃허브 링크 https://github.com/andreas128/RePaint 논문 링크 https://arxiv.org/pdf/2201.09865.pdf Abstract 극한의 마스크에도 적용할 수 있는 DDPM 기반 인페인팅 접근 방식인 RePaint를 제안합니다. pretrained unconditional DDPM을 기반으로 주어진 이미지 정보를 사용하여 마스크되지 않은 샘플링합니다. 원래 네트워크 자체를 수정하지 않고 모든 인페인팅 형식에 대해 고품질의 다양한 출력 이미지를 생성합니다. Preliminaries: Denoising Diffusion Probabilistic Models 순방향 과정 VLB VLB를 분해한 학습 목표식 역방향 과정에서 신경망으로 얻은 분포에 대한 샘플링을..

[논문 리뷰] Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (Imagen)

Link 프로젝트 링크 https://imagen.research.google/ Abstract 전례 없는 수준의 photorealism과 깊은 수준의 언어 이해를 갖춘 text-to-image 확산 모델인 Imagen을 제시합니다. Imagen은 대형 transformer 언어 모델의 힘을 기반으로 하며 사전 훈련된 일반 대형 언어 모델이 이미지 합성을 위한 텍스트 인코딩에 놀라울 정도로 효과적이라는 것을 발견했습니다. Text-to-image 모델을 더욱 깊이 있게 평가하기 위해 포괄적이고 도전적인 벤치마크인 DrawBench를 소개한다. Introduction Text-to-image 데이터에만 의존하는 이전 작업들과 달리 대형 LM(Transformer Language Models)의 텍스트 임베..

[논문 리뷰] An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion 논문 리뷰

Link 프로젝트 링크 https://textual-inversion.github.io/ Abstract 아직 Text-to-image 모델이 어떻게 이미지를 생성, 구성하는지 불분명합니다. 본 논문에서는 창조적 자유를 허용하는 간단한 접근 방식을 제시한다. 3~5개의 이미지만을 이용하여 임베딩 공간에서 새로운 "words"를 통해 표현하는 방법을 배웁니다. Introdution 새로운 개념을 대규모 모델에 도입하는 것은 어렵습니다. 재교육에는 비용이 많이 들고, fine tuning은 기존의 것을 망각할 위험이 있습니다. 사전 훈련된 text-to-image 모델의 텍스트 임베딩 공간에서 새로운 word를 찾아 이러한 문제를 극복할 것을 제안합니다. 새로운 pseudo-word를 S*로 표시하고 생성모..