본문 바로가기

머신러닝 & 딥러닝/딥러닝

Z-Image: 6B 파라미터로 구현한 효율적인 단일 스트림 이미지 생성 모델

대부분의 최신 이미지 생성 모델은 수십억 개의 파라미터를 사용합니다. 모델 크기가 커질수록 성능은 좋아지지만, 그만큼 학습 비용과 시간도 따라 증가합니다. 그래서 많은 연구자들이 좋은 모델을 만들려면 무조건 크고 비싸야 한다는 생각을 갖곤 합니다.

하지만 산업 현장은 조금 다릅니다. 기업은 예산과 시간이 제한돼 있고, 개인이나 소규모 연구팀은 더욱 그렇습니다. 그래서 적은 비용으로도 뛰어난 이미지 생성 모델을 만들 수 없을까라는 질문이 나오기 시작했습니다.

이런 와중에 알리바바 Z-Image 팀에서 Z-Image라는 6B(60억) 파라미터 규모의 생성 모델을 공개했습니다. 최신 Flux 모델과 동등한 수준의 이미지를 만들어내면서도 속도는 엄청 빠르다고 알려져 있죠. 실제로 다른 최신 모델들이 20B~80B 사이에서 경쟁하는 것과 비교하면 작은 편이긴 합니다. 그럼에도 불구하고 논문에서는 **'데이터 인프라→모델 구조→학습 전략→추론 가속화'**를 전 과정에서 철저하게 재설계해서 실제 사용 가능한 고품질 모델을 저비용으로 만드는 방법을 보여 줍니다.


Z-Image

1) 기존 방식의 문제점

대부분의 최신 이미지 생성 모델은 매우 큰 규모를 가집니다. 예를 들어 FLUX.2는 32B, Hunyuan-Image-3.0은 80B, Qwen-Image는 20B 파라미터입니다. 규모가 커질수록 성능은 좋아지지만, 그만큼 학습 비용이 크게 올라갑니다. 즉, 다음과 같은 문제점들이 있습니다.

  • 과도한 계산 비용: 모델이 너무 크면 GPU 비용이 커지고, 소비자용 하드웨어에서는 파인튜닝조차 어렵습니다.
  • 합성 데이터 의존 문제: 기존 연구들은 성능 향상을 위해 다른 모델이 만든 데이터를 재사용(Distillation)했습니다. 하지만 이렇게 되면 원래 모델의 한계가 그대로 적용되고, 새로운 시각적 능력이 생기기 어렵습니다.
  • 텍스트·이미지 처리가 분리된 구조의 비효율성: 기존 듀얼-스트림 모델은 텍스트와 이미지를 별개의 모듈로 처리해 계산량이 더 많아졌습니다.

2) 접근 방식: Z-Image가 선택한 전략 개요

Z-Image는 "scale-at-all-costs" 패러다임에 도전하며, 네 가지 핵심 전략을 통해 효율성을 극대화했습니다.

효율적인 데이터 인프라: 논문은 '많은 데이터'보다 **'좋은 데이터'**가 중요하다고 말합니다. 이를 위해 4개의 데이터 엔진을 구축했습니다.

  • Data Profiling Engine: 데이터의 품질과 의미를 자동으로 분석
  • Cross-modal Vector Engine: 중복되거나 가치가 적은 데이터를 제거하고 실패 사례 진단
  • World Knowledge Topological Graph: 개념 지도를 만들어 부족한 영역을 채움
  • Active Curation Engine: 데이터 오류를 AI·사람이 함께 고치는 폐쇄 루프 구조

효율적인 모델 아키텍처 설계: Z-Image는 S3-DiT(Scalable Single-Stream Diffusion Transformer) 구조를 사용합니다. 텍스트·이미지 토큰을 따로 처리하지 않고 하나의 시퀀스로 합쳐 처리합니다. 계산 낭비를 줄이고 두 모달리티의 상호작용을 극대화하며 파라미터 수를 더 적게 유지할 수 있게 합니다.

효율적인 학습 전략: 3단계 점진적 학습 커리큘럼을 설계했습니다.

  1. Low-resolution Pre-training: 256² 해상도에서 기초 시각-의미 정렬 학습
  2. Omni-pre-training: 임의 해상도, T2I, I2I를 통합한 멀티태스크 학습
  3. PE-aware SFT: Prompt Enhancer와 함께 최적화

효율적인 추론: Few-step Distillation과 RLHF를 통해 8 NFE로 sub-second 추론을 달성했습니다.

💰 총 학습 비용: 314K H800 GPU 시간 (약 $628K) — 이는 경쟁 모델 대비 현저히 낮은 비용입니다.

학습 단계 H800 GPU 시간 비용 (USD)

Low-res Pre-Training 147.5K $295K
Omni-Pre-Training 142.5K $285K
Post-Training 24K $48K
Total 314K $628K

3) 모델/기술 아키텍처 요약

논문에서 제시한 **S3-DiT (Scalable Single-Stream Diffusion Transformer)**의 핵심은 다음과 같습니다.

구성 요소 설명

텍스트 인코더 Qwen3-4B — 한국어·중국어·영어 등 다국어 이해 능력
이미지 토크나이저 Flux VAE — 이미지를 토큰 형태로 변환
SigLIP2 편집 작업 전용 — 이미지 의미를 더 정확하게 파악
총 파라미터 6.15B
레이어 수 30
Hidden Dimension 3840
Attention Heads 32

아키텍처의 핵심 특징:

  • 모든 입력(텍스트 토큰, 이미지 VAE 토큰, 이미지 시맨틱 토큰)을 단일 시퀀스로 합쳐 Transformer에서 처리
  • 3D Unified RoPE를 사용해 혼합 시퀀스 모델링
  • QK-Norm으로 어텐션 안정화, Sandwich-Norm으로 신호 진폭 제어
  • 계산 효율 상승, 텍스트–이미지 상호작용 강화
  • 이미지 생성·편집 모두 하나의 구조에서 가능

4) 세부 적용 기술

1️⃣ Data Profiling Engine

이미지를 단순히 '좋다/나쁘다'가 아니라 다양한 지표로 세밀하게 분석합니다.

Image Metadata: 해상도, 파일 크기, pHash(이미지 지문)를 추출하여 중복 제거 및 필터링에 활용합니다.

Technical Quality Assessment:

  • 압축 아티팩트 감지: 이상적인 비압축 파일 크기 대비 실제 파일 크기 비율 계산
  • 시각적 품질 저하: 색상 캐스트, 흐림, 워터마크, 노이즈를 자체 모델로 평가
  • 정보 엔트로피: 경계 픽셀 분산 분석 및 JPEG 재인코딩 BPP로 이미지 복잡도 측정

Semantic and Aesthetic Content:

  • 전문 어노테이터 라벨로 학습된 미학 점수 모델
  • AIGC(AI 생성 콘텐츠) 탐지 분류기로 AI 생성 이미지 필터링
  • VLM 기반 시맨틱 태깅 및 NSFW 점수 산정

2️⃣ Cross-modal Vector Engine

이미지와 텍스트를 같은 공간에서 비교합니다. 예를 들어 '고양이'라는 텍스트 벡터와 고양이 사진 벡터의 거리가 가까운지 계산하는 방식입니다.

기존 SD3의 deduplication 방법을 개선:

  • range_search를 k-NN search로 대체하여 확장성 문제 해결
  • k-NN 거리로 근접 그래프 구축 후 Louvain 커뮤니티 탐지 알고리즘 적용
  • 8대의 H800에서 10억 개 아이템을 약 8시간에 처리 (인덱스 구축 + 100-NN 쿼리)

활용:

  • 중복 데이터 제거
  • 특정 개념이 부족한지 탐색
  • 모델이 실패한 사례를 기반으로 원인을 가진 데이터 군집을 찾아내 제거

3️⃣ World Knowledge Topological Graph

세계 지식 위상 그래프는 모든 개념(동물, 음식, 지역, 사물 등)을 트리 구조로 정리한 그래프입니다.

구축 과정:

  1. Wikipedia 엔티티와 하이퍼링크 구조로 초기 그래프 구축
  2. PageRank 기반 중심성 필터링 + VLM 기반 시각화 가능성 필터링으로 정제
  3. 대규모 캡션 이미지 데이터셋에서 태그 추출 후 자동 계층화

활용:

  • 어떤 개념이 데이터에서 부족한지 판단
  • 개념별 균형 있게 데이터 샘플링 (BM25 점수 + 계층 관계 고려)
  • 인물·장소·문화를 더 정확하게 표현

4️⃣ Active Curation Engine

데이터를 자동으로 평가·정제하고, 부족한 개념은 채워 넣는 엔진입니다.

Human-in-the-Loop Active Learning Cycle:

  1. 토폴로지 그래프와 초기 리워드 모델로 균형 잡힌 서브셋 큐레이션
  2. 캡셔너와 리워드 모델이 pseudo-label 할당
  3. 하이브리드 검증 (인간 + AI) → 거부된 샘플은 수동 수정
  4. 고품질 어노테이션 데이터로 캡셔너/리워드 모델 재학습

예시 - "松鼠鳜鱼(송서귀어)" 문제:

  • 이것은 실제로 중국 요리 이름이지만, 모델이 해당 개념을 모르면 "다람쥐 + 물고기"로 조합 추론하여 잘못된 이미지 생성
  • Active Curation Engine이 이런 long-tail 분포 문제를 진단하고 해결

5️⃣ Image Captioner (Z-Captioner)

이미지에 대한 텍스트 설명을 자동으로 생성하는 올인원 캡셔너입니다.

OCR 정보 포함 (Chain-of-Thought 방식):

  • 먼저 이미지의 모든 텍스트를 명시적으로 인식
  • 그 결과를 기반으로 캡션 생성
  • 핵심: OCR 결과는 번역하지 않고 원래 언어 그대로 유지 → 텍스트가 잘못된 언어로 렌더링되는 것을 방지

Multi-Level Caption:

  • Long, Medium, Short 캡션
  • Tags
  • Simulated User Prompts (실제 사용자 프롬프트처럼 불완전한 형태)

World Knowledge 포함:

  • 메타 정보를 조건으로 이미지 캡셔닝 수행
  • 공인, 유명 랜드마크, 알려진 이벤트 등 특정 엔티티 식별 시 환각 감소

Difference Caption (편집용):

  1. Step 1: 소스/타겟 이미지 각각 상세 캡션 생성
  2. Step 2: 두 이미지와 캡션 비교 분석
  3. Step 3: 식별된 차이점을 기반으로 간결한 편집 지시 생성

6️⃣ 학습 전략

Pre-training (Flow Matching Objective): $$\mathcal{L} = \mathbb{E}_{t,x_0,x_1,y}[|u(x_t, y, t; \theta) - (x_1 - x_0)|^2]$$

Low-resolution Pre-training:

  • 256² 해상도, T2I 생성 태스크만
  • 전체 프리트레이닝 컴퓨팅의 절반 이상 투입
  • 기초 시각적 지식(예: 중국어 텍스트 렌더링) 대부분을 이 단계에서 습득

Omni-pre-training:

  • Arbitrary-Resolution Training: 원본 해상도를 사전 정의된 학습 해상도 범위로 매핑
  • Joint T2I + I2I Training: 이미지-이미지 태스크를 프리트레이닝에 통합
  • Multi-level Bilingual Caption: Z-Captioner로 다국어, 다단계 합성 캡션 생성

SFT (Supervised Fine-Tuning):

  • Distribution Narrowing: 웹 스케일 노이즈 데이터에서 고품질 서브매니폴드로 분포 수렴
  • Concept Balancing: World Knowledge Graph 기반 동적 리샘플링으로 long-tail 개념 보존
  • Model Merging: 여러 SFT 변형 모델의 가중치를 선형 보간하여 Pareto-optimal 솔루션 달성

7️⃣ Few-Step Distillation (빠른 생성 기술)

Diffusion 모델은 원래 50~100 스텝을 반복해야 이미지를 만들지만, 논문에서는 이 과정을 **단 8 NFE(Number of Function Evaluations)**로 줄였습니다.

핵심 기술 1 - Decoupled DMD: 기존 DMD의 두 가지 독립적 메커니즘을 발견하고 분리:

  • CFG-Augmentation (CA): 학생 모델의 few-step 생성 능력을 구축하는 주요 엔진
  • Distribution Matching (DM): 학습 안정성을 보장하고 아티팩트를 제거하는 정규화 역할

→ 기존 DMD의 색감 왜곡, 디테일 손실 문제 해결

핵심 기술 2 - DMDR (Distribution Matching Distillation meets RL):

  • RL을 few-step distillation에 통합
  • DM 항을 정규화로 활용하여 "reward hacking" 방지
  • 미학적 정렬과 의미적 충실도 향상

결과: 100-step teacher 모델과 구별 불가능하며, 종종 더 나은 지각 품질과 미학적 매력을 달성

8️⃣ RLHF (사람의 선호 반영)

사람이 더 좋아하는 이미지를 기준으로 모델을 재교육합니다.

리워드 모델 3가지 차원:

  1. Instruction Following: 프롬프트를 구조적으로 분해(핵심 주제, 속성, 액션, 공간 제약, 스타일)하여 충족 비율 계산
  2. AI-Content Detection: AI 생성 콘텐츠 감지
  3. Aesthetic Quality: 미학적 품질

2단계 RLHF:

  • Stage 1 - Offline DPO: 객관적이고 검증 가능한 차원(텍스트 렌더링, 객체 카운팅)에 집중. VLM으로 선호 쌍 자동 생성 후 인간 검증
  • Stage 2 - Online GRPO: 리워드 모델의 다차원 피드백으로 포토리얼리스틱 생성, 미학 품질, 지시 따르기 동시 최적화

9️⃣ Prompt Enhancer with Reasoning Chain

6B 파라미터의 한계(세계 지식, 의도 이해, 복잡한 추론)를 보완하기 위해 **Prompt Enhancer(PE)**를 도입했습니다.

핵심:

  • 대형 VLM은 고정, SFT 단계에서 모든 입력 프롬프트를 PE로 처리
  • Reasoning Chain이 추론과 세계 지식 주입의 핵심 요소

예시:

  • 지리 좌표 "30.2500° N, 120.1667° E" 입력 시:
    • Reasoning 없이: 좌표 텍스트만 렌더링
    • Reasoning 있음: 해당 위치가 "서호(西湖, West Lake)"임을 추론하여 올바른 장면 생성

5) 성능 평가

Alibaba AI Arena Elo 랭킹:

순위 모델 회사 유형 Elo Score

1 Imagen 4 Ultra Preview Google Closed 1048
2 gemini-2.5-flash-image-preview Google Closed 1046
3 Seedream 4.0 ByteDance Closed 1039
4 Z-Image-Turbo Alibaba Open (6B) 1025
5 Seedream 3.0 ByteDance Closed 1012
6 Qwen-Image Alibaba Open (20B) 1008

오픈소스 모델 중 1위, 전체 4위 달성

주요 성과:

  • 📸 Photorealistic Quality: 탁월한 포토리얼리스틱 이미지 생성
  • 📖 Bilingual Text Rendering: 복잡한 한중영 텍스트 정확 렌더링
  • 💡 Prompt Enhancing & Reasoning: 표면적 설명을 넘어 세계 지식 활용
  • 🧠 Creative Image Editing: 다국어 편집 지시 이해 및 유연한 이미지 변환
  • Sub-second Inference: H800에서 1초 미만, 소비자 GPU(<16GB VRAM)에서도 동작

6) 제약사항

  • 6B 모델의 한계: 복잡한 장면이나 잠재 공간 깊이가 필요한 작업에서는 초대형 모델 대비 품질이 떨어질 수 있음
  • 8 NFE의 한계: 빠른 생성은 품질 이득이 크지만, 특정 예술 스타일 등 섬세한 영역에서는 다단계 샘플링보다 부족할 수 있음
  • PE 의존성: Prompt Enhancer 없이는 복잡한 세계 지식이나 추론이 필요한 프롬프트 처리에 한계

마무리

Z-Image는 작지만 잘 만들어진 모델이 더 큰 모델을 이길 수 있다는 것을 보여준 하나의 실증이라고 할 수 있습니다. 6B라는 비교적 작은 모델로도 사진 수준의 사실적인 이미지, 한·중·영 등의 다국어 텍스트 렌더링, 고난도 이미지 편집, 빠른 생성 속도를 모두 달성했습니다.

이 모델이 가진 가장 큰 기술적 의의는 **'효율성'**입니다. 데이터를 똑똑하게 모으고(Data Infrastructure), 모델 구조를 단순화하며(Single-Stream DiT), 학습 단계를 정교하게 설계하고(Progressive Training), 최종적으로 인간의 선호를 반영하여 품질을 높이는(RLHF) 흐름은 다른 AI 모델 개발에도 그대로 응용할 수 있습니다.

특히 $628K라는 학습 비용은 수백만 달러를 투입하는 대형 모델들과 비교하면 혁신적인 수준입니다. 이는 효율적인 설계가 무조건적인 스케일링을 대체할 수 있음을 증명합니다.


참고자료


Q&A

Q. 왜 단일 스트림(Single-Stream) 구조가 중요한가요?

텍스트와 이미지를 따로 처리하지 않고 하나의 흐름으로 넣으면, 두 정보가 더 자연스럽게 섞입니다. 기존 듀얼-스트림 방식은 텍스트와 이미지를 별도로 처리한 후 나중에 결합하는데, 이는 계산량이 많고 상호작용이 제한적입니다. 단일 스트림에서는 매 레이어에서 밀도 높은 교차 모달 상호작용이 일어나므로, 파라미터 효율성이 높아지고 작은 모델 크기로도 성능이 좋아집니다.

Q. 왜 OCR 정보를 캡션에 그대로 넣나요?

이미지 속 텍스트를 AI가 정확히 써야 하는 경우가 많은데, OCR을 먼저 뽑아 넣으면 모델이 "글자를 어떻게 그리는지" 훨씬 잘 배울 수 있습니다. 특히 번역하지 않고 원래 언어 그대로 넣는 것이 중요합니다. 만약 한국어 텍스트를 영어로 번역해서 캡션에 넣으면, 생성 모델이 영어로 텍스트를 렌더링해버리는 문제가 생깁니다.

Q. Few-step Distillation은 왜 어려운가요?

원래 수십 번 반복해야 안정적으로 나오는 이미지를 단 8번 만에 나오게 하려면, 정보 손실 없이 "압축해서 전달"해야 합니다. 이 과정에서 흔히 색이 바뀌거나 디테일이 사라지는 문제가 생기는데, 논문은 이를 해결한 방식(Decoupled DMD + DMDR)을 제안합니다. 핵심 인사이트는 기존 DMD에서 CFG-Augmentation(능력 구축)과 Distribution Matching(안정화)이 서로 독립적인 역할을 한다는 것이고, 이를 분리해서 최적화하면 품질 저하 없이 빠른 생성이 가능합니다.

Q. Prompt Enhancer는 왜 필요한가요?

6B 파라미터 모델은 세계 지식과 복잡한 추론에 한계가 있습니다. 하지만 상세한 프롬프트를 이미지로 변환하는 "텍스트 디코더" 역할은 잘 수행합니다. Prompt Enhancer는 이 인지적 격차를 메우는 역할을 합니다. 중요한 점은 대형 VLM을 고정한 채로 SFT 단계에서 PE가 강화한 캡션으로 학습시켜, 추가적인 LLM 학습 비용 없이 시너지를 만든다는 것입니다.

Q. 왜 합성 데이터(Distillation)를 사용하지 않았나요?

기존 연구들은 GPT-4V 같은 대형 모델에서 생성한 합성 데이터로 학습하는 경우가 많습니다. 하지만 이 방식은 원래 모델의 한계(에러, 편향)가 그대로 전파되고, 데이터 동질화로 인해 새로운 시각적 능력이 생기기 어렵습니다. Z-Image는 100% 실제 데이터만 사용하여 이러한 "closed feedback loop" 문제를 피했습니다.


var content = document.querySelector('.entry-content') contentSelector: '.entry-content'