본문 바로가기

전체 글

(178)
LangGraph Multi-Tenant PostgreSQL 설계 가이드 최근 agent 기반 Multi-Tenant를 고려한 케이스가 있어서 고민한 내용을 정리한 가이드입니다.1. Multi-Tenant 격리 전략 개요 전략격리 수준복잡도확장성사용 케이스Application-level낮음낮음높음빠른 MVPThread ID Prefix중간낮음높음일반적인 SaaSSchema 분리높음중간중간규제 요구사항Row Level Security높음높음높음엔터프라이즈Database 분리최고최고낮음금융/의료2. 전략 1: Thread ID + Namespace 기반 격리 (권장 시작점)Threads는 여러 다른 실행의 체크포인팅을 가능하게 하여, 멀티테넌트 채팅 애플리케이션 및 별도의 상태를 유지해야 하는 다른 시나리오에 필수적입니다.thread_id를 tenant-{tenant_id}:us..
LangGraph + PostgreSQL 설계 핵심 주의사항 현재 사내 프로젝트를 진행하면서 Agent 기반 B2B 설계를 진행하는 경우 LangGraph + PostgreSQL로 설계할 때 마주쳤던 이슈와 주의할 점을 정리한 내용입니다. 1. Connection 설정 필수 요구사항autocommit=True와 row_factory=dict_row가 필수입니다. autocommit=True는 .setup() 메서드가 체크포인트 테이블을 데이터베이스에 올바르게 커밋하는 데 필요하며, 이것이 없으면 테이블 생성이 지속되지 않을 수 있습니다. row_factory=dict_row는 PostgresSaver 구현이 딕셔너리 스타일 문법으로 데이터베이스 행에 접근하기 때문에 필요합니다.from psycopg.rows import dict_rowimport psycopg# ..
LTX-2: 오디오와 비디오를 동시에 생성하는 효율적인 Joint Audio-Visual Foundation Model 최근 Text-to-Video 분야는 눈부신 발전을 이루었습니다. SORA, Veo, WAN 등 놀라운 품질의 영상을 생성하는 모델들이 등장했죠. 하지만 이 모델들에게는 한 가지 치명적인 한계가 있습니다. 바로 소리가 없다는 것입니다.영상에서 소리는 단순한 부가 요소가 아닙니다. 감정, 분위기, 맥락을 전달하는 핵심 요소입니다. 발자국 소리, 빗소리, 대화, 배경 음악 — 이 모든 것이 없으면 아무리 뛰어난 영상도 생동감을 잃습니다.기존에는 이 문제를 분리된 파이프라인으로 해결했습니다. 먼저 비디오를 생성하고(T2V), 그 다음 오디오를 생성(V2A)하거나, 그 반대로요. 하지만 이 방식은 joint distribution을 모델링하지 못한다는 근본적인 한계가 있습니다. 립싱크는 오디오가 주도하지만, 잔..
Z-Image: 6B 파라미터로 구현한 효율적인 단일 스트림 이미지 생성 모델 대부분의 최신 이미지 생성 모델은 수십억 개의 파라미터를 사용합니다. 모델 크기가 커질수록 성능은 좋아지지만, 그만큼 학습 비용과 시간도 따라 증가합니다. 그래서 많은 연구자들이 좋은 모델을 만들려면 무조건 크고 비싸야 한다는 생각을 갖곤 합니다.하지만 산업 현장은 조금 다릅니다. 기업은 예산과 시간이 제한돼 있고, 개인이나 소규모 연구팀은 더욱 그렇습니다. 그래서 적은 비용으로도 뛰어난 이미지 생성 모델을 만들 수 없을까라는 질문이 나오기 시작했습니다.이런 와중에 알리바바 Z-Image 팀에서 Z-Image라는 6B(60억) 파라미터 규모의 생성 모델을 공개했습니다. 최신 Flux 모델과 동등한 수준의 이미지를 만들어내면서도 속도는 엄청 빠르다고 알려져 있죠. 실제로 다른 최신 모델들이 20B~80B ..
AI Engineer로서 Vibe Coding을 접근하는 방법 최근 아래 링크에 있는 글을 읽어 보고 생각이 드는 내용을 정리한 아티클입니다.링크 : https://www.reddit.com/r/vibecoding/comments/1myakhd/how_we_vibe_code_at_a_faang/ 먼저, 회고를 하기 전에 먼저 해당 내용을 간단히 번역을 하겠습니다.FAANG에서 AI와 함께 코딩하는 방식최근 AI 보조 코딩은 프로덕션 코드에 쓸 수 없다고 생각하는 분들의 비판을 자주 보았습니다. 하지만 이는 사실이 아닙니다. 해당 저자는 10년 이상 경력을 가진 AI 소프트웨어 엔지니어이며, 그중 절반가량을 FAANG 또는 유사한 대기업에서 근무했습니다.이제 현재 저자들이 프로덕션 코드에 AI를 활용하는 방식을 공유해보겠습니다.1. 항상 기술 설계 문서(Technic..
대규모 분산 학습 및 배포 팁(DeepSpeed Zero, Megatron, Nemo, vLLM, sglang) 딥러닝 모델의 파라미터 규모가 수백억 개를 넘어가며 이제 단일 GPU로는 더 이상 훈련이 불가능한 시대가 되었습니다.2025년, 이 문제를 해결하는 유망한 기술 5가지입니다.DeepSpeed ZeRO — 메모리 최적화의 절대 표준Megatron-LM — 6,000개 GPU까지 선형 확장의 상징NVIDIA NeMo — 엔터프라이즈급 생성 AI 풀스택vLLM — 24배 빠른 추론 성능의 정석SGLang — 구조화 생성의 게임체인저이 글은 실험 로그, 프로덕션 경험, 최신 벤치마크, GitHub 이슈 분석까지 모두 반영한 실전형 가이드입니다.단순 설명이 아니라, 현업에서 바로 쓸 수 있는 엔지니어링 관점에서 재구성했습니다.1. 훈련 최적화의 양대 산맥: DeepSpeed ZeRO vs Megatron-LM🔹..
PaddleOCR-VL 분석 링크 : https://arxiv.org/pdf/2510.14528 PaddleOCR-VL은 0.9B 파라미터만으로 OmniDocBench v1.5에서 92.56점을 기록하며 72B 파라미터 모델들을 능가했습니다. 이는 모델 크기가 아닌 데이터 중심 설계와 효율적인 아키텍처 분리를 통해 달성한 성과입니다. Baidu의 PaddlePaddle 팀이 2025년 10월 발표한 이 논문은 문서 파싱을 위한 비전-언어 모델 설계에서 3,170만 개의 고품질 학습 데이터 구축 방법론과 레이아웃 분석과 요소 인식의 2단계 아키텍처 분리 전략이 어떻게 실용적인 성능 향상으로 이어지는지 구체적으로 보여줍니다. 특히 10억 개의 페르소나를 활용한 합성 데이터 생성과 200개 이상의 폰트 라이브러리를 통한 Long-tail..
확산 모델 정렬의 새로운 전환점: Direct-Align과 SRPO 논문 : https://arxiv.org/pdf/2509.06942huggingface : https://huggingface.co/tencent/SRPO최근 arXiv에 공개된 「Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference」 논문은, 확산 모델(Diffusion Model)을 인간의 선호도에 정렬(alignment)하는 연구 분야에서 매우 인상적인 접근을 제시하고 있다고 생각합니다. 해당 연구는 기존 방법들이 오랫동안 안고 있던 계산 비용 문제와 보상 모델의 경직성 문제를 동시에 해결하면서, 이미지 생성 품질과 학습 효율성 모두에서 의미 있는 도약을 보여주고 있습니다.특히 FLUX 계열 모델을 기준으..

var content = document.querySelector('.entry-content') contentSelector: '.entry-content'