머신러닝 & 딥러닝/LLM 47

[LLM] LongWriter-Zero 합성 데이터 없이 초장문 생성하기

개요 LongWriter-Zero는 32B 모델로 100B급 성능을 달성하며 AI 텍스트 생성의 새로운 패러다임을 제시합니다. 이 모델은 합성 데이터나 인간 주석 없이 순수 강화학습만으로 최대 15,500토큰의 고품질 장문을 생성할 수 있습니다. 기존의 데이터 의존적 접근법과 달리, 자기 탐색 학습을 통해 WritingBench에서 8.69점을 기록하며 GPT-4o를 능가했습니다. 이는 AI 연구에서 효율성과 성능의 새로운 균형점을 보여주는 중요한 성과입니다. 기존 방법의 한계와 새로운 접근 초장문 텍스트 생성은 AI 활용에서 매우 중요한 요구사항이지만, 지금까지는 해결하기 어려운 문제였습니다. 기존의 LongWriter 같은 모델들은 "teaching" 접근법에 의존했는데, 이는 합성 장문 데이터에 대..

[LLM] gemma3 Architecture 정리

개요Gemma 3는 Google DeepMind가 2025년 6월 출시한 혁신적인 multimodal open-weight 언어 모델로, 5:1 interleaved local-global attention mechanism과 극도로 향상된 메모리 효율성을 통해 open-source AI 모델의 새로운 패러다임을 제시했습니다. 27B parameter 모델이 단일 GPU에서 실행되면서도 DeepSeek-V3(671B)와 같은 대형 모델들과 경쟁할 수 있는 성능을 달성한 것은 아키텍처적 혁신의 결과입니다.KV cache 메모리 사용량을 60%에서 15%로 감소시키면서도 128K context length를 지원하며, multimodal 기능까지 통합한 Gemma 3는 효율성과 성능의 새로운 균형점을 찾았습..

[LLM] Retriever Training에서 False Negative 완화 방법

들어가기 전해당 블로그 포스팅은 huggingface 아티클에서 공개된 False negative 제거 방법에 관한 내용을 정리 및 추가한 내용입니다.https://huggingface.co/blog/dragonkue/mitigating-false-negatives-in-retriever-training핵심 요약전통적인 하드 네거티브 마이닝에서 최대 70%가 실제로는 false negative라는 치명적인 문제를 해결하기 위해, 포지티브 인식 하드 네거티브 마이닝(positive-aware hard negative mining)이 등장했습니다. NV-Retriever의 방법론을 적용한 연구에서는 MTEB 검색 벤치마크에서 60.9 BEIR 점수로 1위를 달성했으며, 한국어 금융 텍스트 처리에서도 임베딩 ..

[LLM] 보안 강화를 위한 프롬프트 엔지니어링 - 2편

Divergence Attack (모델의 데이터 유출을 유도하는 공격)Carlini et al. (2020) 연구GPT-2 및 GPT-3에서 훈련 데이터를 추출하는 방법을 연구했습니다. AI 모델의 내부 데이터를 알지 못하더라도, 특정 패턴을 가진 프롬프트를 사용하면 모델이 훈련 데이터 일부를 복사하여 출력하는 현상을 발견했습니다.예제: 공격자가 "X's email address is ___"와 같은 프롬프트를 반복적으로 입력하면, 모델이 학습한 이메일 주소가 유출될 가능성이 있습니다.Nazar et al. (2023) 연구ChatGPT(GPT-turbo-3.5) 모델을 대상으로 '반복된 단어 패턴'을 사용한 데이터 유출 실험을 진행했습니다.예제: "poem"이라는 단어를 수백 번 반복하는 프롬프트를 입..

[LLM] 보안 강화를 위한 프롬프트 엔지니어링 - 1편

AI 애플리케이션이 공개되면, 악의적인 사용자가 이를 악용할 수도 있습니다. 프롬프트 해킹(prompt attacks)을 방어하는 것이 중요합니다.1. 프롬프트 추출 공격 (Prompt Extraction)공격자가 애플리케이션의 프롬프트(특히 시스템 프롬프트)를 추출하여 분석하는 공격 기법입니다. 이를 통해 애플리케이션을 복제하거나 악용할 수 있습니다.2. 감옥 탈출 및 프롬프트 주입 (Jailbreaking & Prompt Injection)모델이 원래 수행해서는 안 되는 악의적인 행동을 하도록 유도하는 공격입니다. 예를 들어, 프롬프트 주입(prompt injection)을 사용하여 제한된 정보를 모델이 공개하도록 만들 수 있습니다.3. 정보 추출 공격 (Information Extraction)모델..

[LLM]Anthropic의 Circuit Tracing 연구: 거대언어모델 사고 추적의 혁신

Anthropic이 2025년 공개한 Circuit Tracing 기술은 거대언어모델의 내부 사고 과정을 처음으로 상세히 추적할 수 있게 한 혁신적 도구입니다. 이 연구는 Claude 3.5 Haiku와 같은 프로덕션 모델의 추론 과정을 실시간으로 시각화하고 조작할 수 있는 Attribution Graph 방법론을 제시하며, AI 해석 가능성 분야에 새로운 전환점을 마련했습니다. 특히 "Dallas가 있는 주의 수도는?"이라는 질문에서 모델이 Dallas → Texas → Austin의 2단계 추론을 수행하는 과정을 명확히 추적해낸 것은 AI의 복잡한 사고 과정을 인간이 이해할 수 있는 형태로 변환한 첫 번째 성공 사례입니다.2025년 5월 29일, Anthropic은 이 획기적인 기술을 완전 오픈소스로..

[LLM] Ray Serve vs BentoML: 머신러닝 모델 서빙 플랫폼 완전 비교 분석

Ray Serve와 BentoML은 모두 성숙하고 프로덕션 준비가 완료된 ML 모델 서빙 솔루션이지만, 근본적으로 다른 철학을 구현하고 있습니다. Ray Serve는 복잡한 모델 오케스트레이션을 통한 분산 컴퓨팅 시나리오에서 뛰어난 성능을 보이며, 대규모에서 초당 137만건 이상의 트랜잭션을 달성하는 반면, BentoML은 개발자 경험과 배포 단순성을 우선시하여 포괄적인 모델 수명주기 관리와 함께 Python 우선 접근 방식을 제공합니다. 두 플랫폼 간의 선택은 정교한 분산 기능이 필요한지 아니면 간소화된 배포 워크플로우가 필요한지에 따라 달라집니다.아키텍처와 설계 철학의 차이점Ray Serve는 Ray의 분산 컴퓨팅 프레임워크 위에 구축된 분산 액터 기반 아키텍처를 사용합니다. 중앙 컨트롤러가 관리하는..

[LLM] 대규모 LLM 서빙 가이드: Triton, BentoML, TensorRT 완벽 분석

예를 들어, Gemma 3 27B와 같은 대규모 언어 모델은 AI 성능의 획기적인 발전을 나타내지만, 프로덕션 환경에서 효율적으로 서빙하려면 인프라 선택에 대한 신중한 고려가 필요합니다. 세 가지 주요 접근 방식인 Triton Inference Server, BentoML, TensorRT-LLM은 각각 다른 배포 시나리오에서 고유한 장점을 제공합니다. Triton의 프로덕션급 멀티모델 기능부터 BentoML의 개발자 친화적 워크플로우, TensorRT-LLM의 GPU 최적화 성능까지, 이러한 차이점을 이해하는 것은 확장 가능한 LLM 서비스를 구축하는 ML 엔지니어에게 필수적입니다.현재 중요한 이유: LLM 배포 시장이 2030년까지 1,055억 달러 규모에 달할 것으로 예상되는 가운데, 올바른 서빙 ..

[LLM] Finetuning – 파인튜닝과 메모리 병목의 해결 방법

파인튜닝의 현실적인 문제: 메모리 병목(Memory Bottlenecks)파인튜닝이 강력한 기능을 제공함에도 불구하고, 가장 큰 현실적 제약은 바로 GPU 메모리 사용량입니다. 파인튜닝 중에는 모델이 예측을 수행하는 것뿐만 아니라, 오차를 계산하고 가중치를 수정하는 과정(backpropagation)까지 포함되기 때문에, 추론보다 훨씬 많은 메모리를 소모하게 됩니다.요약: 메모리 병목을 이해하기 위한 핵심 포인트Key Takeaways for Understanding Memory Bottlenecks파인튜닝은 추론보다 훨씬 높은 메모리를 요구합니다.모델이 결과를 출력하는 것만 필요한 추론(inference)과는 달리, 파인튜닝은 전체 파라미터를 업데이트하기 위해 두 배 이상의 메모리가 필요합니다.메모리 ..

[LLM] Finetuning – 파인튜닝과 RAG의 관계

파인튜닝 vs RAG – 언제 무엇을 선택할까?파인튜닝(Finetuning)과 RAG(Retrieval-Augmented Generation)는 모두 모델 성능을 향상시키는 대표적인 방법입니다. 하지만 두 접근법은 목적과 활용 방식에서 본질적인 차이를 갖고 있습니다.핵심 정리는 이렇습니다:“파인튜닝은 형식(Form)을 위해, RAG는 사실(Fact)을 위해”정보 기반 실패에는 RAG가 효과적입니다만약 모델이 정답을 알고 있지 않아서 틀리는 경우라면, 파인튜닝보다는 RAG가 더 효과적입니다. 예를 들어:모델이 정보를 모르는 경우: 조직 내부 데이터, 최신 뉴스, 논문 등은 기존 모델이 사전학습 시점에 포함하지 못한 경우가 많습니다. 이럴 땐 외부 검색 기반의 RAG가 효과적입니다.모델이 오래된 정보를 가지..