
개요 LongWriter-Zero는 32B 모델로 100B급 성능을 달성하며 AI 텍스트 생성의 새로운 패러다임을 제시합니다. 이 모델은 합성 데이터나 인간 주석 없이 순수 강화학습만으로 최대 15,500토큰의 고품질 장문을 생성할 수 있습니다. 기존의 데이터 의존적 접근법과 달리, 자기 탐색 학습을 통해 WritingBench에서 8.69점을 기록하며 GPT-4o를 능가했습니다. 이는 AI 연구에서 효율성과 성능의 새로운 균형점을 보여주는 중요한 성과입니다. 기존 방법의 한계와 새로운 접근 초장문 텍스트 생성은 AI 활용에서 매우 중요한 요구사항이지만, 지금까지는 해결하기 어려운 문제였습니다. 기존의 LongWriter 같은 모델들은 "teaching" 접근법에 의존했는데, 이는 합성 장문 데이터에 대..