'분류 전체보기' 카테고리의 글 목록 (3 Page)

Notice

Recent Posts

Recent Comments

Link

« 2024/07 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (83)

Haru's 개발 블로그

[논문 리뷰] MetaMath-70B-V1.0 논문 리뷰

링크 논문 링크 https://arxiv.org/pdf/2309.12284.pdf 깃허브 링크 https://github.com/meta-math/MetaMath Huggingface 링크 https://huggingface.co/meta-math/MetaMath-70B-V1.0 학습 파라미터 engin = gpt-3.5-turbo dataset = GSM8k 추가적으로 후방 추론 방식으로는 GSM8K를 사용하여 증강 temperature = 0.7 part = str(문자열 부분) 구체적으로는 tip에 나와있는데 “to void overwriting previous generated data”인데 전에 생성된 데이터를 덮어쓰기입니다. 이 논문에서 나온 핵심 내용으로는 전 후방 데이터를 증강시켜 성능을 ..

논문 리뷰/Language Model 2024. 4. 19. 11:34

[LLM] Finetuning시 세부 파라미터 정리

1) ModelArguments model_name_or_path : Path to the model weight or identifier from huggingface.co/models or modelscope.cn/models. adapter_name_or_path : Path to the adapter weight or identifier from huggingface.co/models. cache_dir : Where to store the pre-trained models downloaded from huggingface.co or modelscope.cn. use_fast_tokenizer : Whether or not to use one of the fast tokenizer (backed ..

머신러닝 & 딥러닝/LLM 2024. 4. 8. 21:13

[LLM] 기업용 특화 LLM 생성 방법

들어가기에 앞서 아래의 포스트를 참고하여 작성하였습니다. 기업용 금융 특화 LLM 모델 만들기 (1)- 필요성과 RAG 개요 2022년에 OpenAI에서 chatGPT가 발표되고 다양한 서비스 회사에서 LLM을 결합한 여러 상품들을 출시를 하였습니다. 뿐만 아니라 llama2같은 오픈소스 LLM(Open source LLM)들과 LoRA(Low-Rank Adaptation)같은 효율적인 학습방법들 덕분에 자체 LLM을 학습하는 노력도 많아지고 있습니다. 다만, 기업들이 ChatGPT나 GPT-4, PALM2, Claude2, HyperClova X, LLAMA2 같이 범용으로 사용할 수 있는 Foundation model과 같이 막대한 자본을 투입하여 개발을 진행하는 것은 어려움이 많을 뿐더러 시간과 자..

머신러닝 & 딥러닝/LLM 2024. 4. 5. 10:42

[논문 리뷰] ALMA 논문 리뷰 및 새로운 고효율 강화학습 CPO 소개

https://arxiv.org/abs/2309.11674 A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models Generative Large Language Models (LLMs) have achieved remarkable advancements in various NLP tasks. However, these advances have not been reflected in the translation task, especially those with moderate model sizes (i.e., 7B or 13B parameters), which stil arxiv.org..

논문 리뷰/Language Model 2024. 3. 11. 21:03

[LLM]llama.cpp 실행방법

양자화 추론기로 많이 사용하는 llama.cpp를 사용하는 방법을 알아보도록 하겠습니다. 저는 여기서 Upstage에서 발표한 SOLAR-10.7B를 야놀자에서 파인튜닝한 yanolja/EEVE-Korean-10.8B-v1.0 모델을 사용해보겠습니다. llama.cpp 설치 처음에는 llama.cpp를 clone한 다음 파일을 실행을 시킵니다. $ git clone https://github.com/ggerganov/llama.cpp.git $ cd llama.cpp $ make LLAMA_OPENBLAS=1 make LLAMA_OPENBLAS=1 명령어는 llama.cpp 프로젝트를 빌드할 때 OpenBLAS 라이브러리를 사용하도록 설정합니다. 이렇게 설정함으로써, llama.cpp 내부에서 수행되는 ..

머신러닝 & 딥러닝/LLM 2024. 3. 8. 21:24

[LLM]LLM 파일 형식 GGML & GGUF이란?

현재 LLM에서 혁신적인 파일 형식이 등장하였는데 GGML과 GGUF를 소개하고자 합니다. GGML 개요 GGML은 기계학습 분야에서 중요한 역할을 하는 텐서 라이브러리입니다. 이는 크기가 큰 모델과 다양한 하드웨어 환경에서 높은 성능을 발휘합니다. 장점 GPT 모델용 파일 형식으로 처음 시도된 사례입니다. 하나의 파일로 모델을 쉽게 공유하는 것이 가능합니다. 다양한 사용자가 CPU에서도 GGML 파일 실행하는 것이 가능합니다. 단점 모델의 추가적인 정보를 입력하는 것이 어렵습니다. 새로운 기능 추가 시 기존 모델과의 호환 문제가 생깁니다. 사용자가 수동적으로 설정을 변경해야 하는 어려움이 있습니다. GGML 유형 GGML_TYPE_Q2_K - 16개의 블록을 포함하는 수퍼 블록의 "유형 1" 2비트 양..

머신러닝 & 딥러닝/LLM 2024. 3. 7. 19:57

[LLM]LangChain이란 무엇인가?

LangChain이란? 최근 다양한 기업들이 LLM 서비스를 어플리케이션과 통합을 하여 사용하는 추세입니다. 이러한 과정을 편리하게 하기 위하여 랭체인(LangChain)은 노출하여 대규모 언어 모델과 애플리케이션의 통합을 간소화하는 SDK입니다. 여기서 중요한 점은 오픈AI와 같은 공급업체가 제공하는 모델 API를 사용하든, 오픈소스 모델을 앱에 사용하든 LLM 기반 애플리케이션을 구축하기 위해서는 단순히 프롬프트를 보내는 것 뿐만 아니라 다양한 작업들이 존재합니다. 예를 들어, 매개변수 조정부터 프롬프트 보강, 응답 조정, LLM은 상태를 저장하지 않으므로 대화의 이전 메시지를 기억하지 못하기 때문에 맥락 정보가 새로운 대화에서 컨텍스트를 다시 가져오기 위해 영구적인 데이터 베이스를 사용해야 할수도 ..

머신러닝 & 딥러닝/LLM 2023. 12. 2. 22:57

Andrew Ng(앤드류 응) 프롬프트 엔지니어링 강의 요약(4)

확장 확장하는 것은 짧은 텍스트를 예를 들어 지시사항이나 주제 목록을 큰 언어 모델이 생성하도록 하는 긴 텍스트, 예를 들어 이메일이나 어떤 주제에 대한 에세이를 만드는 것입니다. 이것의 좋은 사용 예는, 브레인스토밍 파트너로 큰 언어 모델을 사용하는 경우입니다. 다만, 누군가가 이를 사용하여 대량의 스팸을 생성하는 경우같이 문제가 될 수 있는 사용 사례도 있을 수 있습니다. 그래서, 큰 언어 모델의 이런 기능을 사용할 때는 책임감 있게, 그리고 사람들에게 도움이 되는 방식으로만 사용해야합니다. # given the sentiment from the lesson on "inferring", # and the original customer message, customize the email sentime..

머신러닝 & 딥러닝/LLM 2023. 9. 20. 00:56

이전 Prev 1 2 3 4 5 6 ··· 11 Next 다음

목록분류 전체보기 (83)

Haru's 개발 블로그

티스토리툴바