llm12 DeepSeek 정복기 [3] 딥시크 V3에 대한 기본적인 이해 DeepSeek - V3Deepseek의 R1 family는 흔히 '순수 강화학습'이라는 keyword와 함께 쓰이며 마치 강화학습만을 이용해 완전한 무에서 유를 창조한 모델인 것처럼 잘못 받아들여질 때가 많다. (딥시크에서 그런 의도로 마케팅을 했을 것이기도 하겠지만...)딥시크의 R1 family는 DeepSeek-V3-Base모델을 Post-training하여 만들어진 모델들로, V3은 약14.8T(조) 개의 빅데이터셋을 가지고 Supervised Trained - 지도 학습된, 총 671B(6710억) 개의 파라미터를 가진 초대형 언어 모델이다.따라서 R1의 추론 능력은, 그들이 개발한 강화 학습 레시피를 이용하여 DeepSeek-V3이 가지고 있는 기본적인 추론 능력을 극대화시킨 것으로 이해하는.. 2025. 2. 18. DeepSeek 정복기 [2] GRPO 수식 이해하기 (R1, DeepSeekMath) Group Relative Policy Optimization (GRPO) 알고리즘이란?GRPO는 딥시크가 직접 개발한 강화학습 알고리즘으로, 딥시크에서 DeepSeekMath 모델과 함께 2024년 4월에 발표한 바 있다.GRPO는 보통 정책(policy) 모델과 동일한 크기의 크리틱(critic) 모델을 두는 전통적인 강화 학습 방식과 달리, ‘그룹 점수(group scores)’를 활용하여 기준선(baseline), 즉 상대적인 보상(Advantage)을 추정함으로써 크리틱 모델을 생략하는 기법을 의미한다. 즉, DeepSeek GRPO는 강화 학습에서 정책 모델만 학습시키고, 크리틱 모델은 생략하여 연산 비용을 획기적으로 줄였다.그렇다면 GRPO는 정책 모델은 어떻게 학습시키는 걸까? 또, 크리틱.. 2025. 2. 7. 논문 리뷰 | RAGAS: Automated Evaluation of Retrieval Augmented Generation(2023) - RAG 평가 프레임워크 https://arxiv.org/pdf/2309.15217 [1][2] 초록, 서론 핵심 내용RAGAS란?"Retrieval Augmented Generation Assessment"의 약자로, 검색 증강 생성(RAG) 시스템을 평가할 수 있는 프레임워크를 의미한다.RAG 평가에 있어 기존의 한계는?RAG 시스템의 성능은 여러 가지 요소(검색 모델, 데이터셋, LLM, 프롬프트 설계 등)에 따라 달라질 수 있으며, 각 요소를 최적화하는 데 시간과 노력이 필요하다.RAG 시스템은 종종 언어 모델링 과제(예: perplexity 측정)로 평가되는데하지만 이는 실제 성능을 예측하는 데 늘 적합하지는 않을 뿐더러특히 ChatGPT와 같은 closed 모델의 데이터에 접근할 수 없음다른 방법으로는 질문 응답 데이.. 2025. 1. 3. 논문 리뷰 | LLM Pruning and Distillation in Practice: The Minitron Approach(2024) - 엔비디아 https://arxiv.org/pdf/2408.11796논문 요약 : 1. 원본 LLM을 Teacher Correction을 통해 파인튜닝하여 교사 모델로 사용하고2. 또 같은 원본 LLM을 Width Pruning을 통해 경량화된 학생 모델로 사용하여3. 두 모델의 Knowledge Distillation을 통해 학생 모델을 Retrain함으로써큰 LLM을 가장 효과적으로 경량화할 수 있는 방법론 연구 (The Minitron Approach)Abstract, Introduction논문 초록과 서론의 핵심 문장은 아래와 같다.AbstractStructured pruning with knowledge distillation is a potent combination for obtaining small .. 2024. 12. 30. 논문 리뷰 | DIFFERENTIAL TRANSFORMER(2024) - 마이크로소프트 요즘 노캔기능이 대세입니다. 몇년 전까지만 해도 노캔 기능은 소니, 보스 헤드폰이 가장 인기였는데, 요즘은 에어팟과 버즈가 가장 인기가 좋은 것 같아요. 어쨌든 이 노이즈캔슬링의 원리는 생각보다 간단한데, 외부 소음과 반대되는 파형을 만들어서 더해버림으로써, 귀가 느끼는 소리가 0이 되도록 상쇄를 시켜주는 거라고 합니다.갑자기 노캔 얘기가 왜 나왔냐 하면, 이 번에 읽은 최신 논문 DIFF트랜스포머가 이 노이즈캔슬링 원리에서 모티브를 가져왔기 때문이에요. 기존의 어탠션 맵이 1개였다면, Diff-트랜스포머는 말 그대로 어탠션 맵을 2개 만들어서 그 차이 - Difference를 계산합니다. 잘못 계산되는 Attention을 상쇄시켜줄 수 있는 역할을 한다고요.https://arxiv.org/pdf/241.. 2024. 12. 4. 논문 리뷰 | Retrieval Augmented Generation or Long-Context LLMs? - A Comprehensive Study and Hybrid Approach(2024) - 구글 딥마인드 RAG와 LC를 사용한 LLM의 긴 문맥 응용에 대한 가이드라인을 제공하겠다는 2024 최신 연구 논문.최신 LLM의 max-token이 기하급수적으로 늘어나면서 Long-Context를 점점 더 잘 처리하고 있습니다. 예를 들어서 구글 Gemini 1.5의 경우 1백만 토큰까지 입력받을 수가 있고, LLama3.2 경량 모델의 경우 128K(12만8천) 토큰 입력이 가능합니다. 그래서 "RAG를 굳이 써야 될까?"라는 의문을 가진 사람도 있어요. RAG의 문제점이 많은데, 그냥 최신 LLM한테 문서를 통째로 주면 훨씬 더 일처리를 잘하니까 그렇죠. 그럼 RAG는 이제 쓸모가 없어질까?하는 의문도 들기 시작하고요.하지만 입출력 token의 갯수에 비용이 비례하는 현재 상황에서 여전히 RAG는 cost e.. 2024. 10. 31. 이전 1 2 다음