본문 바로가기

강화학습3

DeepSeek 정복기 [3] 딥시크 V3에 대한 기본적인 이해 DeepSeek - V3Deepseek의 R1 family는 흔히 '순수 강화학습'이라는 keyword와 함께 쓰이며 마치 강화학습만을 이용해 완전한 무에서 유를 창조한 모델인 것처럼 잘못 받아들여질 때가 많다. (딥시크에서 그런 의도로 마케팅을 했을 것이기도 하겠지만...)딥시크의 R1 family는 DeepSeek-V3-Base모델을 Post-training하여 만들어진 모델들로, V3은 약14.8T(조) 개의 빅데이터셋을 가지고 Supervised Trained - 지도 학습된, 총 671B(6710억) 개의 파라미터를 가진 초대형 언어 모델이다.따라서 R1의 추론 능력은, 그들이 개발한 강화 학습 레시피를 이용하여 DeepSeek-V3이 가지고 있는 기본적인 추론 능력을 극대화시킨 것으로 이해하는.. 2025. 2. 18.
DeepSeek 정복기 [2] GRPO 수식 이해하기 (R1, DeepSeekMath) Group Relative Policy Optimization (GRPO) 알고리즘이란?GRPO는 딥시크가 직접 개발한 강화학습 알고리즘으로, 딥시크에서 DeepSeekMath 모델과 함께 2024년 4월에 발표한 바 있다.GRPO는 보통 정책(policy) 모델과 동일한 크기의 크리틱(critic) 모델을 두는 전통적인 강화 학습 방식과 달리, ‘그룹 점수(group scores)’를 활용하여 기준선(baseline), 즉 상대적인 보상(Advantage)을 추정함으로써 크리틱 모델을 생략하는 기법을 의미한다. 즉, DeepSeek GRPO는 강화 학습에서 정책 모델만 학습시키고, 크리틱 모델은 생략하여 연산 비용을 획기적으로 줄였다.그렇다면 GRPO는 정책 모델은 어떻게 학습시키는 걸까? 또, 크리틱.. 2025. 2. 7.
DeepSeek 정복기 [1] 강화학습(Reinforcement Learning : RL) 기초 DeepSeek를 이해하기 위해서는 강화학습에 대한 기본적인 개념 이해가 선행적으로 요구된다.강화학습에 대한 사전지식이 매우 부족한 관계로, Deepseek 논문을 이해하기 위해 필요한 강화학습 기초지식을 정리할 필요가 있었다.따라서 본 포스팅에서는 DeepSeek의 학습 원리를 이해하는 데 조금이나마 도움이 되도록, 아주 최소한의 강화학습 관련 지식을 정리하고자 한다. (나와 비슷한 처지의 사람들에게 도움이 되길 바라며...)(1) 강화학습이란?강화학습은 지도학습처럼 정답이 주어지거나 비지도학습처럼 데이터의 패턴을 찾는 것이 아니라, 에이전트가 환경과 상호작용하며 시행착오를 통해 학습하는 방식을 말한다. 강화학습의 에이전트는 각 상태에서 행동을 선택하고, 그 결과로 받는 보상을 최대화하는 방향으로 자신.. 2025. 2. 6.