DeepSeek를 이해하기 위해서는 강화학습에 대한 기본적인 개념 이해가 선행적으로 요구된다.
강화학습에 대한 사전지식이 매우 부족한 관계로, Deepseek 논문을 이해하기 위해 필요한 강화학습 기초지식을 정리할 필요가 있었다.
따라서 본 포스팅에서는 DeepSeek의 학습 원리를 이해하는 데 조금이나마 도움이 되도록, 아주 최소한의 강화학습 관련 지식을 정리하고자 한다. (나와 비슷한 처지의 사람들에게 도움이 되길 바라며...)
(1) 강화학습이란?
강화학습은 지도학습처럼 정답이 주어지거나 비지도학습처럼 데이터의 패턴을 찾는 것이 아니라, 에이전트가 환경과 상호작용하며 시행착오를 통해 학습하는 방식을 말한다. 강화학습의 에이전트는 각 상태에서 행동을 선택하고, 그 결과로 받는 보상을 최대화하는 방향으로 자신의 정책(행동 전략)을 지속적으로 개선해 나간다. 이는 마치 게임을 플레이하면서 높은 점수를 얻기 위해 전략을 발전시키는 것과 유사한 것으로 이해할 수 있다.
일반적인 강화학습 알고리즘에서는 두 가지 모델을 모두 학습하는 경우가 많다.
- 정책(policy) 모델 : 에이전트의 의사결정 전략을 나타내는 핵심적인 요소로, 에이전트가 특정 상태에서 어떤 행동을 취할지 결정함. 즉, 주어진 상태에서 에이전트가 취할 수 있는 가능한 행동들 중 어떤 행동을 선택할지 지정함.
- 정책 모델의 궁극적인 목표는 누적 보상을 최대화하는 최적의 전략을 학습하는 것
- 정책이란 특정 상황에서 어떤 행동을 선택할 확률과 같음.
- 예를 들어 게임에서 현재 상황이 주어졌을 때 '점프'할 확률이 0.7, '달리기'할 확률이 0.3과 같이 행동을 선택하는 확률 분포 -> 이것이 바로 정책(π)이며, 에이전트의 행동 전략이라고 할 수 있다.
- 이를 통해 에이전트는 장기적으로 가장 높은 보상을 얻을 수 있는 행동 sequence를 선택할 수 있게 됨
- 크리틱 모델 : 현재 상태의 가치나 보상의 기대값을 추정하는 모델
- GRPO는 정책 모델만 사용하고, 크리틱 모델은 생략하여 연산 비용을 줄인다. (이후 설명 예정)
DeepSeek 논문에서는 policy라는 키워드가 계속해서 언급되며, 해석을 돌릴 경우 '정책 모델', '정책'쯤으로 한글화된다. 따라서 선행 지식이 없는 경우 이 '정책'이라는 용어가 굉장히 낯설게 느껴진다. 강화학습의 기본으로 policy와 critic을 머리에 넣어 두자. (정책 모델을 학습하는 방법에도 참 여러가지가 있는데, 정책을 직접 최적화하여 최적의 행동을 직접 학습하는 방법이 있다는 정도만 알고 넘어가자.)
(2) GRPO란?
GRPO란 Group Relative Policy Optimization의 준말로, 강화학습에 필요한 Policy 모델 최적화를 Group을 통해 해내는데, 이 과정에서 rule-base의 보상을 계산한다. Critic 모델은 생략하기 때문에 연산 비용을 낮춘 방법으로, 즉, GRPO는 Policy 모델만을 학습시킨다.
- Group Relative - 그룹 내에서 상대적으로 뭔가 측정해서
- Policy Optimization - 말 그대로 Policy를 최적화 하고자 한다.
- Policy란 위에서 살펴본 바와 같이 강화학습에 사용되는 policy 모델을 의미한다.
DeepSeek V3 모델을 base로 해서 GPRO 알고리즘을 통해 강화학습을 거친 모델이 곧 논문에서 설명하는 DeepSeek-R1-ZERO에 해당한다.
GRPO(Group Relative Policy Optimization)은 딥시크에서 직접 개발한 알고리즘으로, 이를 처음으로 소개한 논문은 2024년 4월 발표된 "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models"이다.
https://arxiv.org/pdf/2402.03300
(3) DeepSeek의 보상
지금까지 설명한 것과 같이, 강화학습에는 Policy와 Critic모델이 필요하고, 이 중에서 Critic 모델은 강화학습에 필요한 보상을 추정하기 위해 존재한다. 그러나 GRPO는 Policy만 사용하고 Critic을 생략한다.
그렇다면 GRPO는 크리틱 모델 없이 어떻게 보상을 추정할까?
- GRPO는 한 번에 여러 개의 결과물(출력)을 그룹으로 뽑아낸 뒤
- 그 상대적인 우수성을 비교하는 규칙 기반(rule-based) 방식으로 보상을 추정한다.
- GRPO는 각 입력(프롬프트)에 대해 여러 개의 출력을 생성하고,
- 이들을 하나의 그룹으로 취급하며,
- 그룹 내에서 각 출력의 상대적인 보상을 계산하여 이점(advantage)을 추정한다.
- 따라서 보상 측정은 neural network의 개입이 전혀 없이 완전히 deterministic한 rule-based로 작동하게 된다.
이를 통해 연산량을 낮추고 비용 효율적인 강화학습을 실현할 수 있게 된 것이다.
강화학습을 아예 모르는 사람에게 조금이나마 도움이 되는 글이었길 바라며, 다음 포스팅에서는 딥시크 논문 분석의 두 번째 사전 단계로 GRPO(Group Relative Policy Optimiaztion) 알고리즘에 대한 수식 파헤치기 포스팅을 해보겠습니다.
'Data Science > DL 딥러닝' 카테고리의 다른 글
DeepSeek 정복기 [3] 딥시크 V3에 대한 기본적인 이해 (1) | 2025.02.18 |
---|---|
DeepSeek 정복기 [2] GRPO 수식 이해하기 (R1, DeepSeekMath) (2) | 2025.02.07 |
논문 리뷰 | RAGAS: Automated Evaluation of Retrieval Augmented Generation(2023) - RAG 평가 프레임워크 (1) | 2025.01.03 |
논문 리뷰 | LLM Pruning and Distillation in Practice: The Minitron Approach(2024) - 엔비디아 (4) | 2024.12.30 |
논문 리뷰 | DIFFERENTIAL TRANSFORMER(2024) - 마이크로소프트 (2) | 2024.12.04 |