논문분석1 DeepSeek 정복기 [1] 강화학습(Reinforcement Learning : RL) 기초 DeepSeek를 이해하기 위해서는 강화학습에 대한 기본적인 개념 이해가 선행적으로 요구된다.강화학습에 대한 사전지식이 매우 부족한 관계로, Deepseek 논문을 이해하기 위해 필요한 강화학습 기초지식을 정리할 필요가 있었다.따라서 본 포스팅에서는 DeepSeek의 학습 원리를 이해하는 데 조금이나마 도움이 되도록, 아주 최소한의 강화학습 관련 지식을 정리하고자 한다. (나와 비슷한 처지의 사람들에게 도움이 되길 바라며...)(1) 강화학습이란?강화학습은 지도학습처럼 정답이 주어지거나 비지도학습처럼 데이터의 패턴을 찾는 것이 아니라, 에이전트가 환경과 상호작용하며 시행착오를 통해 학습하는 방식을 말한다. 강화학습의 에이전트는 각 상태에서 행동을 선택하고, 그 결과로 받는 보상을 최대화하는 방향으로 자신.. 2025. 2. 6. 이전 1 다음