cot1 DeepSeek 정복기 [3] 딥시크 V3에 대한 기본적인 이해 DeepSeek - V3Deepseek의 R1 family는 흔히 '순수 강화학습'이라는 keyword와 함께 쓰이며 마치 강화학습만을 이용해 완전한 무에서 유를 창조한 모델인 것처럼 잘못 받아들여질 때가 많다. (딥시크에서 그런 의도로 마케팅을 했을 것이기도 하겠지만...)딥시크의 R1 family는 DeepSeek-V3-Base모델을 Post-training하여 만들어진 모델들로, V3은 약14.8T(조) 개의 빅데이터셋을 가지고 Supervised Trained - 지도 학습된, 총 671B(6710억) 개의 파라미터를 가진 초대형 언어 모델이다.따라서 R1의 추론 능력은, 그들이 개발한 강화 학습 레시피를 이용하여 DeepSeek-V3이 가지고 있는 기본적인 추론 능력을 극대화시킨 것으로 이해하는.. 2025. 2. 18. 이전 1 다음