본문 바로가기

전체 글77

OpenVLA: An Open-Source Vision-Language-Action Model OpenVLA paper를 읽어 보자!AbstractYet, widespread adoption of VLAs for robotics has been challenging as 1) existing VLAs are largely closed and inaccessible to the public, and 2) prior work fails to explore methods for efficiently fine-tuning VLAs for new tasks, a key component for adoption.현존하는 VLA 모델들이 대부분 폐쇄형이거나 대중에게 공개되지 않았다는 문제점,그리고 실제 적용을 위해서 무척 중요한 '새로운 과제를 수행할 수 있도록 효과적으로 파인튜닝'을 하기 어려웠다는 문제점,.. 2026. 1. 27.
논문 리뷰 | TLCR: Token-Level Continuous Reward for Fine-grained ReinforcementLearning from Human Feedback (ACL, 2024) LLM, 강화학습(Reinforcement Learning) 두 분야를 함께 다루는 연구 논문을 읽어보고 싶어 리뷰하게 되었다.최근 LLM의 성능을 높이기 위해 인간 피드백을 활용한 강화학습(RLHF)이 널리 사용되고 있으며, 본 논문은 그 중에서도 토큰 수준의 세밀한 보상 설계를 통해 기존 방식의 한계를 극복하려는 시도인 TLCR에 대해 논한다. LLM의 SFT와 RL 기법의 융합이라는 관점에서 매우 흥미롭게 읽었다.AbstractRLHF에서 인간 선호도 데이터는 시퀀스 수준(sequence level) 으로 레이블링되고, 이 레이블은 "언어 모델로부터 autoregressive하게 생성된" 토큰과의 불일치(mismatch)로 이어지게 되는 문제점이 있다.그러니까 쉽게 말하면 "인간이 이게 더 좋다"라.. 2025. 7. 20.
강화학습 RL | 책 <Reinforcement Learning Introduction> 1장 강화학습 공부를 시작했다. 리처드 S. 서튼 과 앤드류 바르토의 레전드 강화학습 입문서 원서를 읽고 있다. 글 쓰는 현재 시각 기준으로 인용수가 무려 83,785에 육박한다....본 포스팅은 1장의 주요 하이라이트 문장을 따로 발췌하여 정리한 글이다. (한글 해석x)1.3. Elements of Reinforcement LearningA policy defines the learning agent's way of behaving at a given time.The policy is the core of a reinforcement learning agent in the sense that it alone is sufficient to determine behavior.The reward signal is.. 2025. 7. 11.
논문 리뷰 | CLIP-RT(2025) 지난 4월 좋은 기회로 서울대학교 랩투어를 한 이후로 로봇AI에 대해 큰 관심이 생겼다. 바빴던 프로젝트가 마무리되면서 여유가 생겨, 로봇AI 관련 논문을 하나씩 찾아 읽어보기로 했다. 이번 논문은 랩투어를 진행해 주셨던 서울대학교 박사님께서 소개해 주신 논문으로, 소개해 주실 당시 논문 억셉을 기다리고 있다고 하셨는데, 리뷰를 하는 지금 확인해 보니 2025 RSS(Robotics: Science and Systems) 학회에 억셉된 것으로 보인다. 축하드립니다!본 논문을 통해 robot의 r도 모르고 평소 LLM만 다뤄 왔던 나에게 생소한 로봇AI 분야를 '자연어'의 관점에서 조금은 친근하게 공부해볼 수 있었다. 특히 목적함수 식이 매우 깔끔하고 직관적으로 작성되어 있어서 논문의 텍스트, 시각자료, .. 2025. 6. 6.
DeepSeek 정복기 [3] 딥시크 V3에 대한 기본적인 이해 DeepSeek - V3Deepseek의 R1 family는 흔히 '순수 강화학습'이라는 keyword와 함께 쓰이며 마치 강화학습만을 이용해 완전한 무에서 유를 창조한 모델인 것처럼 잘못 받아들여질 때가 많다. (딥시크에서 그런 의도로 마케팅을 했을 것이기도 하겠지만...)딥시크의 R1 family는 DeepSeek-V3-Base모델을 Post-training하여 만들어진 모델들로, V3은 약14.8T(조) 개의 빅데이터셋을 가지고 Supervised Trained - 지도 학습된, 총 671B(6710억) 개의 파라미터를 가진 초대형 언어 모델이다.따라서 R1의 추론 능력은, 그들이 개발한 강화 학습 레시피를 이용하여 DeepSeek-V3이 가지고 있는 기본적인 추론 능력을 극대화시킨 것으로 이해하는.. 2025. 2. 18.
DeepSeek 정복기 [2] GRPO 수식 이해하기 (R1, DeepSeekMath) Group Relative Policy Optimization (GRPO) 알고리즘이란?GRPO는 딥시크가 직접 개발한 강화학습 알고리즘으로, 딥시크에서 DeepSeekMath 모델과 함께 2024년 4월에 발표한 바 있다.GRPO는 보통 정책(policy) 모델과 동일한 크기의 크리틱(critic) 모델을 두는 전통적인 강화 학습 방식과 달리, ‘그룹 점수(group scores)’를 활용하여 기준선(baseline), 즉 상대적인 보상(Advantage)을 추정함으로써 크리틱 모델을 생략하는 기법을 의미한다. 즉, DeepSeek GRPO는 강화 학습에서 정책 모델만 학습시키고, 크리틱 모델은 생략하여 연산 비용을 획기적으로 줄였다.그렇다면 GRPO는 정책 모델은 어떻게 학습시키는 걸까? 또, 크리틱.. 2025. 2. 7.
DeepSeek 정복기 [1] 강화학습(Reinforcement Learning : RL) 기초 DeepSeek를 이해하기 위해서는 강화학습에 대한 기본적인 개념 이해가 선행적으로 요구된다.강화학습에 대한 사전지식이 매우 부족한 관계로, Deepseek 논문을 이해하기 위해 필요한 강화학습 기초지식을 정리할 필요가 있었다.따라서 본 포스팅에서는 DeepSeek의 학습 원리를 이해하는 데 조금이나마 도움이 되도록, 아주 최소한의 강화학습 관련 지식을 정리하고자 한다. (나와 비슷한 처지의 사람들에게 도움이 되길 바라며...)(1) 강화학습이란?강화학습은 지도학습처럼 정답이 주어지거나 비지도학습처럼 데이터의 패턴을 찾는 것이 아니라, 에이전트가 환경과 상호작용하며 시행착오를 통해 학습하는 방식을 말한다. 강화학습의 에이전트는 각 상태에서 행동을 선택하고, 그 결과로 받는 보상을 최대화하는 방향으로 자신.. 2025. 2. 6.
논문 리뷰 | RAGAS: Automated Evaluation of Retrieval Augmented Generation(2023) - RAG 평가 프레임워크 https://arxiv.org/pdf/2309.15217 [1][2] 초록, 서론 핵심 내용RAGAS란?"Retrieval Augmented Generation Assessment"의 약자로, 검색 증강 생성(RAG) 시스템을 평가할 수 있는 프레임워크를 의미한다.RAG 평가에 있어 기존의 한계는?RAG 시스템의 성능은 여러 가지 요소(검색 모델, 데이터셋, LLM, 프롬프트 설계 등)에 따라 달라질 수 있으며, 각 요소를 최적화하는 데 시간과 노력이 필요하다.RAG 시스템은 종종 언어 모델링 과제(예: perplexity 측정)로 평가되는데하지만 이는 실제 성능을 예측하는 데 늘 적합하지는 않을 뿐더러특히 ChatGPT와 같은 closed 모델의 데이터에 접근할 수 없음다른 방법으로는 질문 응답 데이.. 2025. 1. 3.
논문 리뷰 | LLM Pruning and Distillation in Practice: The Minitron Approach(2024) - 엔비디아 https://arxiv.org/pdf/2408.11796논문 요약 : 1. 원본 LLM을 Teacher Correction을 통해 파인튜닝하여 교사 모델로 사용하고2. 또 같은 원본 LLM을 Width Pruning을 통해 경량화된 학생 모델로 사용하여3. 두 모델의 Knowledge Distillation을 통해 학생 모델을 Retrain함으로써큰 LLM을 가장 효과적으로 경량화할 수 있는 방법론 연구 (The Minitron Approach)Abstract, Introduction논문 초록과 서론의 핵심 문장은 아래와 같다.AbstractStructured pruning with knowledge distillation is a potent combination for obtaining small .. 2024. 12. 30.
논문 리뷰 | DIFFERENTIAL TRANSFORMER(2024) - 마이크로소프트 요즘 노캔기능이 대세입니다. 몇년 전까지만 해도 노캔 기능은 소니, 보스 헤드폰이 가장 인기였는데, 요즘은 에어팟과 버즈가 가장 인기가 좋은 것 같아요. 어쨌든 이 노이즈캔슬링의 원리는 생각보다 간단한데, 외부 소음과 반대되는 파형을 만들어서 더해버림으로써, 귀가 느끼는 소리가 0이 되도록 상쇄를 시켜주는 거라고 합니다.갑자기 노캔 얘기가 왜 나왔냐 하면, 이 번에 읽은 최신 논문 DIFF트랜스포머가 이 노이즈캔슬링 원리에서 모티브를 가져왔기 때문이에요. 기존의 어탠션 맵이 1개였다면, Diff-트랜스포머는 말 그대로 어탠션 맵을 2개 만들어서 그 차이 - Difference를 계산합니다. 잘못 계산되는 Attention을 상쇄시켜줄 수 있는 역할을 한다고요.https://arxiv.org/pdf/241.. 2024. 12. 4.
초등교사 의원면직 05 | AI 엔지니어가 되다 https://brunch.co.kr/@suriring/47/write 브런치스토리작품이 되는 이야기brunch.co.kr  이 글은 본인의 브런치스토리에서 가져왔습니다.   오랜만에 글을 작성합니다. 마지막으로 글을 썼던 게 3월인데, 정신없이 공부하다 보니 벌써 2024년의 절반이 훌쩍 지나고도 넘었네요. 그간 글을 꾸준하게 쓰지 못해 브런치 구독자 수가 많이 늘지는 않았지만, 그래도 유입 로그 등을 간간이 확인해 보면 의원면직을 고민하는 많은 교사, 공직자 분들께서 제 글을 읽고 가시는 듯했습니다.  올해 3월 4일 개학날 아침, 창밖의 짹짹거리는 새소리와 아이들 소리를 들으면서 눈을 떴어요. 이 중요한 날에 나는 출근하지 않아도 되니 기분이 참 묘하더군요. 저녁이 되니 속속 업데이트되는 동기들과 .. 2024. 11. 29.
ASAC 빅데이터 & AI 5기 | 마지막 회고 안녕하세요, 사이언티스트 수리링입니다. 그간 블로그에 아삭 5기 회고를 꾸준히 올려왔고, 관심 있으신 많은 분들이 글을 보고 다녀가셨는데요. 바쁜 일정을 핑계삼아 마무리 업데이트를 하지 못하고 있었습니다. 오늘은 지난 포스팅 이후 ASAC 과정과 소식에 대해 간략한 follow-up을 하면서 아삭 회고를 최종 마무리 짓고자 합니다.2024년 3월 20일자로 첫 수업을 시작했던 아삭 5기는 9월 6일을 마지막으로 종료가 되었습니다. 저는 아삭과정의 꽃인 기업연계 final 프로젝트를 시작한 7월부터 매우 적극적으로 구직활동을 펼쳤는데요. 덕분에 final 프로젝트를 마무리하고 있던 8월 초에는 4곳의 스타트업으로부터 최종 입사 오퍼를 받게 되었습니다. 구직난이 심한 요즘 빠르게 기회를 얻을 수 있었던 것을.. 2024. 11. 19.