본문 바로가기

딥러닝10

논문 리뷰 | LLM Pruning and Distillation in Practice: The Minitron Approach(2024) - 엔비디아 https://arxiv.org/pdf/2408.11796논문 요약 : 1. 원본 LLM을 Teacher Correction을 통해 파인튜닝하여 교사 모델로 사용하고2. 또 같은 원본 LLM을 Width Pruning을 통해 경량화된 학생 모델로 사용하여3. 두 모델의 Knowledge Distillation을 통해 학생 모델을 Retrain함으로써큰 LLM을 가장 효과적으로 경량화할 수 있는 방법론 연구 (The Minitron Approach)Abstract, Introduction논문 초록과 서론의 핵심 문장은 아래와 같다.AbstractStructured pruning with knowledge distillation is a potent combination for obtaining small .. 2024. 12. 30.
논문 리뷰 | DIFFERENTIAL TRANSFORMER(2024) - 마이크로소프트 요즘 노캔기능이 대세입니다. 몇년 전까지만 해도 노캔 기능은 소니, 보스 헤드폰이 가장 인기였는데, 요즘은 에어팟과 버즈가 가장 인기가 좋은 것 같아요. 어쨌든 이 노이즈캔슬링의 원리는 생각보다 간단한데, 외부 소음과 반대되는 파형을 만들어서 더해버림으로써, 귀가 느끼는 소리가 0이 되도록 상쇄를 시켜주는 거라고 합니다.갑자기 노캔 얘기가 왜 나왔냐 하면, 이 번에 읽은 최신 논문 DIFF트랜스포머가 이 노이즈캔슬링 원리에서 모티브를 가져왔기 때문이에요. 기존의 어탠션 맵이 1개였다면, Diff-트랜스포머는 말 그대로 어탠션 맵을 2개 만들어서 그 차이 - Difference를 계산합니다. 잘못 계산되는 Attention을 상쇄시켜줄 수 있는 역할을 한다고요.https://arxiv.org/pdf/241.. 2024. 12. 4.
논문 리뷰 | Retrieval Augmented Generation or Long-Context LLMs? - A Comprehensive Study and Hybrid Approach(2024) - 구글 딥마인드 RAG와 LC를 사용한 LLM의 긴 문맥 응용에 대한 가이드라인을 제공하겠다는 2024 최신 연구 논문.최신 LLM의 max-token이 기하급수적으로 늘어나면서 Long-Context를 점점 더 잘 처리하고 있습니다. 예를 들어서 구글 Gemini 1.5의 경우 1백만 토큰까지 입력받을 수가 있고, LLama3.2 경량 모델의 경우 128K(12만8천) 토큰 입력이 가능합니다. 그래서 "RAG를 굳이 써야 될까?"라는 의문을 가진 사람도 있어요. RAG의 문제점이 많은데, 그냥 최신 LLM한테 문서를 통째로 주면 훨씬 더 일처리를 잘하니까 그렇죠. 그럼 RAG는 이제 쓸모가 없어질까?하는 의문도 들기 시작하고요.하지만 입출력 token의 갯수에 비용이 비례하는 현재 상황에서 여전히 RAG는 cost e.. 2024. 10. 31.
딥러닝 | BERT(2019) 논문 리뷰 (*) 본 논문 리뷰 포스팅은 수리링이 직접 BERT 논문 원문을 처음부터 끝까지 읽고 작성했습니다. 포스팅을 참고하시는 경우 반드시 출처를 밝혀주시기를 미리 부탁드립니다. 감사합니다.https://arxiv.org/pdf/1810.04805본 논문 리뷰는 BERT 원문을 직접 읽고 버트의 핵심 아이디어와 구조에 대해서 살펴봅니다. 구체적인 실험과 학습 결과, 성능 지표 등에 대한 리뷰는 생략하는 점 양해 바랍니다.초록 Abstract트랜스포머의 인코더는 Recurrent(순차) 구조 없이 입력을 '통으로' 받습니다. 따라서 입력 시퀀스의 각 위치에서 왼쪽, 오른쪽 양방향(Bidirectional) 문맥을 모두 고려할 수 있습니다.이와 반대로 디코더는 마스킹을 통해 현재 시점까지의 토큰들만을 참조하는 단.. 2024. 7. 22.
딥러닝 | Microsoft 테이블 트랜스포머 PubTables-1m(2021) 논문 리뷰 현재 수강하고 있는 SK플래닛 T아카데미 ASAC 빅데이터 분석 & AI 전문가 양성과정 5기에서 기업 연계 프로젝트를 시작했습니다. 저는 국내 딥러닝 관련 스타트업 기업 팀에 참여해서 딥러닝 프로젝트를 진행하게 되었습니다. 주제는 Table Detection인데요.이번 기업연계 프로젝트에서 저는 최신 논문을 직접 선정해서 리뷰하고 코드화, 서비스화를 할 예정입니다. 그래서 본격적인 프로젝트에 앞서, Microsoft가 2021년 발표한 PubTables-1m dataset 논문을 읽으면서 Table Detection의 전반적인 발전 흐름과 데이터 구성, 평가 지표에 대해서 짚어보는 시간을 가졌습니다.논문을 읽으면서 궁금증이 생겨 DETR(Detection Transformer) 논문도 살펴보고, 트랜스.. 2024. 7. 4.
딥러닝 | 평가지표 dice score 범위가 [0, 1]을 벗어나는 경우 (오류 해결) Dice ScoreU-Net 코드화 작업을 통해 image segmentation에서 흔히 사용되는 'dice score'라는 평가 지표와 친숙해지게 되었습니다. 다이스 스코어는 아래와 같은 수식을 통해 계산합니다.Dice Score는 Precision과 Recall 점수를 나타내는 F1-Score와 비슷합니다. 민감도와 정밀도중에 무엇이 좋고 나쁜지는 까봐야 아는 것도 똑같고요.도식화하면 위와 같은 그림으로 나타낼 수 있어요. 여기서 X와 Y는 각각 true value와 predicted value라고 생각하면 되겠습니다. Image segmentation에서 Dice score는 predicted value와 true value 간의 유사성을 측정할 수 있는 포괄적인 평가 방식인 거죠. 예측한 마스크.. 2024. 7. 2.