본문 바로가기

Ai7

논문 리뷰 | Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG(2024) - 구글 클라우드 https://arxiv.org/pdf/2410.05983RAG의 성능을 어떻게 높일 수 있을까?전통적인 RAG 시스템은 정보 검색기(retriever)와 생성기(generator)로 구성되며, 정보 검색기가 적절한 정보를 찾으면 생성기가 답변을 구성하는 구조로 활용되었습니다. 그래서 대부분의 이전 연구들이 보통 검색기나 생성기의 성능 향상에 각각 초점을 맞추는 경향이 있어 왔는데요.해당 포스팅에서 리뷰할 논문은 구글 클라우드에서 발표한 2024년도 최신 연구로, LLM 기반의 RAG 시스템의 안정성을 높이기 위한 방법을 제안합니다. 기존의 기조와 다르게 리트리버나 LLM의 성능보다는, 전체 RAG 시스템을 포괄적으로 분석하면서 긴 문맥을 처리하는 LLM을 생성기로 사용하는 데서 발생하는 과제와 기회를 .. 2024. 10. 30.
딥러닝 | 효율적인 파인튜닝에 관한 고찰 - LoRA(2021) 논문 리뷰, peft, unsloth Peft는 Parameter-Efficient Fine Tuning의 약자로, 말 그대로 파인튜닝을 조금 더 효율적으로 할 수 있는 방법론을 의미합니다. Peft를 실현할 수 있는 종류에는 다양한 것들이 있는데, 가장 대표적으로 사용되는 방법 중 하나로는 LoRA(로라)가 있습니다.본 포스팅에서는 LoRA의 논문 핵심 파트를 가볍게 리뷰하고, peft와 unsloth, trl 라이브러리를 이용해서 로라방식의 LLM 파인튜닝을 직접 코드로 진행해 보겠습니다.논문LoRA는 2021년 발표된 마이크로소프트의 논문 [LoRA: Low-Rank Adaptation of Large Language Models]에서 제안한 효율적인 파인튜닝 방법입니다. 다양한 거대 모델에 적용할 수 있고, 논문에서는 언어 모델을 중.. 2024. 8. 1.
딥러닝 | U-Net(2015) 논문 리뷰 02 _ PyTorch 코드 구현 https://smartest-suri.tistory.com/49 딥러닝 | U-Net(2015) 논문 리뷰[주의] 본 포스팅은 수리링이 직접 U-Net 논문 원문을 읽고 리뷰한 내용을 담았으며, 참고 문헌이 있는 경우 출처를 명시하였습니다. 본문 내용에 틀린 부분이 있다면 댓글로 말씀해 주시고, 포스smartest-suri.tistory.com지난 번 포스팅에서 리뷰한 U-Net 논문을 파이토치를 이용한 코드로 구현한 과정을 정리해 보겠습니다.1. [연습] Class 없이 한줄씩 구현직관적인 이해를 위해서 파이토치 코드로 클래스 없이 한줄씩 유넷 구조를 구현해 보도록 하겠습니다. # 먼저 필요한 모듈을 임포트 해줍니다.import torchimport torch.nn as nnimport torchvi.. 2024. 6. 30.
딥러닝 | U-Net(2015) 논문 리뷰 [주의] 본 포스팅은 수리링이 직접 U-Net 논문 원문을 읽고 리뷰한 내용을 담았으며, 참고 문헌이 있는 경우 출처를 명시하였습니다. 본문 내용에 틀린 부분이 있다면 댓글로 말씀해 주시고, 포스팅을 출처 없이 불법 공유하지 말아주시기 바랍니다. 감사합니다.U-Net: Convolutional Networks for BiomedicalImage Segmentationhttps://arxiv.org/pdf/1505.04597이미지 세그멘테이션(image segmentation)에서 빼놓을 수 없는 근본 모델 유넷. 유넷은 픽셀 기반으로 이미지를 분할하여 구분하는 모델로, 많은 최신 모델 속에서 그 구조가 사용되며 활약하고 있습니다.유넷은 ISBI cell tracking challenge 2015 대회에서.. 2024. 6. 27.
딥러닝 | 트랜스포머(2017) 논문 리뷰 - Attention is all you need [참고] 본 포스팅은 수리링 본인이 Attention is all you need 논문을 처음부터 끝까지 직접 읽으며 분석하고 리뷰하여 작성했습니다. 불펌 절대 금지! 본문 내용에 잘못된 부분이 있다면 댓글 달아주세요.Transformer이전 포스팅에서 다루었던 LSTM과 GRU와 같은 새로운 모델들은 기존 RNN 모델의 Long-term Dependency, Exploding Gradient 문제를 해결하기 위해 고안되었었죠. 하지만 안타깝게도 근본적인 문제가 완전히 해결된 것은 아니었다고 해요. 그 이유는 RNN이나 CNN이 가지는 연쇄적인 계산구조 때문이었는데요. 따라서 Recurrent 구조가 아닌 새로운 구조의 모델로 Sequence Data를 다루고자 하는 시도가 계속되었다고 합니다. 그리고 .. 2024. 6. 21.
딥러닝 | RNN, LSTM, GRU 리뷰 포스팅 참고 문헌1. Do it! 딥러닝 교과서 (윤성진 지음)2. MIT 6.S191: Recurrent Neural Networks, Transformers, and Attention (바로가기)3. https://colah.github.io/posts/2015-08-Understanding-LSTMs/4. SK플래닛 T아카데미 강사님 수업자료RNN[1] 시퀀스 데이터흔히 '시계열 데이터', '순차 데이터'라고도 부르는 Sequence data에는 시공간적 순서 관계가 포함되어 있습니다. 예를 들어서 지금 저는 커피 한 모금을 마시고 컵을 내려놓은 뒤 타자를 치고 있고, 창 밖에는 차와 사람들이 움직이고 있으며, 옆에 있는 친구는 음악을 듣고 있어요. 이러한 일들이 일어날 때 자연스레 시간이 흐르고 .. 2024. 6. 18.