본문 바로가기

트랜스포머5

논문 리뷰 | DIFFERENTIAL TRANSFORMER(2024) - 마이크로소프트 요즘 노캔기능이 대세입니다. 몇년 전까지만 해도 노캔 기능은 소니, 보스 헤드폰이 가장 인기였는데, 요즘은 에어팟과 버즈가 가장 인기가 좋은 것 같아요. 어쨌든 이 노이즈캔슬링의 원리는 생각보다 간단한데, 외부 소음과 반대되는 파형을 만들어서 더해버림으로써, 귀가 느끼는 소리가 0이 되도록 상쇄를 시켜주는 거라고 합니다.갑자기 노캔 얘기가 왜 나왔냐 하면, 이 번에 읽은 최신 논문 DIFF트랜스포머가 이 노이즈캔슬링 원리에서 모티브를 가져왔기 때문이에요. 기존의 어탠션 맵이 1개였다면, Diff-트랜스포머는 말 그대로 어탠션 맵을 2개 만들어서 그 차이 - Difference를 계산합니다. 잘못 계산되는 Attention을 상쇄시켜줄 수 있는 역할을 한다고요.https://arxiv.org/pdf/241.. 2024. 12. 4.

딥러닝 | BERT(2019) 논문 리뷰 (*) 본 논문 리뷰 포스팅은 수리링이 직접 BERT 논문 원문을 처음부터 끝까지 읽고 작성했습니다. 포스팅을 참고하시는 경우 반드시 출처를 밝혀주시기를 미리 부탁드립니다. 감사합니다.https://arxiv.org/pdf/1810.04805본 논문 리뷰는 BERT 원문을 직접 읽고 버트의 핵심 아이디어와 구조에 대해서 살펴봅니다. 구체적인 실험과 학습 결과, 성능 지표 등에 대한 리뷰는 생략하는 점 양해 바랍니다.초록 Abstract트랜스포머의 인코더는 Recurrent(순차) 구조 없이 입력을 '통으로' 받습니다. 따라서 입력 시퀀스의 각 위치에서 왼쪽, 오른쪽 양방향(Bidirectional) 문맥을 모두 고려할 수 있습니다.이와 반대로 디코더는 마스킹을 통해 현재 시점까지의 토큰들만을 참조하는 단.. 2024. 7. 22.

딥러닝 | 트랜스포머 positional encoding 코드 구현 (문제 해결) 저는 현재 트랜스포머 전체 구조를 코드화하는 작업중에 있습니다.https://smartest-suri.tistory.com/48 딥러닝 | 트랜스포머(2017) 논문 리뷰 - Attention is all you need[참고] 본 포스팅은 수리링 본인이 Attention is all you need 논문을 처음부터 끝까지 직접 읽으며 분석하고 리뷰하여 작성했습니다. 불펌 절대 금지! 본문 내용에 잘못된 부분이 있다면 댓글 달아주smartest-suri.tistory.com지난 논문 리뷰에서 살펴본 바와 같이 트랜스포머는 '위치 인코딩(positional encoding)'을 통해 통으로 받은 입력에 문맥 정보를 추가하는데요. 본 포스팅에서는 포지셔널 인코딩을 파이토치로 구현하는 과정에서1. 제가 처음.. 2024. 7. 6.

딥러닝 | Transformer Huggingface 탐방, pipline 가지고 놀기(객체 탐지) Transformers지난번에 트랜스포머 논문을 처음부터 끝까지 열심히 읽고 리뷰를 포스팅했었습니다.https://smartest-suri.tistory.com/48 딥러닝 | Attention is all you need - 트랜스포머(2017) 논문 리뷰[참고] 본 포스팅은 수리링 본인이 Attention is all you need 논문을 처음부터 끝까지 직접 읽으며 분석하고 리뷰하여 작성했습니다. 불펌 절대 금지! 본문 내용에 잘못된 부분이 있다면 댓글 달아주smartest-suri.tistory.com오늘은 Transformer팀의 Huggingface 페이지를 방문해서 트랜스포머의 무궁무진한 발전가능성을 체험해보겠습니다.https://huggingface.co/docs/transformers/.. 2024. 7. 2.

딥러닝 | 트랜스포머(2017) 논문 리뷰 - Attention is all you need [참고] 본 포스팅은 수리링 본인이 Attention is all you need 논문을 처음부터 끝까지 직접 읽으며 분석하고 리뷰하여 작성했습니다. 불펌 절대 금지! 본문 내용에 잘못된 부분이 있다면 댓글 달아주세요.Transformer이전 포스팅에서 다루었던 LSTM과 GRU와 같은 새로운 모델들은 기존 RNN 모델의 Long-term Dependency, Exploding Gradient 문제를 해결하기 위해 고안되었었죠. 하지만 안타깝게도 근본적인 문제가 완전히 해결된 것은 아니었다고 해요. 그 이유는 RNN이나 CNN이 가지는 연쇄적인 계산구조 때문이었는데요. 따라서 Recurrent 구조가 아닌 새로운 구조의 모델로 Sequence Data를 다루고자 하는 시도가 계속되었다고 합니다. 그리고 .. 2024. 6. 21.

이전 1 다음

티스토리툴바