RAG와 LC를 사용한 LLM의 긴 문맥 응용에 대한 가이드라인을 제공하겠다는 2024 최신 연구 논문.

최신 LLM의 max-token이 기하급수적으로 늘어나면서 Long-Context를 점점 더 잘 처리하고 있습니다. 예를 들어서 구글 Gemini 1.5의 경우 1백만 토큰까지 입력받을 수가 있고, LLama3.2 경량 모델의 경우 128K(12만8천) 토큰 입력이 가능합니다. 그래서 "RAG를 굳이 써야 될까?"라는 의문을 가진 사람도 있어요. RAG의 문제점이 많은데, 그냥 최신 LLM한테 문서를 통째로 주면 훨씬 더 일처리를 잘하니까 그렇죠. 그럼 RAG는 이제 쓸모가 없어질까?하는 의문도 들기 시작하고요.

하지만 입출력 token의 갯수에 비용이 비례하는 현재 상황에서 여전히 RAG는 cost efficiently하다는 커다란 메리트를 가지고 있고, 그래서 사람들은 연구개발을 계속하고 있습니다. 

이러한 상황 속에서, 이 논문은 RAG와 Long-Context (LC) LLM을 포괄적으로 비교하여 각각의 장점을 활용할 수 있는 SELF-ROUTE라는 방법을 제안합니다.


바쁘신 분은 맨 아래
'논문 핵심 요약'만 보세요.

Abstract

We benchmark RAG and LC across various public datasets using three latest LLMs. Results reveal that when resourced sufficiently, LC consistently outperforms RAG in terms of average performance. However, RAG’s significantly lower cost remains a distinct advantage.

세 가지 최신 LLM을 사용하여 다양한 공개 데이터셋에서 RAG와 LC를 벤치마크한 결과, 충분한 자원이 있을 때 LC가 평균 성능 면에서 RAG를 일관되게 능가한다는 것을 확인, 그러나 RAG의 훨씬 낮은 비용은 여전히 독특한 이점

Based on this observation, we propose SELF-ROUTE, a simple yet effective method that routes queries to RAG or LC based on model self-reflection. SELFROUTE significantly reduces the computation cost while maintaining a comparable performance to LC.

이러한 관찰을 바탕으로, 저자들은 모델의 자체 반성을 통해 RAG나 LC로 쿼리를 라우팅하는 간단하면서도 효과적인 방법인 SELF-ROUTE를 제안. SELF-ROUTE는 계산 비용을 크게 줄이면서 LC와 유사한 성능을 유지함.


1 Introduction

Therefore, we are motivated to compare RAG and LC, evaluating both their performance and efficiency. (중략...) we find that LC consistently outperform RAG in almost all settings (when resourced sufficiently).

요즘 LLM의 max token이 기하급수적으로 늘어나면서, RAG와 Long-Context LLM을 성능과 효율성 면에서 비교하고 싶었다고 함. 그래서 비교를 해 봤더니, RAG를 쓰는 것보다, 그냥 LLM한테 통으로 문서를 줬을 때 오히려 성능이 훨씬 더 좋게 나왔다.

Despite the suboptimal performance, RAG remains relevant due to its significantly lower computational cost. In contrast to LC, RAG significantly decreases the input length to LLMs, leading to reduced costs, as LLM API pricing is typically based on the number of input tokens. Moreover, our analysis reveals that the predictions from LC and RAG are identical for over 60% of queries. For these queries, RAG can reduce cost without sacrificing performance.

그치만 RAG를 쓰면 입력 토큰이 확 줄어들기 때문에 비용 면에서 무척 효율적이라는 장점은 무시할수가 없는데, 연구를 통해 Long Context LLM과 RAG의 답변이 60%가량 일치한다는 사실을 발견했고, 연구진들은 이 정도면 RAG의 답변도 상당히 수준급이라고 생각한 모양. 이 정도면 비용 절감을 고려했을 때 RAG는 여전히 메리트 있다는 것.

[Figure 1]을 보면 LC(Long Context LLM), RAG를 붙인 LLM, 그리고 저자들이 제안하는 Self-Route의 성능과 비용을 최신 LLM 모델별로 비교할 수가 있다. LC가 가장 비싸고 성능이 좋으며, RAG를 붙인 LLM은 싸지만 성능이 LC의 60%정도 수준이고, Self-Route는 비용이 그 중간 어디쯤에 있으며 성능은 LC에 준한다는 것.

Our analysis serves as a starting point, inspiring future improvements of RAG, and as a empirical guide for building longcontext applications using RAG and LC.

본인의 연구가 RAG의 향후 개선을 위한 출발점이자, RAG와 LC를 사용한 long-context 처리에 경험적인 가이드로서의 역할을 하기를 바란다고 함.


2 Related Work

입력 토큰 수가 많을수록 계산 비용이 기하급수적으로 증가하는 Transformer 구조의 한계 - 이를 해결하기 위해 프롬프트 압축, 모델 디스틸레이션, 단계별 모델 사용 등의 방법이 제안되어 왔음. 이후 Retrieval Augmented Generation (RAG)가 제안되었고, 최근에는 RAG의 정확성을 높이기 위해 검색 과정에 교정, 비판, 검증, 적응적 검색을 추가하는 방식이 연구됨.

Long-Context를 처리하는 LLM의 능력 평가를 위해 "LongBench", "∞Bench"와 같은 다양한 벤치마크가 제안되었으며, 이들 벤치마크는 여러 언어와 다양한 데이터셋을 포함해 긴 문맥에서의 모델 성능을 종합적으로 평가하도록 설계됨.

기존 연구에서 RAG와 LC를 비교한 결과, LC 모델이 RAG를 능가한다는 결론을 도출한 바 있음. 이 논문에서는 더 강력한 최신 LLM과 더 긴 문맥을 고려하여 다른 결과를 도출하고자 함. (Self-Route로 그 사이 절충안을 제시하는 것)


3 Benchmarking RAG versus LC

3.1 Datasets and metrics

평가 데이터

  • LongBench - 21개의 데이터셋으로 구성, 평균 7천 개의 단어 포함
  • ∞Bench - 더 긴 문맥을 포함해 평균 10만 개의 토큰을 포함
  • 연구는 영어로 된 실제 데이터를 중심으로 하고, LongBench와 ∞Bench중에서 쿼리가 포함된 데이터셋만 사용하여 총 9개의 데이터셋을 평가에 사용

평가 지표(evaluation metrics)

  • open-ended QA tasks - F1
  • multichoice QA tasks - Accuracy
  • summarization tasks - ROUGE

3.2 Models and Retrievers

  • 세 가지 최신 LLM인 Gemini-1.5-Pro, GPT-4O, GPT-3.5-Turbo를 평가에 사용했으며 Retriever는 Contriever와 Dragon을 사용(청킹:300단어/top-5선택)
최신 모델을 써서 굉장히 마음에 든다

3.3 Benchmarking results

  • 세 모델 모두에서 LC가 RAG보다 우수한 성능을 보였으며 특히 최신 모델일수록 성능 차이가 두드러졌음 - 이는 최신 LLM이 긴 문맥을 이해하는 능력이 뛰어나다는 것을 보여줌
  • 다만, ∞Bench의 두 긴 문맥 데이터셋에서는 GPT-3.5-Turbo에서 RAG가 LC보다 우수한 성능을 보여 예외적인 결과를 보임 - 이는 이 데이터셋이 평균 147,000 단어로 이루어져 있어 모델의 최대 입력 크기를 크게 초과했기 때문

4 Self-Route

4.1 Motivation

 

X축은 RAG와 LC의 예측 점수 차이(𝑆_{RAG} - 𝑆_{LC})를 나타내며, 0을 기준으로 왼쪽은 LC 점수가 더 높고, 오른쪽은 RAG 점수가 더 높은 경우를 의미

그래프는 X축의 0에 상당히 집중되어 있어, 대다수의 쿼리에 대해 두 모델의 예측이 유사하게 나타난다는 것을 확인할 수 있음 - RAG and LC predictions are highly identical, for both correct and incorrect ones - 맞는 답변도 틀린 답변도 상당히 유사하다고 함

이러한 관찰을 통해 저자들은 대부분의 쿼리에 대해 비용 효율적인 RAG를 활용하고, RAG가 성능을 발휘하지 못하는 소수의 쿼리에만 LC를 적용하는 방식의 필요성을 느낌 - 이를 통해 전체 성능을 유지하면서도 계산 비용을 크게 절감할 수 있을 것으로 기대


4.2 Self-Route

SELF-ROUTE는 LLM 자체가 제공된 문맥을 통해 질문에 답할 수 있는지 스스로 반성하는 방식으로 쿼리를 라우팅 (SELF-ROUTE utilizes LLM itself to route queries based on self-reflection) - Self-Route는 아래 2단계로 작동함.

  1. RAG-and-Route 단계
    • 쿼리와 검색된 청크들을 LLM에 제공하고, 쿼리에 답변할 수 있는지 여부를 예측하도록 요청
    • 만약 답변할 수 있다면, 답변을 생성
    • 일반적인 RAG와 차이점 : LLM은 다음의 프롬프트를 통해 답변을 거부할 수 있는 옵션을 가짐
      (
      given the option to decline answering)
      • “Write unanswerable if the query can not be answered based on the provided text”.
      • "제공된 텍스트에 기반해 쿼리를 답변할 수 없다면 'unanswerable'을 출력해라."
    • 답변이 가능하다고 판단된 쿼리들에 대해서는 RAG 예측을 최종 답변으로 수락함
    • 답변이 불가능하다고 판단된 쿼리들에 대해서는 두 번째 단계로 진행하여, 긴 문맥 LLM을 사용하여 최종 예측을 얻습니다. (providing the full context to the long-context LLMs to obtain the final prediction)
    • 대부분의 쿼리는 1단계에서 해결 가능 (e.g., 82% for Gemini-1.5-Pro)
  2. LC 예측 단계
    • 1단계에서 "답변 불가"로 분류된 쿼리에 대해서는 긴 문맥 LLM에 전체 문맥을 제공하여 답변을 생성

  1.  

4.3 Results

Table 1

모든 모델이 쿼리의 절반 이상을 RAG로 라우팅했으며, Gemini-1.5-Pro의 경우 응답 가능 비율이 81.74%에 달했음 → 이는 대부분의 쿼리를 LC 없이 RAG로 응답할 수 있음을 의미함함

높은 응답 가능 비율 덕분에 사용된 토큰 수가 크게 감소 (Table 1에서 1-5, 2-5, 3-5 token% 부분 확인)


5 Analysis

5.1 Ablations of k

RAG와 SELF-ROUTE는 쿼리 시 최상위 k개의 텍스트 청크를 검색하여 사용하는데, k 값이 증가할수록 성능이 향상되지만, 비용도 함께 증가함. 해당 연구의 경우 k=5에서 비용이 최소화 되었지만, 맡은 task와 dataset에 따라 이 부분은 직접 실험해야 할듯.

5.3 Different retrievers

연구에서 사용한 검색기 Contriever와 Dragon 모두에 대해 일관된 결과가 나왔음


논문 핵심 요약

  1. RAG를 쓰되, 답을 찾을 수 없는 경우에는 ‘unanswerable’이라고 답하도록 프롬프팅을 함. (1단계) ⭐
    • 1단계에서 ‘unanswerable’을 뱉는 경우는 많지 않음. 모든 모델이 쿼리의 절반 이상을 RAG로 라우팅했으며, Gemini-1.5-Pro의 경우 응답 가능 비율이 81.74%에 달했음.
  2. 만약 unanswerable이 출력되면? 리트리버로 검색된 context가 아닌 전체 full context를 LLM에게 던짐. (2단계)
    • 그러니까 1차적으로는 일반적인 RAG를 쓰고, RAG가 제대로 안 돌아가는 경우에만 2단계로 가는 것
  3. 요즘 LLM max token이 기하급수적으로 늘어서 이게 가능함. 확인해 보니 사실 RAG를 안 쓰는게 오히려 성능은 더 좋음. 다만 이렇게 하는 이유는 RAG를 썼을 때 input token 수가 확 줄어들면서 cost friendly하기 때문이다.

(*) 본 논문 리뷰 포스팅은 수리링이 직접 BERT 논문 원문을 처음부터 끝까지 읽고 작성했습니다. 포스팅을 참고하시는 경우 반드시 출처를 밝혀주시기를 미리 부탁드립니다. 감사합니다.

https://arxiv.org/pdf/1810.04805

본 논문 리뷰는 BERT 원문을 직접 읽고 버트의 핵심 아이디어와 구조에 대해서 살펴봅니다. 구체적인 실험과 학습 결과, 성능 지표 등에 대한 리뷰는 생략하는 점 양해 바랍니다.


초록 Abstract

  • 트랜스포머의 인코더는 Recurrent(순차) 구조 없이 입력을 '통으로' 받습니다. 따라서 입력 시퀀스의 각 위치에서 왼쪽, 오른쪽 양방향(Bidirectional) 문맥을 모두 고려할 수 있습니다.
  • 이와 반대로 디코더는 마스킹을 통해 현재 시점까지의 토큰들만을 참조하는 단방향(unidirectional)으로 작동합니다. 

BERT는 Bidirectional Encoder Representations from Transformers의 약자로, 이름에서도 알 수 있듯 트랜스포머의 '인코더'에만 집중한 모델입니다. 따라서 양방향(Bidirectional) 문맥을 고려하여 언어를 잘 이해하도록 학습(pre-train)이 되었습니다. 

이 때 BERT의 R(Representation)은 무슨 의미일까요? NLP 태스크에서 자주 언급되는 Word Representation은 인간의 언어를 다차원 벡터로 표현하여 컴퓨터가 이해할 수 있게 하는 작업이나 그 결과물을 의미합니다. BERT의 R(Representation) 역시 입력된 단어나 문장의 의미를 벡터 형태로 표현하여 모델이 해당 언어의 문맥과 의미를 이해할 수 있도록 하는 작업을 포함합니다. 본 포스팅에서는 따로 '표현'이라는 한국어로 직역하지 않고 그대로 reperesentation으로 표기할 것임을 미리 밝히겠습니다.

BERT is designed to pre-train deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT model can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inferences, without substantial task-specific modifications.

초록에서는 BERT가 모든 레이어에서 deep한 bidirectional representations을 학습하기 위해 고안되었으며, 사전 학습이 완료된 BERT 모델에 딱 1개의 output layer만 추가해서 파인튜닝이 가능할 정도로 '파인튜닝이 쉽고 용이하다'고 강조하고 있습니다. 이를 통해 QA(Question-Answering)이나 Langue Inferences과 같은 다양한 작업을 수행할 수 있는 것이죠 :-)



1 서론 Introduction

There are two existing strategies for applying pre-trained language representations to downstream tasks: feature-based and fine-tuning. .... (중략) they use unidirectional language models to learn general language representations. We argue that current techniques restrict the power of the pre-trained representations, especially for the fine-tuning approaches. 

사전 학습된 언어 representation을 다운스트림 작업에 적용하는 두 가지 기존 전략으로는 특징(feature-based) 기반 접근법과 파인튜닝 접근법이 있습니다.

  • 딥러닝에서 다운스트림 태스크(downstream tasks)는 특히 사전 학습(pre-trained)된 모델에 Transfer Learning/Fine Tuning을 통해 수행하고자 하는 구체적인 하위 작업을 뜻합니다. 예를 들어, 자연어 처리 분야에서는 텍스트 분류, 감정 분석, 명명된 개체 인식(NER), 질문 응답(QA) 등이 다운스트림 작업에 해당할 수 있겠죠.
  • Feature-based 방법은 사전 학습된 언어 모델을 사용하여 텍스트 데이터를 처리한 후, 그 결과로 나온 특징(feature) 벡터를 다른 기계 학습 모델에 입력으로 사용하는 방법입니다. 따라서 전체 과정이 하나의 모델로 통합되어 한 번에 학습되고 예측되는 end-to-end 방식이라고 볼 수 없습니다. (대표적으로 ELMo)
  • Fine-tuning 방법은 사전 학습된 언어 모델을 특정 작업에 맞게 추가 학습시켜 사용하는 방식으로, 전체 과정을 하나의 모델로 통합하여 end-to-end 방식으로 학습과 예측을 수행합니다. (대표적으로 OpenAI GPT)

논문에서는 ELMo나 GPT같은 기존의 모델이 representation을 학습하기 위해 unidirectional - 단방향 언어모델을 사용하면서 사전 학습된 representation을 온전히 활용하지 못했고, 그래서 특히 파인튜닝 단계에서 문제가 많았다고 지적합니다.

부록 Figure 3.

The major limitation is that standard language models are unidirectional, and this limits the choice of architectures that can be used during pre-training. For example, in OpenAI GPT, the authors use a left-to-right architecture, where every token can only attend to previous tokens in the self-attention layers of the Transformer (Vaswani et al., 2017). Such restrictions are sub-optimal for sentence-level tasks, and could be very harmful when applying fine-tuning based approaches to token-level tasks such as question answering, where it is crucial to incorporate context from both directions.

단방향 모델은 문맥의 일부만을 참조할 수 있습니다. 예를 들어, OpenAI GPT는 디코더 특화 모델로, 자신의 이전 토큰까지만 참조할 수 있는 좌->우 단방향 아키텍처를 사용하여 출력을 생성하는 특징이 있습니다.

  • 예를 들어 GPT가 QA(Question-Answering) 작업을 수행한다고 해 봅시다. QA 작업에서는 질문(Q)을 받아 문서(Context)의 어느 부분이 정답에 해당하는지를 알아내야 하고, 이 과정에서 정답의 앞뒤 문맥이 모두 중요하게 고려되어야 합니다. 하지만 GPT는 문서를 왼쪽->오른쪽 단방향으로만 읽기 때문에, 정답의 뒷부분에 있는 중요한 정보를 참조하기 어렵습니다. 따라서 QA 작업을 위한 fine-tuning을 수행할 때 전체 문맥을 이해하는 데 어려움이 있을 것이고, 그만큼 정확한 답을 찾아내도록 fine-tuning이 어려울 수 있다는 것이죠.

대놓고 OpenAI 저격하는거 꿀잼...

In this paper, we improve the fine-tuning based approaches by proposing BERT: Bidirectional Encoder Representations from Transformers. (중략) The masked language model randomly masks some of the tokens from the input, and the objective is to predict the original vocabulary id of the masked word based only on its context. Unlike left-to-right language model pre-training, the MLM objective enables the representation to fuse the left and the right context, which allows us to pretrain a deep bidirectional Transformer.

In addition to the masked language model, we also use a “next sentence prediction” task that jointly pre-trains text-pair representations.

본 논문은 BERT를 통해 파인튜닝 기반 접근법을 개선하는데, 대표적으로 "MLM(Masked Language Model)"을 도입합니다.

  1. 입력 토큰에서 무작위로 마스킹을 한 다음,
  2. '양방향' 문맥을 고려하여 마스킹한 부분을 예측하도록 학습을 시킵니다.
  3. deep한 스트럭처를 실현합니다.

또한 BERT는 MLM 외에도 텍스트 쌍 표현을 공동으로 사전 학습하는 "NSP(Next Sentence Prediction)"를 함께 사용합니다.



3 버트 BERT

BERT는 크게 pre-training과 fine-tuning의 2스텝으로 이루어져 있는데요.

During pre-training, the model is trained on unlabeled data over different pre-training tasks.

For finetuning, the BERT model is first initialized with the pre-trained parameters, and all of the parameters are fine-tuned using labeled data from the downstream tasks. Each downstream task has separate fine-tuned models, even though they are initialized with the same pre-trained parameters. 
  1. 우선 버트는 라벨이 따로 없는 데이터로 '비지도 학습'을 통해 사전 학습(pre-training)을 합니다.
  2. 다음 파인튜닝 단계에서는 라벨이 있는 데이터로 '지도 학습'을 하면서 사전에 학습한 파라미터 전체를 업데이트하게 됩니다. 나의 다운스트림 태스크가 무엇이냐에 따라서 사용하는 데이터도 다를거고, 당연히 그에 따라 업데이트 되는 파라미터 값도 달라지겠죠.
A distinctive feature of BERT is its unified architecture across different tasks. There is minimal difference between the pre-trained architecture and the final downstream architecture.

BERT는 초록에서 살펴본 바와 같이 fine-tuned with just one additional output layer : 단 하나의 아웃풋 레이어만 추가해서 파인튜닝을 합니다. 그래서 다운스트림 태스크에 따른 파인튜닝 전후에 구조 차이가 거의 없는 편이고, 그만큼 다양한 NLP 작업에서 일관된 성능을 발휘할 수 있는 장점이 있습니다.

We primarily report results on two model sizes: BERT BASE (L=12, H=768, A=12, Total Parameters=110M) and BERT LARGE (L=24, H=1024, A=16, Total Parameters=340M).

버트에는 크게 두가지 사이즈의 모델이 있어요.

  • BERT BASE
    • 768차원(H)을 12개의 벡터로 나눠서(64차원씩) 멀티헤드 어텐션수행(A)
    • 인코더 블록 총 12번 반복(L)
  • BERT LARGE
    • 1024차원(H)을 16개의 벡터로 나눠서(64차원씩)멀티헤드 어텐션수행(A)
    • 인코더 블록 총 24번 반복(L)

바닐라 트랜스포머가 512차원을 8개의 벡터로 나눠서(64차원씩) 멀티헤드 어텐션 수행, 인코더 블록을 총 6번 반복(후 디코더를 사용)했던 것과 비교하면 버트는 그보다 훨씬 더 deep한 인코더를 구성했다고 볼 수 있고, 이로 인해 버트는 문맥 정보를 더욱 깊이 학습하게 되어 다양한 NLP작업에서 높은 성능을 발휘할 수 있게 됩니다. 논문 초록에서 BERT가 deep한 bidirectional(both left and right) representations을 학습하도록 고안되었다고 한 이유를 여기서 찾아볼 수 있겠네요.

BERT BASE was chosen to have the same model size as OpenAI GPT for comparison purposes. Critically, however, the BERT Transformer uses bidirectional self-attention, while the GPT Transformer uses constrained self-attention where every token can only attend to context to its left.

논문에서 계속 OPENAI GPT와의 비교를 하면서 우리는 양방향이고 쟤네는 단방향이라 우리가 더 좋다!는 뉘앙스의 문장이 빈번하게 나오는데요. (ㅋㅋㅋㅋ) BERT와 GPT는 애초에 타겟하는 목적이 다르기 때문에, 무엇이 더 좋고 나쁘다고 비교할 문제는 아닌것 같고, 저는 각자가 목적에 맞는 구조를 알맞게 잘 선택한 것으로 이해했습니다.


[CLS] is a special symbol added in front of every input example, and [SEP] is a special separator token.

To make BERT handle a variety of down-stream tasks, our input representation is able to unambiguously represent both a single sentence and a pair of sentences (e.g., h Question, Answeri) in one token sequence. We use WordPiece embeddings (Wu et al., 2016) with a 30,000 token vocabulary.

BERT는 fine-tuning을 통해 다양한 다운스트림 task를 수행할 수 있도록 input representation으로 하나의 문장(a single sentence)을 받을 수도 있고, 한 쌍의 문장(a pair of sentence)을 받을 수도 있도록 설계되었습니다. 토큰 임베딩을 위해서는 30,000개의 토큰 어휘를 가진 WordPiece 임베딩(Wu et al., 2016)을 사용하구요.

The first token of every sequence is always a special classification token ([CLS]). The final hidden state corresponding to this token is used as the aggregate sequence representation for classification tasks. Sentence pairs are packed together into a single sequence. We differentiate the sentences in two ways. First, we separate them with a special token ([SEP]). Second, we add a learned embedding to every token indicating whether it belongs to sentence A or sentence B. 

모든 시퀀스는 다음과 같이 구성되어 있습니다.

  • 첫 번째 토큰 : 분류 작업에 필요한 토큰 [CLS]
  • 첫 번째 문장(A) 토큰 
  • 가운데 [SEP] 토큰 : 두 문장을 구분하는 역할
  • 두 번째 문장(B) 토큰
  • 마지막 [SEP] 토큰 : 시퀀스의 끝을 알려주는 역할

이 때 각 토큰이 문장 A에 속하는지 B에 속하는지 구별할 수 있는 Segment Embeddings 작업이 추가 수행됩니다. 아래 Figure 2에서 이 부분을 조금더 시각화해서 살펴볼 수 있습니다. 

트랜스포머가 Token Embedding과 Positional Encoding 정보를 더해서 입력값을 완성하는 것에서 나아가 BERT는 Segment Embeddings까지 한 번 더 더해주게 됩니다. [SEP] 토큰을 기준으로 각 토큰이 문장 A에 속하는지 B에 속하는지를 구분하는 것이죠.

이 작업은 이어서 자세히 살펴볼 문장 예측(NSP)을 위해 사용됩니다.


3-1. Pre-training BERT

BERT의 Pre-training의 핵심 unsupervised-task, MLM과 NSP를 살펴봅시다. 

[1] Masked LM(MLM) : 마스킹된 언어 모델

In order to train a deep bidirectional representation, we simply mask some percentage of the input tokens at random, and then predict those masked tokens. (중략) In all of our experiments, we mask 15% of all WordPiece tokens in each sequence at random. In contrast to denoising auto-encoders (Vincent et al., 2008), we only predict the masked words rather than reconstructing the entire input.

MLM은 deep bidirectional representation을 가능하게 하기 위해서 input tokens의 15%를 무작위로 랜덤 마스킹하고, 그 부분을 예측하도록 학습을 시키는 과정을 의미합니다.

Although this allows us to obtain a bidirectional pre-trained model, a downside is that we are creating a mismatch between pre-training and fine-tuning, since the [MASK] token does not appear during fine-tuning. To mitigate this, we do not always replace “masked” words with the actual [MASK] token.

The training data generator chooses 15% of the token positions at random for prediction. If the i-th token is chosen, we replace the i-th token with (1) the [MASK] token 80% of the time (2) a random token 10% of the time (3) the unchanged i-th token 10% of the time. 

그런데, 문제가 있습니다. 우리가 downstream 태스크를 위해 BERT를 파인튜닝할 때, 파인튜닝용으로 준비한 데이터에 15%를 지켜 마스킹이 준비되어있기는 아무래도 어렵겠죠. 따라서 pre-training data와 fine-tuning 데이터가 서로 일치하지 않는 문제점이 발생할 수가 있습니다.

  1. 따라서 버트는 input tokens의 15%를 무작위로 선택한 다음, 선택된 i번째 토큰을
  2. 80% 확률로 진짜 마스크 토큰([MASK])으로 대체합니다. 예를 들어 '감자'를 [MASK]로 대체하고 이를 예측하도록 학습시킵니다.
  3. 10% 확률로 무작위 토큰으로 대체합니다. 예를 들어 '감자'를 '생선'으로 바꾸어 버립니다.
  4. 10% 확률로 원래 토큰을 그대로 둡니다. 예를 들어 '감자'를 그냥 그대로 '감자'로 둡니다.

부록 A - Additional Details for BERT

The advantage of this procedure is that the Transformer encoder does not know which words it will be asked to predict or which have been replaced by random words, so it is forced to keep a distributional contextual representation of every input token.

부록에 따르면 이러한 방법을 사용함으로써 인코더가 예측할 단어나 무작위로 대체된 단어를 알지 못해, 모든 입력 토큰의 문맥을 이해하도록 상황이 강제되는 이점이 있다고 합니다. 즉, 항상 [MASK] 토큰에만 의존하지 않고 문맥을 기반으로 예측할 수 있는 능력을 기르고, 파인튜닝 데이터에 [MASK] 토큰이 등장하지 않아도 문제가 없도록 설계한 것입니다.


[2] Next Sentence Prediction(NSP) : 다음 문장 예측

Many important downstream tasks such as Question Answering (QA) and Natural Language Inference (NLI) are based on understanding the relationship between two sentences, which is not directly captured by language modeling.

질의응답(QA)나 자연어 추론(NLI) 같은 작업에서는 '두 문장의 관계'를 파악할 필요성이 있습니다. 그런데 기존의 language modeling은 주로 다음 단어를 예측하거나, 문장 내에서 단어의 순서와 패턴을 학습하는 등의 작업을 중점적으로 수행합니다. 두 문장 사이의 관계를 파악하는 것과는 거리가 멀죠. 그래서 BERT는 QA나 NLI같은 다양한 downstream task를 수행할 수 있도록, 모델이 두 문장 사이의 관계를 파악할 수 있도록 pre-train을 시켰습니다.

In order to train a model that understands sentence relationships, we pre-train for a binarized next sentence prediction task that can be trivially generated from any monolingual corpus.

BERT에서 NSP(Next Sentence Prediction)는 입력 시퀀스 내에서 문장 A와 문장 B가 서로 연속된 문장인지 아닌지를 판단하는 이진 분류(binary classification) 작업입니다. 주어진 두 문장이 실제로 연속된 문장(True)인지, 아니면 무작위로 선택된 다른 문장(False)인지를 예측합니다. NSP는 monolingual corpus(단일 언어 코퍼스) - 한 가지 언어로 된 텍스트 데이터 집합 내에서 학습이 가능합니다.

이 때, 앞서 살펴본 [CLS] 토큰이 바로 다음 문장 예측(NSP)에 사용되는 토큰이구요. MLM의 경우 입력 시퀀스 내에서 선택된 15%의 토큰이 80%의 확률로 마스킹되지만, NSP의 경우 모든 입력 시퀀스에 대해서 100% 수행이 됩니다.

Specifically, when choosing the sentences A and B for each pretraining example, 50% of the time B is the actual next sentence that follows A (labeled as IsNext), and 50% of the time it is a random sentence from the corpus (labeled as NotNext). As we show in Figure 1, C is used for next sentence prediction (NSP).5 Despite its simplicity, we demonstrate in Section 5.1 that pre-training towards this task is very beneficial to both QA and NLI.
  • 50%의 입력 시퀀스는 실제로 문장 A와 문장 B가 연속된 문장으로 구성되며, 레이블 IsNext(True)를 가집니다.
  • 나머지 50%의 입력 시퀀스는 무작위로 선택된 문장으로 구성되며, 레이블 NotNext(False)를 가집니다.

부록 A - Additional Details for BERT

어찌 보면 굉장히 단순한 작업이지만, NSP 작업을 통해 BERT는 두 문장 간의 관계를 이해하는 능력을 학습하게 되고, 이로 인해 QA(Question Answering)나 NLI(Natural Language Inference)와 같은 다운스트림 작업을 더 잘 수행하게 된다고 하네요.

The NSP task is closely related to representationlearning objectives used in Jernite et al. (2017) and Logeswaran and Lee (2018). However, in prior work, only sentence embeddings are transferred to down-stream tasks, where BERT transfers all parameters to initialize end-task model parameters

이 부분은 - BERT의 NSP task가 이전 연구 (Jernite et al., 2017; Logeswaran and Lee, 2018)에서 영감을 받기는 했지만, 두 문장 사이의 관계를 파악하도록 CLI 토큰을 사용한 것은 BERT의 독창적인 아이디어다 - 정도로 이해하고 넘어가겠습니다.


3-2. Fine-tuning BERT

For each task, we simply plug in the task-specific inputs and outputs into BERT and finetune all the parameters end-to-end.

BERT의 파인튜닝(fine-tuning)은 사전 학습된 모델의 모든 파라미터를 end-to-end 방식으로 업데이트합니다.

At the input, sentence A and sentence B from pre-training are analogous to
(1) sentence pairs in paraphrasing,
(2) hypothesis-premise pairs in entailment,
(3) question-passage pairs in question answering, and
(4) a degenerate text-∅ pair in text classification or sequence tagging.

BERT의 사전 학습에서 사용된 문장 A와 문장 B의 구조는 파인튜닝을 통해 다양한 다운스트림 작업에 적용될 수 있어요. 예를 들어서,

  • Paraphrasing: 두 문장이 서로 같은 의미를 전달하는지 평가할 수 있습니다.
  • Entailment: 문장 A는 가설(hypothesis), 문장 B는 전제(premise)일 때, 이 두 문장이 포함 관계에 있는지 판단할 수 있습니다.
  • Question Answering: 문장 A는 질문(question), 문장 B는 답변을 포함한 문맥(context)일 때, 문맥에서 질문에 대한 답을 찾는 질의응답 작업을 수행할 수 있습니다.
  • Text Classification or Sequence Tagging: 문장 A는 텍스트, 문장 B는 빈 값(∅)일 때, 단일 문장 분류 작업이나 시퀀스 태깅 작업을 수행할 수 있습니다.

At the output, the token representations are fed into an output layer for tokenlevel tasks, such as sequence tagging or question answering, and the [CLS] representation is fed into an output layer for classification, such as entailment or sentiment analysis.

출력 단계에서는 2가지 작업이 이루어집니다.

  1. Token-Level Tasks (토큰 레벨 작업)
    • 입력 시퀀스의 각 토큰에 대해 BERT는 벡터 representation을 생성하고, 이 벡터는 각 토큰의 의미와 문맥 정보를 담고 있습니다. 이 representation이 출력 레이어로 전달되면  Sequence Tagging (시퀀스 태깅)이나 Question Answering (질문 응답) 등의 다운스트림 태스크를 수행할 수 있습니다.
      • Sequence Tagging (시퀀스 태깅): 예를 들어, 입력 문장에서 각 단어를 명사, 동사 등으로 태깅하는 작업입니다. "I am eating an apple"라는 문장이 주어지면, 각 단어에 대해 'I: PRON', 'am: VERB', 'eating: VERB', 'an: DET', 'apple: NOUN'와 같이 태깅합니다.
      • Question Answering (질문 응답): 문맥 내에서 질문에 대한 답을 찾는 작업입니다. 예를 들어,  "What is the color of the sky?"라는 질문이 주어졌을 때, "The sky is blue"라는 문맥에서 "blue"라는 단어를 찾아내는 작업입니다.
  2. Sentence-Level Tasks (문장 레벨 작업)
    • BERT에서 입력 시퀀스의 첫 번째 토큰인 [CLS] 토큰이 벡터로 변환되고, 이 벡터는 입력 시퀀스 전체를 대표하는 의미를 담고 있습니다. 이 CLS representation이 출력 레이어로 전달되면 entailment 또는 sentiment analysis 등의 문장 전체에 대한 예측을 수행할 수 있습니다.
      • Entailment (포함 관계 판단): 두 문장이 포함 관계에 있는지 판단하는 작업입니다. 예를 들어, "The cat is on the mat" (전제)와 "There is a cat on the mat" (가설)가 주어졌을 때, 포함 관계(True/False)를 예측합니다.
      • Sentiment Analysis (감정 분석): 입력 문장의 감정이 긍정적인지 부정적인지 분류하는 작업입니다. 예를 들어, "I love this movie"라는 문장이 주어졌을 때, 감정이 긍정적인지 부정적인지 예측합니다.
Compared to pre-training, fine-tuning is relatively inexpensive. 

사전 학습에 비해 파인튜닝은 상대적으로 굉장히 비용 효율적이고, 논문의 모든 결과는 단일 Cloud TPU에서 최대 1시간, GPU에서는 몇 시간 내에 재현할 수 있다고 하네요.



마무리

BERT 논문을 리뷰하면서 언어 모델의 사전 학습과 전이 학습이 자연어 처리에서 얼마나 중요한 역할을 하는지 깊이 이해할 수 있었습니다. 특히, BERT가 문맥을 이해하는 인코더를 구현하기 위해 양방향 아키텍처, MLM, NSP 작업을 적절히 고안하고 배치한 점이 무척 인상깊었어요. 자본과 기술력 뿐만 아니라 창의적이고 새로운 아이디어로 인공지능 혁신을 이어가는 모델들을 리뷰할 때마다 경이로움을 느끼게 됩니다.

저는 Long-Context를 처리해야 하는 LLM / QA task 솔루션 개발이라는 과제를 맡으면서 버트 논문을 리뷰하게 되었는데요. 최신 QA task들은 Long-Context를 처리하기 위해 버트 기반의 인코더 중심 모델뿐만 아니라 RAG 기술을 적용한 GPT 기반 디코더 중심 모델을 사용하고 있기도 한다는 사실을 알았습니다. 따라서 다음 논문 리뷰로는 OpenAI의 ChatGPT 초기 모델을 선정하여 구조를 파악해보려고 합니다. 

이것으로 BERT 논문 리뷰를 마치겠습니다. 읽어주셔서 감사합니다 :-)

현재 수강하고 있는 SK플래닛 T아카데미 ASAC 빅데이터 분석 & AI 전문가 양성과정 5기에서 기업 연계 프로젝트를 시작했습니다. 저는 국내 딥러닝 관련 스타트업 기업 팀에 참여해서 딥러닝 프로젝트를 진행하게 되었습니다. 주제는 Table Detection인데요.

이번 기업연계 프로젝트에서 저는 최신 논문을 직접 선정해서 리뷰하고 코드화, 서비스화를 할 예정입니다. 그래서 본격적인 프로젝트에 앞서, Microsoft가 2021년 발표한 PubTables-1m dataset 논문을 읽으면서 Table Detection의 전반적인 발전 흐름과 데이터 구성, 평가 지표에 대해서 짚어보는 시간을 가졌습니다.

논문을 읽으면서 궁금증이 생겨 DETR(Detection Transformer) 논문도 살펴보고, 트랜스포머 허깅페이스를 방문해 객체 탐지 pipeline으로 여러 가지 실험을 해보기도 했는데요. ( 포스팅 : https://smartest-suri.tistory.com/52  ) 이렇게 논문을 기반으로 딥러닝을 연구하고 아이디어를 확장해나가는 것이 되게..... 변태같이 재밌네요.........^__^

 

딥러닝 | Transformer Huggingface 탐방, pipline 가지고 놀기(객체 탐지)

Transformers지난번에 트랜스포머 논문을 처음부터 끝까지 열심히 읽고 리뷰를 포스팅했었습니다.https://smartest-suri.tistory.com/48 딥러닝 | Attention is all you need - 트랜스포머(2017) 논문 리뷰[참고] 본 포

smartest-suri.tistory.com

이번 PubTables-1m 논문 리뷰는 Table Detection의 발전 과정, 기본 아이디어와 중요 사항 등을 체크할 수 있었던 좋은 시간이었습니다. 그럼 리뷰 들어가겠습니다!



PubTables-1M: Towards comprehensive table extraction from unstructured documents
https://arxiv.org/pdf/2110.00061v3


0. 초록 Abstract

(중략) we develop a new, more comprehensive dataset for table extraction, called PubTables-1M. PubTables-1M contains nearly one million tables from scientific articles, supports multiple input modalities, and contains detailed header and location information for table structures, making it useful for a wide variety of modeling approaches.

(뭔들 아니겠냐만은...) Table detection task 분야에서 당시 가장 큰 문제가 되는 것은 '데이터'였고, 테이블 트랜스포머 팀은 그 해결방안으로 'PubTales-1M'(이하 펍테이블)이라는 데이터셋을 공개하는데요. 펍테이블은 과학 기사에서 추출한 약 1백만 여개의 테이블을 포함하며, multiple input modalities를 지원하는 데이터 셋입니다. 또한 표 구조에서 디테일한 header 정보나 위치 정보를 포함하고 있기 때문에 다양한 목적으로 사용될 수 있습니다.

It also addresses a significant source of ground truth inconsistency observed in prior datasets called oversegmentation, using a novel canonicalization procedure. We demonstrate that these improvements lead to a significant increase in training performance and a more reliable estimate of model performance at evaluation for table structure recognition. 

특히 이전 데이터셋에서 흔히 발생하는 과분할, 과세분화(oversegmentation) 문제를 해결했다고 하는데요. 이를 위해 새로운 정규화 절차(canonicalization procedure)를 도입했습니다. 결과적으로 학습이 잘되고 모델 성능이 좋더라!라고,,, 모든 연구 논문의 빼놓을 수 없는 주장을 하고 있습니다. (ㅋㅋㅋㅋ)

Further, we show that transformer-based object detection models trained on PubTables-1M produce excellent results for all three tasks of detection, structure recognition, and functional analysis without the need for any special customization for these tasks.

테이블 트랜스포머 팀은 여기서 약간은 애매한 닉값을 하는데, 트랜스포머를 기반으로 한 object detection 모델을 가지고 테이블 탐지, 구조 인식, 기능 분석이라는 3가지 과업을 아주 잘 수행했다고 합니다. 후에 얘기하겠지만, 그냥 갖다 써서 실험만 했거든요. 데이터만 새로 생성했고 아쉽게도 새로운 모델 구조까지 제안하지는않습니다. 그래서 테이블 트랜스포머,,,,,,라고 명명하긴 조금 짜치지 않나.. 하는 생각을 감히 하기도 했는데요. 그래도 이렇게 새로 구축한 데이터셋으로 학습한 최신 pre-trained model card를 배포하고 있으니 어쨌든 닉값을 하기는 합니다!

배우는 입장에서... 기존의 문제점을 해결하기 위해 새로운 모델 구조를 제안하는 것이 가장 혁신적, 혁명적으로 느껴지긴 합니다. 시간과 노력같은 비용뿐만 아니라 창의적인 아이디어에 재능까지 필요한 일이기 때문이죠. 하지만 때론 이렇게 '데이터의 품질'을 향상시키는 것또한 근본적인 문제 해결의 한가지 방안이 될 수가 있습니다. 어쩌면 모델 구조 변경보다 더 나은 획기적인 성능 향상을 불러 오기도 하죠. 데이터셋 논문을 굳이 리뷰하는 이유도 이와 같은 이유에서입니다. (아, 짜친다고 한거 취소할게요)


1. 서론 Introduction

The problem of inferring a table’s structure from its presentation and converting it to a structured form is known as table extraction (TE). (중략...) 

표의 구조를 추론하고 이를 구조화된 형태로 변환하는 문제를 표 추출(Table Extraction, TE)이라고 합니다. TE는 아래와 같이 세 가지 하위 작업으로 구성됩니다.

  • 표 탐지 (Table Detection, TD)
  • 표 구조 인식 (Table Structure Recognition, TSR)
  • 기능 분석 (Functional Analysis, FA)

Fig 2.

The primary advantage of DL methods is that they can learn to be more robust to the wide variety of table presentation formats. However, manually annotating tables for TSR is a difficult and time-consuming process [7]. 

딥러닝을 통한 TE는 다양한 표 형식을 탄탄(robust)하게 학습할 수 있다는 장점이 있습니다. 그런데 딥러닝 - 지도 학습(Supervised Learning) - 에는 labeling이 필요하잖아요? TSR(Table Structure Recognition)을 하려면 사람이 일일이 레이블링(annotating)을 해줘야 하는데, 이게 여간 번거로운 게 아니다 보니, 항상 데이터와 관련된 문제점이 존재했던 모양이에요. 아무래도 데이터 확보 자체가 쉽지 않았겠죠.

To overcome this, researchers have turned recently to crowd-sourcing to construct larger datasets [9,22,23]. These datasets are assembled from tables appearing in documents created by thousands of authors, where an annotation for each table’s structure and content is available in a markup format such as HTML, XML, or LaTeX.

문제 해결을 위해서 기존 연구진들은 크라우드 소싱이란 걸 활용해서 더 큰 데이터 세트를 구축했다고 합니다. 이렇게 만들어진 데이터셋은 각 표의 구조와 내용에 대한 annotation을 HTML, XML, LaTeX 같은 마크업 형식으로 제공하는 특징이 있는데요.

* 크라우드 소싱 

- 전문가가 풀지 못한 문제를 대중이 풀다
- 군중(crowd)과 아웃소싱(outsourcing)의 합성어
- 비용 효율적이고 빠른 문제 해결을 가능하게 함

- 생산과 서비스의 과정에 소비자 혹은 대중을 참여시켜 더 나은 아이디어, 제품, 서비스를 만들고 수익을 참여자와 공유하고자하는 방법을 칭한다. [참고 : 기획재정부 시사경제용어사전]
While crowd-sourcing solves the problem of dataset size, repurposing annotations originally unintended for TE and automatically converting these to ground truth presents its own set of challenges with respect to completeness, consistency, and quality. 

크라우드 소싱이 데이터셋의 사이즈 - 즉, 수량을 확보하는 데에는 도움이 되긴 했는데, 사실 이렇게 얻은 annotation이 애초에는 TE를 목적으로 한 게 아니었고, 그래서 TE용으로 적합하지가 않았습니다. 

Another significant challenge for the use of crowdsourced annotations is that these structure annotations encoded in markup often exhibit an issue we refer to as oversegmentation. Oversegmentation occurs in a structure annotation when a spanning cell in a header is split into multiple grid cells.

특히 oversegmentation(과세분화) 문제가 있었습니다. 과세분화는 header(머리글)의 셀이 여러 격자 셀로 나뉘는 경우를 말합니다. 과세분화가 발생해도 보기에는 문제가 없어보입니다만, 딥러닝 모델 학습과 평가를 위한 정답 데이터로 사용될 때는 큰 문제가 될 수 있습니다.

The first issue is that an oversegmented annotation contradicts the logical interpretation of the table that its presentation is meant to suggest. (중략....) would and does lead to ambiguous and inconsistent ground truth, due to there then being multiple possible valid interpretations for a table’s structure, such as in Fig. 3. This violates the standard modeling assumption that there is exactly one correct ground truth annotation for each table.

크게 표의 구조를 올바르게 해석하지 못하는 문제점, 표의 구조에 대해 여러 가지 해석을 내놓는 문제점이 발생할 수 있습니다. 그래서 ground truth가 애매 모호해지고, 1개의 정해진 정답이 있다는 가정을 위반하게 됩니다. 따라서 과세분화된 주석이 포함된 데이터셋은 학습 중 모순된 피드백을 제공하고 평가 시 실제 성능을 과소평가하게 만듭니다. 


PubTables-1M (주요 내용)

We introduce a novel canonicalization procedure that corrects oversegmentation and whose goal is to ensure each table has a unique, unambiguous structure interpretation.
  • 새로운 canonicalization(정규화) 방법을 통해 oversegmentation(과세분화) 문제를 바로잡고 하나의 테이블에 대해 명확한 하나의 구조 해석을 내놓도록 하는 방법을 보여준다고 합니다.
We show that data improvements alone lead to a significant increase in performance for TSR models, due both to improved training and a more reliable estimate of performance at evaluation.
  • (새로운 모델 구조 제안 없이) 좋은 데이터를 쓰는 것만으로도 TSR(Table Structure Recognition) 과업에 얼마나 큰 성능 향상을 보일 수 있는지 보여준다고 합니다.
Finally, we apply the Detection Transformer (DETR) [2] for the first time to the tasks of TD, TSR, and FA, and demonstrate how with PubTables-1M all three tasks can be addressed with a transformer-based object detection framework without any special customization for these tasks.
  • Detection Transformer(DETR)을 TD, TSR, FA 과업에 사용한 첫 사례로서, PubTables-1M 데이터랑 DETR이랑 같이 쓰면 얼마나 괜찮은지 보여준다고 합니다. (특별한 모델 변형이나 새로운 구조 제안은 없음 - 데이터셋이 중심이 되는 논문임을 확인)

2. 관련 연구 Related Work 

해당 부분은 chat-gpt 4o를 통해 간단히 정리만 하고 넘어가도록 하겠습니다.

구조 인식 데이터셋

  • ICDAR-2013: 표 탐지(TD), 표 구조 인식(TSR), 기능 분석(FA)을 모두 다루는 최초의 데이터셋으로, 규모는 작으며 TD와 TSR을 위한 248개의 표와 FA를 위한 92개의 표로 구성됨.
  • 대규모 데이터셋: TableBank, SciTSR, PubTabNet, FinTabNet 등은 크라우드 소싱 주석을 사용하여 확장되었으나, 여전히 완전성, 경계 상자, 과세분화 문제를 가지고 있음.

모델링 접근법

  • 일반 방법: 객체 탐지, 이미지-텍스트 변환, 그래프 기반 접근법 등이 사용됨.
  • 문제점: 포괄적인 훈련 데이터의 부족으로 인해 기존 모델의 성능이 낮음.
  • 특화된 방법: 다양한 경우를 처리하기 위해 맞춤형 파이프라인과 전문화된 방법이 사용되었으나, 아직 보편적이고 성능이 높은 솔루션은 존재하지 않음.

3. 데이터셋 PubTables-1M

마이크로소프트는 PubTables-1M 개발을 위해 수백만 개의 공개 과학 기사를 제공하는 PMCOA 코퍼스 선택했습니다. 각 기사는 기사 내용을 시각적으로 보여주는 PDF 파일, 내용 설명과 요소의 계층적 구성을 제공하는 XML 파일로 구성되는데요. 각 표의 내용과 구조는 표준 HTML 태그를 사용합니다.

  • 하지만 이것도 역시 애초에 TE 모델링의 레이블로 의도하고 만든 데이터가 아니었기 때문에
    • 예를 들어서 두 문서가 같은 표를 가지고 있을 때에 두 문서 간의 직접적인 대응 관계를 알 수도 없고, 문서 내에서 표의 공간적 위치도 특별히 제공되지 않는 한계점이 발생했습니다.
  • 또 품질 측면에서도 완벽하지 못했는데
    • 예를 들어서 주석이 달린 텍스트 내용이 PDF에 표시된 텍스트 내용과 정확히 일치한다고 보장할 수도 없었고, 가끔 일부 라벨(row header 등)은 아예 주석 처리되지 않기도 했습니다.

논문에서는 이러한 문제점을 어떻게 해결해서 PubTables-1M 데이터셋을 구축했는지 아래와 같이 단계별로 나누어 설명합니다.


[3. 1.] Alignment

PDF와 XML의 텍스트 내용을 일치시켜서 대응관계를 만들어주는 단계

  1. PDF 문서에 있는 모든 문자에 대해 bounding box 처리를 합니다. ([xmin, ymin, xmax, ymax]의 공간적 위치로 표시)
  2. XML 태그에서 표의 텍스트를 추출합니다. (예) coffee 추출
  3. PDF 문서의 bounding box를 합쳐 일치하는 문자열이 있는지 확인하고, 만약 있다면 align을 시켜줍니다. 이 때 Needleman-Wunsch 알고리즘을 사용합니다. (예) 합쳐서 coffee가 되는 부분이 있는지 확인 -> 발견시 align
  4. 이 과정을 통해 PDF 문서의 텍스트와 XML/HTML에서 추출한 표 내용 텍스트를 서로 pairing(alinging) 하게 됩니다.
Needleman-Wunsh 알고리즘 (간단히)
: 두 시퀀스를 비교하여 최적의 정렬을 찾는 알고리즘으로, 주로 생물유전학에서 사용됨. 본 데이터셋에서는 PDF 문서의 텍스트 시퀀스와 XML/HTML 텍스트 시퀀스를 정렬하여, 두 문서 간의 텍스트 대응 관계를 확립하고 각 텍스트의 위치 정보를 연결하기 위해 사용되었음.

[3. 2.] Completion

Alignment 이후 표 전체와 각 행, 열에 bounding box를 쳐서
spatial annotation(공간 주석)을 '완성(Completion)'하는 단계

  • 표 (entire table)
    • 표의 경계 상자는 모든 텍스트 셀 경계 상자의 합집합(union)으로 정의됩니다.
  • 행 (row)
    • 가로 : 각 행의 xmin과 xmax(가로 길이)는 표의 xmin과 xmax로 정의하여 모든 행이 동일한 수평 길이를 갖도록 합니다.
    • 세로 : 각 행의 ymin과 ymax(세로 길이)는 해당 행에서 시작하거나 끝나는 모든 셀의 텍스트 셀 경계 상자의 합집합으로 정의됩니다.
  • 열 (column)
    • 가로 : 각 열의 ymin과 ymax는 표의 ymin과 ymax로 정의하여 모든 열이 동일한 수직 길이를 갖도록 합니다.
    • 세로 : 각 열 n의 xmin과 xmax는 해당 열에서 시작하거나 끝나는 모든 셀의 텍스트 셀 경계 상자의 합집합으로 정의됩니다.
  • 그리드 셀 (grid cell)
    • 그리드 셀은 해당 셀의 행 경계 상자와 열 경계 상자의 합집합(교차 부분 - intersection)으로 정의됩니다. 빈 셀에도 그리드 셀이 정의됩니다.

[3. 3.] Canonicalization

oversegmentation을 바로잡는 단계

canonicalization을 검색하면 '정규화, 표준화, 정상화'정도로 번역이 되는데요. 제가 느끼기에 제일 직관적인 번역은 '정상화'라고 생각했습니다. 논문에 따르면, 간단히 말해 canonicalization이란 특정 조건 하에서 인접한 셀을 병합하는 것을 의미합니다. 아래 사진을 보면 이해가 빠른데요.

이렇게 과세분화된 셀(a)을 서로 병합해서 Canonical(b) - 정상, 표준으로 되돌려놓는 작업을 의미합니다. 

알고리즘 파트는 간단히만 정리하고 넘어가도록 하겠습니다.

example : Header

  • Wang 모델에 따르면 모든 표의 header(머리말)은 트리 구조를 따릅니다.
  • 표의 각 열(column)은 열 헤더 트리의 고유한 리프 노드에, 각 행(row)은 행 헤더 트리의 고유한 리프 노드에 해당합니다.
  • 열이나 행 헤더가 부분적으로 주석 처리되거나 주변에 빈 셀이 있는 경우 이를 확장하여 추가적인 열이나 행을 포함시키는 확장 단계를 거칩니다.
  • 열 헤더와 행 헤더의 인접한 빈 셀들을 재귀적으로 병합하여 일관성을 유지합니다.
  • 마지막으로, 부모 셀과 자식 셀 사이에 빈 그리드 셀이 있는 경우, 빈 셀을 자식 셀과 병합하는 등의 구조 보완 단계를 거칩니다.

[3. 4.] Limitation

3.3. canonicalization의 한계를 언급

  • Canonicalization의 목표는 모든 표 구조 주석에 적용 가능한 것이지만, Algorithm 1은 PMCOA 데이터셋의 주석을 위해 특별히 설계된 것으로, 다른 데이터셋의 표를 Canonicalization하려면 추가적인 가정이 필요하며, 이는 이 연구의 범위를 벗어남을 밝힘.
  • Canonicalization은 오류 없는 주석을 보장하지 않음.
  • Canonicalization 이후에도 남아 있는 문제들은 다음 단계인 3.5. Quality control을 통해 해결하고자 함.

[3. 5.] Quality control

품질 관리를 통해 데이터의 명확성과 일관성을 높이는 단계

  • overlapping rows or overlapping columns -> 데이터 폐기 처리
  • 원본 XML 주석과 PDF에서 추출한 텍스트 간의 편집 거리를 비교 -> 셀 평균 편집 거리가 0.05를 넘는 표는 오류로 간주하여 폐기
  • PDF 텍스트를 정답 데이터로 간주 -> 각 단어가 표 내부의 그리드 셀과 겹치는 비율이 0.9 미만인 표 폐기
  • 객체 수가 100개를 초과하는 표 폐기
  • PubTables-1M은 셀 수준에서 주석을 검증하여 일관성을 보장하는 최초의 데이터셋임을 강조

[3. 6.] Dataset statistics and splits

데이터 통계와 수를 나타내는부분으로, 자세한 리뷰 생략

  • TSR 데이터셋
    • 훈련용 표: 758,849개
    • 검증용 표: 94,959개
    • 테스트용 표: 93,834개
  • TD 데이터셋
    • 훈련용 페이지: 460,589개
    • 검증용 페이지: 57,591개
    • 테스트용 페이지: 57,125개

4. 제안 모델 Proposed Model

본 논문은 표의 구성 성분을 6개의 객체 클래스로 분류해서 이미지에서 찾아낸 다음 경계 상자로 표시하는 모델링을 수행했습니다. 6개의 객체 클래스는 아래와 같습니다.


  1. table 표 전체
  2. table row 행
  3. table column 열
  4. table column header 행 헤더(머리말)
  5. table projected row header 열 헤더(머리말)
  6. table spanning cell 확장 셀
  7. The intersection of each pair of table column and table row objects can be considered to form a seventh implicit class, table grid cell. -> 모든 행렬의 교차 부분은 'grid cell'이라는 7번째 추가 object로 간주할 수 있음

Fig 4. 클래스 6개 예시


To demonstrate the proposed dataset and the object detection modeling approach, we apply the Detection Transformer (DETR) [2] to all three TE tasks. We train one DETR model for TD and one DETR model for both TSR and FA. For comparison, we also train a Faster R-CNN [16] model for the same tasks.

TD, TSR+FA 2가지 과업에 DETR을 이용해 학습을 시키고, Faster-R CNN과 성능을 비교합니다.

All models use a ResNet-18 backbone pretrained on ImageNet with the first few layers frozen. We avoid custom engineering the models and training procedures for each task, using default settings wherever possible to allow the data to drive the result.
  • 모든 모델은 ResNet-18 사전학습 백본 사용, 초반의 몇 레이어는 freeze
  • 모델 커스터마이징을 안 한 이유 : 데이터가 결과를 주도하도록 하기 위해 (이해는 하지만 개인적으로 아쉬운 부분)

5. 실험 Experiments

모델링 결과

Faster R-CNN, DETR 성능을 비교해 본 결과 DETR의 성능가 더 좋았으며, Canonical 데이터의 중요성을 강조하고 있습니다.

평가 지표 (metrics)
For assessing TSR performance, we report the table content accuracy metric (AccCont), which is the percentage of tables whose text content matches the ground truth exactly for every cell, as well as several metrics for partial table correctness, which use different strategies to give credit for correct cells when not all cells are correct. For partial correctness, we use the F-score of the standard adjacent cell content metric [5] and the recently proposed GriTS metrics [19].
  • TSR 성능 평가 : 각 셀의 텍스트 내용이 정답과 정확히 일치하는 표의 비율 AccCont
  • 부분적 정확도 평가 : 표준 인접 셀 내용 지표의 F-score와 최근 제안된 GriTS 지표
GriTS

GriTS(이하 그리츠) 수식을 확인해 보니, F-score와 같은 것이라고 해석해도 무방할 것 같습니다. Image Segmentation에서 자주 사용되는 Dice Score와도 일맥상통하구요. 

Compared to other metrics for TSR, this formulation better captures the two-dimensional structure and ordering of cells of a table when comparing tables. 

다른 지표랑 비교했을 때 그리츠는 표를 비교할 때 표의 이차원 구조와 셀의 순서를 더 잘 반영하고, 기타 등등 여러 장점이 있다고 하네요. 

AccCont

AccCont는 논문에 수식이 따로 없길래, gpt 4o한테 수식을 써달라고 했더니, 이렇게 써주네요 (ㅋㅋㅋㅋㅋ) 나름 직관적입니다. 일반적인 Accuracy(정확도) 개념과 거의 유사하다고 봐도 무방할 것 같습니다.


6. 결론 Conclusion

  • 비정형 문서의 표 추출을 위한 새로운 데이터셋인 PubTables-1M을 소개
  • 과세분화 문제를 해결하기 위해 새로운 정형화 절차를 제안, 이를 통해 모델 성능이 크게 향상됨을 입증
  • DETR을 사용하여 표 추출 작업에서 최첨단 성능을 달성할 수 있음을 보임

(7장 Future Work는 생략하겠습니다.)




마무리

https://github.com/microsoft/table-transformer

 

GitHub - microsoft/table-transformer: Table Transformer (TATR) is a deep learning model for extracting tables from unstructured

Table Transformer (TATR) is a deep learning model for extracting tables from unstructured documents (PDFs and images). This is also the official repository for the PubTables-1M dataset and GriTS ev...

github.com

테이블 트랜스포머 팀 최신 뉴스(깃허브)에 따르면, PubTables-1M과 다른 데이터셋을 가지고 학습한 pre-trained model TATR-v1.1을 공개했다고 밝히고 있습니다. (2023년 8월 22일자)

https://huggingface.co/bsmock/TATR-v1.1-All

 

bsmock/TATR-v1.1-All · Hugging Face

Model Card for TATR-v1.1-All This repo contains the model weights for TATR (Table Transformer) v1.1, trained on the PubTables-1M and FinTabNet.c datasets, using the training details in the paper: "Aligning benchmark datasets for table structure recognition

huggingface.co

해당 허깅페이스 페이지에 가면 모델 카드를 확인하실 수 있는데요.

추후 해당 모델을 사용해서 직접 Table Detection을 실행해본 뒤 추가 포스팅을 하도록 하겠습니다.



이번 테이블 트랜스포머 논문 리뷰를 통해 Table Detection을 수행할 때 필요한 데이터의 특성, 레이블링 방법, 생소한 평가지표까지 전체적인 흐름을 파악할 수 있었습니다. 본 논문은 2021년 발표된 '데이터셋' 중심 논문인 만큼, 다음 번에는 새로운 '모델 구조'를 제안하는 최신 논문을 리뷰하고 코드로 구현하는 작업을 수행해보고자 합니다.

수리링의 Table Detection 정복 과정을 지켜봐 주세요!

감사합니다 :-)

Dice Score

U-Net 코드화 작업을 통해 image segmentation에서 흔히 사용되는 'dice score'라는 평가 지표와 친숙해지게 되었습니다. 다이스 스코어는 아래와 같은 수식을 통해 계산합니다.

Dice Score는 Precision과 Recall 점수를 나타내는 F1-Score와 비슷합니다. 민감도와 정밀도중에 무엇이 좋고 나쁜지는 까봐야 아는 것도 똑같고요.

도식화하면 위와 같은 그림으로 나타낼 수 있어요. 여기서 X와 Y는 각각 true value와 predicted value라고 생각하면 되겠습니다. Image segmentation에서 Dice score는 predicted value와 true value 간의 유사성을 측정할 수 있는 포괄적인 평가 방식인 거죠. 

예측한 마스크와 실제 마스크가 정확하게 일치하는 경우 dice score는 1의 값을 가지게 되고, 전혀 일치하지 않는 경우 0의 값을 가지게 됩니다. 따라서 계산된 dice score는 범위 [0, 1] 사이의 값을 가지게 되고, 마치 accuracy처럼 1에 가까운 값을 가지게 될수록 모델이 학습을 잘했다고 판단하게 됩니다.


문제 상황

그런데 코드 작업을 하면서, 아래와 같이 dice score가 범위 [0, 1]를 벗어난 값을 가지게 되는 것을 확인하게 되었습니다.

dice score가 -7부터 1.3까지.. 다이나믹 한 값을 가지는군요

https://www.kaggle.com/datasets/faizalkarim/flood-area-segmentation

 

Flood Area Segmentation

Segment the flooded area.

www.kaggle.com

저는 U-Net을 코드 구현하면서 kaggle의 Flood Area Segmentation 데이터를 가지고 작업중이었는데요. Kaggle에서 다른사람들이 쓴 코드는 어떤지 확인을 한 번 해 보았습니다.


다른 사람 코드 1

https://www.kaggle.com/code/gon213/flood-area-by-gontech

같은 Flood Area Segmentation 이미지셋으로 코딩하는 다른사람 코드

Dice score가 0, 1 사이로 제대로 나오고 있군요.

다른 사람 코드 2

https://www.kaggle.com/code/hugolearn/practice-image-segmentation-with-u-net/notebook

Carvana 데이터셋으로 코딩하는 다른사람 코드

요건 저랑 다른 데이터셋 (Carvana dataset) 사용하는 다른사람 코드인데, 보시면 dice score가 음수값이 나옵니다. 더 보면 -5가 나오기도 하고요... 그런데 다들 코드 잘썼다고 칭찬만 하고 이부분을 지적하는 사람이 없더라고요.


문제 해결

Dice score를 정확하게 계산하기 위해서 저는 아래와 같은 방법을 적용해서 문제를 해결했습니다 :) 참고로 제가 다루고 있는 데이터는 '홍수가 난 부분'과 '아닌 부분'으로 binary label을 가집니다.


1. 수식 변경

def dice_score(pred: torch.Tensor, mask: torch.Tensor, threshold: float = 0.5, smooth: float = 1e-6):
    # 시그모이드 적용 후 임계값을 통해 이진화
    pred = torch.sigmoid(pred)
    pred = (pred > threshold).float()
    
    # 마스크가 float 타입인지 확인
    mask = mask.float()
    
    # 교집합과 합집합 계산
    intersection = (pred * mask).sum(dim=[1, 2, 3])
    union = pred.sum(dim=[1, 2, 3]) + mask.sum(dim=[1, 2, 3])
    
    # Dice score 계산
    dice = (2. * intersection + smooth) / (union + smooth)
    
    # 배치의 평균 Dice score 반환
    return dice.mean().item()

처음에는 intersection과 union만 계산했는데, 0.5의 threshold와 smooth값을 추가해서 dice score를 정밀하게 계산했습니다.


2. 데이터 정규화

먼저 가지고 있는 Image와 Mask 데이터의 픽셀값이 0과 1 사이의 수치로 들어와 있는 것을 확인했습니다. 이후 Image data에만 Normalization transform을 적용해주었습니다. (기존에는 정규화를 아예 안했습니다.)

class Mydataset(Dataset):
    def __init__(self, root_dir='flood/', train=True, image_transforms=None, mask_transforms=None):
        super(Mydataset, self).__init__()
        self.train = train
        self.image_transforms = image_transforms
        self.mask_transforms = mask_transforms
        
        # 파일 경로 지정
        file_path = os.path.join(root_dir, 'train')
        file_mask_path = os.path.join(root_dir, 'masked')
        
        # 이미지 리스트 생성
        self.images = sorted([os.path.join(file_path, img) for img in os.listdir(file_path)])
        self.masks = sorted([os.path.join(file_mask_path, mask) for mask in os.listdir(file_mask_path)])
        
        # train, valid 데이터 분리
        split_ratio = int(len(self.images) * 0.8)
        if train: 
            self.images = self.images[:split_ratio]
            self.masks = self.masks[:split_ratio]  # train은 80%
        else:
            self.images = self.images[split_ratio:]
            self.masks = self.masks[split_ratio:]  # valid는 20%
            
    def __getitem__(self, index: int):
        original = Image.open(self.images[index]).convert('RGB') # index 번째의 이미지를 RGB 형식으로 열음
        masked = Image.open(self.masks[index]).convert('L') # 얘는 마스크를 L(grayscale) 형식으로 열음
        
        if self.image_transforms:  # 나중에 image augmentation에 사용됨
            original = self.image_transforms(original)
        if self.mask_transforms:   # 나중에 image augmentation에 사용됨
            masked = self.mask_transforms(masked)
            
        return {'img': original, 'mask': masked} # transform이 적용된 후 텐서를 반환
    
    def __len__(self):
        return len(self.images)  # 이미지의 파일 수를 반환함 -> train = True라면 train 데이터셋의 크기를, False라면 valid 데이터셋의 크기를 반환
            
            
 # ------------------------ data loader 정의하기 ------------------------ #
width = 360
height = 240
batch_size = 4
n_workers = 2

# 이미지만 정규화!
image_transforms = T.Compose([
    T.Resize((width, height)),
    T.ToTensor(),
    T.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# 마스크는 정규화 안할거임
mask_transforms = T.Compose([
    T.Resize((width, height)),
    T.ToTensor()
])

train_dataset = Mydataset(root_dir = "flood/", 
                          train = True, # train 용 지정
                          image_transforms = image_transforms, 
                          mask_transforms = mask_transforms)

valid_dataset = Mydataset(root_dir = "flood/", 
                          train = False, # valid 용 지정 
                          image_transforms = image_transforms, 
                          mask_transforms = mask_transforms)

train_dataset_loader = DataLoader(dataset = train_dataset, 
                                  batch_size = batch_size, 
                                  shuffle = True, 
                                  num_workers = n_workers)

valid_dataset_loader = DataLoader(dataset = valid_dataset, 
                                  batch_size = batch_size, 
                                  shuffle = True, 
                                  num_workers = n_workers)

이후 Dice Score 값이 [0, 1] 범위로 잘 계산되는 것을 확인할 수 있었습니다.


감사합니다 :)

[주의] 본 포스팅은 수리링이 직접 U-Net 논문 원문을 읽고 리뷰한 내용을 담았으며, 참고 문헌이 있는 경우 출처를 명시하였습니다. 본문 내용에 틀린 부분이 있다면 댓글로 말씀해 주시고, 포스팅을 출처 없이 불법 공유하지 말아주시기 바랍니다. 감사합니다.


U-Net: Convolutional Networks for BiomedicalImage Segmentation

https://arxiv.org/pdf/1505.04597

이미지 세그멘테이션(image segmentation)에서 빼놓을 수 없는 근본 모델 유넷. 유넷은 픽셀 기반으로 이미지를 분할하여 구분하는 모델로, 많은 최신 모델 속에서 그 구조가 사용되며 활약하고 있습니다.

유넷은 ISBI cell tracking challenge 2015 대회에서 등장한 모델로, 세포 이미지로부터 뛰어난 세그멘테이션 성능을 보여주며 우승을 차지했습니다. 놀라운 점은, 이 대회에서 제공된 학습 데이터가 고작 이미지 30장이었다고 합니다. 저는 논문 리뷰를 마치고서야 이 사실을 알게 되어서, 논문에서 계속 데이터 수가 부족했다고 우는 소리를 하는 이유가 있었구나.....! 대박적이다...! 라는 생각을 했습니다.

따라서 유넷 논문을 처음 공부하시는 분들께서는, 유넷이 어떻게 이러한 한계를 극복하며 뛰어난 segmentation을 구현할 수 있었는지에 주목하면서 리뷰를 해보시면 좋을 것 같습니다.

https://hpc.nih.gov/apps/UNet.html




Abstract

In this paper, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotated samples more efficiently.

초록에서는 주어진 데이터를 더욱 효율적으로 사용하기 위해 data augmentation - 데이터 증강을 통한 네트워크와 학습 전략을 제시하겠다고 밝히고 있습니다. 

The architecture consists of a contracting path to capture context and a symmetric expanding path that enables precise localization. 

U넷의 네트워크 구조는 크게 2가지 path로 구성됩니다.

  1. 수축 경로 'contracting path' : capture context - 넓은 범위에서 이미지의 주요한 특징과 의미 추출
  2. 확장 경로 'expanding path' : 정교한 localization - 앞에서 추출한 의미를 위치정보와 결합하여 각 픽셀마다 어떤 객체에 속하는지를 구분
  3. (+) 'bottleneck' 연결 구간 : 수축 경로와 확장 경로를 연결 (논문에 언급되어 있지 않지만 흔히 보틀넥이라고 칭합니다.)
We show that such a network can be trained end-to-end from very few images and outperforms the prior best method (a sliding-window convolutional network) on the ISBI challenge for segmentation of neuronal structures in electron microscopic stacks.

구조를 그렇게 설계했더니 아주 적은 수의 이미지로도 end-to-end 학습이 가능했을 뿐더러 기존에 sliding-window 형식의 CNN구조를 사용하고 있던 베스트 모델보다도 성능이 훨씬 뛰어났다는 이야기를 하고 있습니다.

end-to-end 딥러닝이 뭔지 궁금하신 분께서는 아래 유튜브 동영상을 참고하시면 도움이 될거예요. end-to-end을 실현하려면 데이터가 많이 필요한 것이 핵심인데, 유넷은 이 부분을 augmentation으로 해결했다는 거죠. 어떤 증강기술을 사용했는지는 차차 설명하게 됩니다.


https://youtu.be/ImUoubi_t7s?si=JYQRmitCcbqp2CsD

이제는 이 교수님이 삼촌같이 느껴지네요...
Moreover, the network is fast. Segmentation of a 512x512 image takes less than a second on a recent GPU. 

게다가 처리속도도 아주 빠르다고 합니다.


여기까지 논문의 초록을 살펴봤는데요. 저는 초록에서 강조하고 있는 키워드가 아래와 같은 것으로 정리했습니다.

  • Data Augmentation
  • Contracting path & Expanding path
  • end-to-end 
  • Not a sliding window
  • Outperform, fast

그럼 본격적으로 본문을 살펴보면서 위와 같은 키워드들이 어떻게 설명되는지 살펴보도록 하겠습니다.



Introduction

The typical use of convolutional networks is on classification tasks, where the output to an image is a single class label. However, in many visual tasks, especially in biomedical image processing, the desired output should include localization, i.e., a class label is supposed to be assigned to each pixel.

전형적인 CNN 모델은 이미지를 입력하면, 이미지에 해당하는 하나의 class label이 출력되는 방식으로 '분류'작업을 수행합니다. 그런데 실제로 많은 과업에서 이렇게 이미지 전체에 해당하는 하나의 레이블이 필요한 경우보다는, localization을 포함한 결과가 필요한 경우가 많습니다. 즉, 이미지 전체가 아닌 이미지 내부의 각 픽셀에 해당하는 labeling이 필요한 거죠.

위의 예시에서 맨 왼쪽은 "이 사진은 고양이 사진이다!"라고 전체에 대한 레이블링을 수행하였습니다. 하지만 localization은 모든 픽셀에 대해서 레이블링을 수행합니다. 그래서 그 옆의 그림처럼 이 사진의 어떤 부분은 고양이고, 또 다른 부분은 잔디이고, 이렇게 다양한 결과값을 출력할 수가 있는 것입니다.

Moreover, thousands of training images are usually beyond reach in biomedical tasks.

특히 바이오메디컬(생의학) 분야에서는 데이터 수가 부족한 경우가 많다는 것도 고려할 필요가 있는데요. 레이블링을 의사같은 전문가가 해야하기 때문에, dog-cat 분류같이 아무나 할수 있는게 아니라는 이유에서 그렇다고 합니다. 대회에 참가해서 30장 데이터로 승부를 봐야 했던 유넷처럼 말이죠......... (아니 근데 아무리 그래도 30장은 좀 너무했다)

Hence, Ciresan et al. [1] trained a network in a sliding-window setup to predict the class label of each pixel by providing a local region (patch) around that pixel as input. First, this network can localize. Secondly, the training data in terms of patches is much larger than the number of training images. The resulting network won the EM segmentation challenge at ISBI 2012 by a large margin.

유넷 이전 다수의 모델은 sliding window를 적용했습니다. sliding window를 적용하면 하나의 이미지로부터 여러 개의 patch가 생기면서 데이터 수 부족 현상을 해결할 수 있었기 때문이죠.

출처 : https://www.mathworks.com/help/vision/ug/anchor-boxes-for-object-detection.html

Obviously, the strategy in Ciresan et al. [1] has two drawbacks. First, it is quite slow because the network must be run separately for each patch, and there is a lot of redundancy due to overlapping patches. Secondly, there is a trade-off between localization accuracy and the use of context. Larger patches require more max-pooling layers that reduce the localization accuracy, while small patches allow the network to see only little context. More recent approaches [11,4] proposed a classifier output that takes into account the features from multiple layers. Good localization and the use of context are possible at the same time.

그런데 sliding window를 적용하면 계산량이 많아지면서 전체 네트워크가 느려진다는 단점이 있습니다. 게다가, localization accuracy와 use of context - 즉 전체와 부분 사이의 tradeoff가 발생하는 문제점도 있었는데요.

드디어 그 유명한 유넷의 구조가 언급됩니다. 

In this paper, we build upon a more elegant architecture, the so-called “fully convolutional network” [9]. We modify and extend this architecture such that it works with very few training images and yields more precise segmentations; see Figure 1. 

유넷 페이퍼에서는 이러한 문제점들을 해결하기 위해 U모양의 "fully convolutional network"를 제안합니다. 적은 수의 트레이닝 이미지 데이터로도 학습이 잘 되고, 정확한 segmentation이 가능하도록 말이죠.

The main idea in [9] is to supplement a usual contracting network by successive layers, where pooling operators are replaced by upsampling operators. Hence, these layers increase the resolution of the output. 

핵심 아이디어는 초록에서 살펴본 바와 같이 contracting - expanding network구조를 사용하는 것입니다. 입력된 이미지는 contracting network의 연속적인 레이어 구조를 거치며 사이즈는 줄어들고 채널 수는 늘어납니다. 이어서 expanding network의 연속적인 레이어 구조에서 pooling 대신 upsampling을 거치며 사이즈가 다시 커지고, 채널 수는 줄어드는데요. 

In order to localize, high resolution features from the contracting path are combined with the upsampled output. A successive convolution layer can then learn to assemble a more precise output based on this information.

One important modification in our architecture is that in the upsampling part we have also a large number of feature channels, which allow the network to propagate context information to higher resolution layers. As a consequence, the expansive path is more or less symmetric to the contracting path, and yields a 
u-shaped architecture.

Feature 1 이미지에서 회색 화살표를 보시면 대칭 구조를 이루며 레이어들이 서로 짝을 이루고 있습니다. contracting path에서 추출한 Feature map의 정보가 업샘플링 과정에서 skip-connection 방식으로 결합되는 과정을 도식화한 것입니다.

논문에서 'skip-connection'이라는 용어가 직접적으로 언급되지는 않지만, 이러한 방식을 많은 사람들이 그렇게 명명하고 있습니다. 스킵 연결방식을 사용해서 expanding path의 콘볼루션 레이어는 contracting path로부터 정보를 제공받게 되고, 보다 정확한 출력을 조합하는 방법을 학습할 수 있게 됩니다. 깊은 레이어 구조를 거치며 다양한 정보가 손실될 가능성이 있는데, 그런 점을 skip-connection을 사용하여 보완해 학습이 잘 되도록 구조를 설계한 것이라고 보시면 되겠습니다.

The network does not have any fully connected layers and only uses the valid part of each convolution
, i.e., the segmentation map only contains the pixels, for which the full context is available in the input image. This strategy allows the seamless segmentation of arbitrarily large images by an overlap-tile strategy (see Figure 2). 

유넷 아키텍처는 기본적으로 fully connect layers로 이루어져 있지 않습니다. 대신, 앞에서 살펴본 바와 같이 모든 레이어가 Convolution(fully convolutional layers)으로 이루어져 있어요. 또 유넷 네트워크는 각 컨볼루션 연산에서 유효한 부분(valid part)만을 사용합니다. 이는 입력 이미지의 가장자리를 패딩 없이 처리하는 방식을 의미하는데요, 따라서 결과적으로 출력 이미지의 크기가 입력 이미지보다 작아지게 되고, 모든 출력 픽셀은 입력 이미지의 전체 컨텍스트(문맥 정보)를 갖게 됩니다.

저는 여기서 처음에 들었던 의문이.... '패딩 없이 처리'를 한다고 해서 어떻게 전체 컨텍스트 정보를 갖게 된다는 것인가? 라는 거였어요. 패딩을 사용 안하면 안하는거지, 그걸 굳이 저렇게 거창하게 말할 필요가 있나.. 싶었거든요. 이 부분은 바로 이어서 언급되는 '오버랩 타일 전략'을 살펴보면서 간단히 해결할 수 있었습니다.

(+) 그런데 실제로 코드로 구현하는 경우 계산의 편의를 위해 valid padding 대신 same padding을 사용하는 경우가 많은 것 같습니다.

유넷은 이미지의 가장자리에 패딩을 사용하지 않는 대신, 오버랩-타일(overlap-tile) 전략이라는 걸 사용합니다. 이 방식은 특히 큰 이미지를 분할할 때 유용한데요. 경계 영역에서의 정보 손실을 최소화할 수 있는 장점이 있다고 언급하고 있습니다. 아래 그림을 함께 보시죠.

잘 보면, 가장자리 부분이 내부 이미지를 상하좌우 대칭으로 미러링하여 채워져 있습니다.

To predict the pixels in the border region of the image, the missing context is extrapolated by mirroring the input image. This tiling strategy is important to apply the network to large images, since otherwise the resolution would be limited by the GPU memory.

U-Net에서 설명하는 타일링 전략(overlap-tile strategy)은 하나의 큰 이미지를 여러 개의 작은 타일로 나누어 처리하는 방식입니다. 이 때 경계 부분에서 패딩을 사용하는 대신, 입력 이미지를 반사하는 미러링(mirroring)하는 방법을 사용하고, 타일끼리 서로 겹치는 부분이 발생하기 때문에 '오버랩'이라는 단어가 앞에 붙게 되었어요. 이 오버랩 타일링 전략을 통해 유넷은 이미지 경계에서 패딩을 사용했을때 발생할 수 있는 정보 손실을 최소화할 수 있었고, 덕분에 정확한 경계 예측을 할 수가 있었어요.

생각해 보면 segmentation을 수행할 때 경계값을 명확하게 파악할 필요성이 있다고 납득이 되더라고요. 이 타일링 전략은, 앞에 서론에서 잠깐 살펴보았던 슬라이딩 윈도우(sliding window)의 문제점을 해결한 전략이라고 할 수 있겠습니다. 이러한 타일링 전략은 특히 큰 고해상도의 이미지에 유넷 네트워크를 적용할 때 중요했다고 하는데, 그렇지 않으면 해상도가 GPU 메모리에 의해 제한될 수가 있었다고 하네요.

https://youtu.be/O_7mR4H9WLk?si=9aNrE8Olud-7bq-Z

슬라이딩 윈도우와 타일링 전략, 미러링 부분에 추가 보충이 필요하신 분들께서는 위의 유투브 영상을 참고하시는 것을 추천합니다. 시각적으로 설명이 깔끔하게 잘 되어 있어서 저도 도움을 많이 받았습니다 :)


As for our tasks there is very little training data available, we use excessive data augmentation by applying elastic deformations to the available training images. This allows the network to learn invariance to such deformations, without the need to see these transformations in the annotated image corpus.

U-Net은 고작 30장밖에 되지 않는 데이터셋으로 성능을 뽑아야 했기 때문에, augmentation을 빡세게 굴렸다! 라고 밝히고 있습니다. 특히 그 중에서도 elastic deformation을 사용했다고 밝히고 있어요.

https://towardsdatascience.com/review-u-net-biomedical-image-segmentation-d02bf06ca760
https://towardsdatascience.com/review-u-net-biomedical-image-segmentation-d02bf06ca760

Pixel이 랜덤하게 다른 방향으로 뒤틀리도록 변형하는 'elastic deformation'을 통해 자연스럽고 현실세계에 있을법한 새로운 데이터를 만들어내는 의의가 있었다고 해요. 위의 그림을 보면 elastic deformation을 거쳤을 때 기본 이미지의 특성은 어느정도 유지되면서 이미지가  다양하게 변형되는 것을 볼 수 있습니다. 논문에 따르면 이런 방법의 변형이 특히 biomedical 생의학 분야에서 의미있다는 연구 결과가 있었다며 참고 문헌을 밝히고 있네요. (세포라는 게 아무래도 원래 찌글짜글 거리니까…..)

Another challenge in many cell segmentation tasks is the separation of touching objects of the same class; see Figure 3. To this end, we propose the use of a weighted loss, where the separating background labels between touching cells obtain a large weight in the loss function. The resulting network is applicable to various biomedical segmentation problems. In this paper, we show results on the segmentation of neuronal structures in EM stacks (an ongoing competition started at ISBI 2012), where we outperformed the network of Ciresan et al. [1]. Furthermore, we show results for cell segmentation in light microscopy images from the ISBI cell tracking challenge 2015. Here we won with a large margin on the two most challenging 2D transmitted light datasets.

세포 분할 작업에서 해결해야 하는 또 다른 도전 과제가 있는데요. 바로 같은 클래스의 서로 접촉하는 객체를 분리하는 것입니다. 위의 그림을 보면, 여러 개의 같은 세포가 서로 매우 가깝게 접촉해 있는 것을 확인할 수 있습니다. 얘네가 서로 다른 개체임에도 불구하고 label이 같아서 하나의 큰 뭉텅이로 간주될 위험성이 있단 말이죠.

유넷은 이러한 문제점을 해결하고자 접촉하는 세포 사이의 배경 레이블에 큰 가중치를 부여하는 weighted loss를 제안합니다. 탐지된 객체가 서로 가까이 붙어 있을 수록 그 사이의 배경이 큰 weight값을 갖게 되는 원리인데요. 위의 Fig. 3. 그림에서 d를 보시면 되고, 세포 사이의 거리가 가까울수록 배경이 빨간 값을 가지게 되는 점에 주목하시면 되겠습니다. 이 방법을 적용하면서 뛰어난 segmentation 성능을 확보하게 되었고, 이 덕분에 대회를 우승할 수 있었다고 밝히고 있었습니다.



Network Architecture

다음으로 유넷 네트워크의 구조에 대해서 조금 더 자세히 살펴보도록 하겠습니다. 이 부분은, 유넷 그림의 구조를 보면서 스스로 설명할 수 있어야 합니다.

Contracting path (left side)

The contracting path follows the typical architecture of a convolutional network. It consists of the repeated application of two 3x3 convolutions (unpadded convolutions), each followed by a rectified linear unit (ReLU) and a 2x2 max pooling operation with stride 2 for downsampling. At each downsampling step we double the number of feature channels.

Contracting path는 기본적인 콘볼루션 네트워크 구조로 되어 있습니다. (3x3) 필터를 사용해서 패딩 없이 콘볼루션을 계산한 뒤 ReLU를 걸어주는 과정2번 반복하고, (2x2) 사이즈와 stride 2의 max poolng을 적용하여 다운샘플링을 진행합니다. 이렇게 한 셋트의 다운샘플링을 진행할 때마다 채널의 수는 2배씩 증가하게 됩니다. 그림에선 다운샘플링을 4번 했네요.

이렇게 이미지의 사이즈가 줄어드는 과정에서 이미지의 특징이 추출되고, 채널이 늘어나는 과정에서 이미지의 다양한 특징을 확보하게 됩니다.

Expansive path (right side)

Every step in the expansive path consists of an upsampling of the feature map followed by a 2x2 convolution (“up-convolution”) that halves the number of feature channels, a concatenation with the correspondingly cropped feature map from the contracting path, and two 3x3 convolutions, each followed by a ReLU. The cropping is necessary due to the loss of border pixels in every convolution.

Expansive path에서는 (2x2) 필터 사이즈의 up-convolution을 통해 특징 맵(feature map)의 사이즈를 키우는 업샘플링(upsampling)을 수행하게 되는데, 이 과정에서 반대로 채널의 수는 다시 절반으로 점차 줄어들게 됩니다.

이후에 contracting path에서 해당 단계의 크롭된(cropped) 특징 맵과 연결(concatenation)한다는 이야기가 나오는데요. 이 부분은 구조도에서 회색 화살표를 확인하시면 됩니다. 위의 그림에서 빨간색 표시한 부분을 잘 보면, Contracting path의 (64 * 64 * 512)이 copy and crop으로 Extracting path의 (56 * 56 * 512)와 concatenate되어 (56 * 56 *  1024)가 됩니다. 64와 56이 사이즈가 맞지 않으니 64를 56으로 crop해주어야 했을 것이고, 이후 필터 512장과 512장이 concat으로 이어붙어 1024장이 된 것이죠.
논문에서는 언급되지 않은 용어이지만 흔히들 이 과정을 Skip-connection이라고 부르는데, element-wise summation이 아닌 concatenate를 사용하는 이유에 대해서는 아래 포스팅을 참고해보시면 도움이 되실 거예요.


https://at0z.tistory.com/164

 

Skip connection에서 add(summation) vs concatenation

U-Net architecture를 공부하다가 어떤 네트워크는 image size와 channel이 동일해서 add를 하기도 하고, 어떤 네트워크는 image size는 동일하지만 channel이 달라 (보통 2배 차이남) concatenation해 주기도 한다.

at0z.tistory.com


저는 여기서 앞서 살펴본 '미러링 타일 전략'과 개념 혼돈이 오면서 헷갈리는 시기가 있었습니다. upsampling과 downsampling 과정에서 콘볼루션을 계산할 때, 패딩을 사용하는 대신 미러링을 사용하는 것인가? 라는 오개념이 자리잡은 것인데요. 저와 비슷한 분을 위해 짚고 넘어가자면, 미러링은 이미지를 여러 개의 타일로 나누고 난 다음에, 그 각각의 타일 테두리에 미러링을 추가해 주어 경계 정보를 보완해주는 것으로, 그렇게 완성된 타일 이미지에 upsampling과 downsampling의 u-net 구조가 적용되는 것입니다. 즉, 

  1. 전체 이미지를 작은 타일로 나누어서 사용한다
  2. 이때 각각의 작은 타일의 가장자리에는 미러링이 적용된다
  3. 이렇게 미러링된 하나의 패치 이미지에 각각 u넷 구조가 적용된다

이렇게 순서를 이해하시면 되겠습니다 :)


 At the final layer a 1x1 convolution is used to map each 64- component feature vector to the desired number of classes. In total the network has 23 convolutional layers.

Skip-connection 이후에 두 번의 3x3 컨볼루션과 각각의 ReLU 활성화 함수를 적용하게 되는데요. 전체 네트워크는 총 23개의 컨볼루션 레이어로 구성되고, Expanding path의 마지막 레이어에서는 1x1 컨볼루션을 사용하여 결과값의 필터 수를 원하는 값으로 조정합니다. 

(노란색 부분) 마지막 1x1 콘볼루션

To allow a seamless tiling of the output segmentation map (see Figure 2), it is important to select the input tile size such that all 2x2 max-pooling operations are applied to a layer with an even x- and y-size.


seamless tiling을 위해서는 입력 타일 크기를 신중하게 선택할 필요가 있는데, 특히 모든 2x2 max-pooling 연산이 x와 y 크기가 짝수인 레이어에 적용되도록 해야 한다고 밝히고 있습니다. 이는 각 풀링 연산이 끝나는 레이어의 크기가 짝수여야 다음 연산에서도 크기가 정확히 맞아 떨어지기 때문인데요.

논문에서 표현하는 'seamless tiling'이란, U-Net이 큰 이미지를 처리할 때 '타일링 전략'을 사용해서 하나의 이미지를 여러 개의 작은 타일로 나누었던 것을, 마지막에 다시 이어 붙이는 작업이 매끄럽고 이쁘게 잘 되는 것을 의미한다고 보시면 돼요. 마치 원래부터 하나의 이미지였던 것처럼 이쁘게 잘 이어지기 위해서는 각 풀링 연산이 끝나는 레이어의 크기가 짝수가 되도록 잘 맞춰주라! 라는 겁니다. 



Training

The input images and their corresponding segmentation maps are used to train the network with the stochastic gradient descent implementation of Caffe [6].
  • 인풋 이미지와 그 이미지의 segmentation map 이미지가 네트워크 학습 데이터로 사용되었다고 합니다.
  • SGD(stochastic gradient descent)를 이용하여 학습을 진행했습니다.
Due to the unpadded convolutions, the output image is smaller than the input by a constant border width. To minimize the overhead and make maximum use of the GPU memory, we favor large input tiles over a large batch size and hence reduce the batch to a single image. Accordingly we use a high momentum (0.99) such that a large number of the previously seen training samples determine the update in the current optimization step.

 U-Net은 '타일링 전략'을 사용한다고 앞서 밝혔는데요. 콘볼루션을 계산할 때 패딩 없이 진행이 되기 때문에 이미지가 너무 작은 경우 경계값 정보가 많이 손실되어 학습이 제대로 이루어지지 않을 위험성을 가지고 있습니다. 따라서 여러 개의 작은 타일로 나누는 것보다 타일 크기를 크게 해서 전체 타일 수가 적은 것을 선호한다고 밝히고 있습니다.

그런데 큰 타일 크기를 사용하면 그만큼 SGD(Stochastic Gradient Descent) 배치 수는 줄어야 합니다. GPU 메모리가 한정되어 있기 때문이죠. 배치 수가 줄어든다면 그만큼 학습할 수 있는 데이터 다양성도 함께 줄어드는 단점이 있습니다. 다르게 말하자면 경사 하강법 과정에서 그래디언트 변동성이 커질 수 있게 되고, 이는 최적화 과정을 불안정하게 만들 수가 있는 것이죠.

따라서 논문에서는 이러한 문제점을 해결하기 위해 높은 모멘텀 momentum(0.99)을 사용한다고 밝히고 있습니다. 높은 모멘텀을 사용하면 이러한 변동성을 완화하고, 모델이 더 안정적으로 최적화를 할 수 있기 때문인데요. 즉 큰 타일 크기 사용으로 인한 불안정성을 높은 모멘텀이 보완해주는 효과가 있는 것입니다.

모멘텀은 Local Minimum에 빠지는 경우를 대처할 수 있다는 특징이 있으며, 높은 모멘텀은 현재 그래디언트 업데이트에 이전 단계들의 그래디언트 영향을 더 많이 반영합니다. 모멘텀에 대한 더 깊은 이해가 필요하시면, 아래 포스팅을 참고하시면 도움이 될 것입니다.


https://heytech.tistory.com/382

 

[Deep Learning] 최적화(Optimizer): (1) Momentum

본 포스팅에서는 딥러닝 최적화(optimizer) 기법 중 하나인 Momentum의 개념에 대해 알아봅니다. 먼저, Momentum 기법이 제안된 배경인 경사 하강법(Gradient Descent)의 한계점에 대해 다루고 알아보도록 하

heytech.tistory.com


Training에 사용한 U-Net의 Loss Function은 각 픽셀에 대한 에너지 함수(E)의 총합으로 구성되는데요. 에너지 함수는 다음과 같은 과정으로 계산됩니다.

𝑙은 특정 클래스의 레이블을 의미
특정 클래스 𝑙에 대한 로그 확률
loss function!

  1. 먼저 각 픽셀의 예측값에 소프트맥스(SoftMax) 함수 P를 적용해 예측값을 확률값으로 변환해 줍니다. 여기서 𝑙은 특정 클래스의 레이블을 의미합니다.
  2. 그런 다음, 특정 클래스 𝑙에 대한 로그 확률을 계산합니다. 예측 확률은 0과 1 사이의 값을 가지게 되므로, 예측 확률이 1에 가까워질수록 로그 값은 0에 가까워집니다. 반대로 예측 확률이 0에 가까울수록 로그 값은 매우 큰 음수가 되겠죠.
  3. 이제 각 픽셀의 실제 클래스 레이블과 예측된 확률 값을 비교하여 손실 값을 계산합니다. 이를 위해 교차 엔트로피 손실(Cross-Entropy Loss)을 사용합니다. 교차 엔트로피 손실 함수, 즉 '에너지 함수(E)'는 위와 같은데요. 특이하게 크로스 엔트로피에 픽셀 고유의 weight 𝑤(𝑥)을 곱함으로써 픽셀의 Loss값을 계산하는 것을 볼 수가 있습니다. 
  4. 𝑤(𝑥) 식은 아래 수식과 같이 나타냅니다. 경계선(border)라인에 더 강한 학습을 시키기 위해서 가우시안 분포(Gaussian distribution)을 가정하고 경계선 근처의 픽셀에 더 높은 가중치를 부여하여 학습이 집중되도록 했다고 합니다.

마지막으로 모든 픽의 에너지 함수(E)를 합산하여 전체 이미지에 대한 손실을 계산합니다.

마지막 부분에는 초기 가중치 설정의 중요성을 강조하며, 가중치를 Gaussian 분포로부터 표준편차가 루트 2/𝑁인 값으로 초기 설정하였다고 합니다. 예를 들어, 3x3 convolution과 이전 레이어에 64개의 feature 채널이 있는 경우, 𝑁은  9⋅64 = 576이 되는 거죠. 이 부분은 가볍게 읽고 지나가겠습니다.


3.1. Data Augmentation

Data augmentation is essential to teach the network the desired invariance and robustness properties, when only few training samples are available. In case of microscopical images we primarily need shift and rotation invariance as well as robustness to deformations and gray value variations. Especially random elastic deformations of the training samples seem to be the key concept to train a segmentation network with very few annotated images. We generate smooth deformations using random displacement vectors on a coarse 3 by 3 grid. The displacements are sampled from a Gaussian distribution with 10 pixels standard deviation. Per-pixel displacements are then computed using bicubic interpolation. Drop-out layers at the end of the contracting path perform further implicit data augmentation.

논문에서 언급한 data augmentation 방식은 총 4가지 입니다.

  • Shift
  • Rotation
  • Gray value
  • Elastic Deformation

이 중에서도 Elastic Deformation이 key 역할을 했다고 밝히고 있습니다. 이 부분은 앞에서 짚고 넘어간 바가 있으니 추가 설명은 생략하겠습니다.



Experiments

UNet의 우수한 성능으로 각종 대회에서 최고 결과를 도출했다는 파트로, 이부분은 자세한 정리를 생략하겠습니다.



Conclusion

드디어! 마지막 결론입니다.

The u-net architecture achieves very good performance on very different biomedical segmentation applications. Thanks to data augmentation with elastic deformations, it only needs very few annotated images and has a very reasonable training time of only 10 hours on a NVidia Titan GPU (6 GB). We provide the full Caffe[6]-based implementation and the trained networks. We are sure that the u-net architecture can be applied easily to many more tasks.

U-Net 아키텍처는 매우 다양한 생의학적 세그멘테이션 응용에서 매우 우수한 성능을 발휘하는데, Elastic deformation을 이용한 Data Augmentation형을 이용한 데이터 증강 덕분에 가능했다고 밝히고 있습니다. 유넷의 성능 확보에 정말 핵심적인 역할을 한 게 분명합니다.

마지막으로 U-Net 아키텍처는 더 많은 작업에 쉽게 적용될 수 있을 것이라고 자신감을 나타내며 논문이 마무리되는데, 실제로 U-Net은 Biomedical 분야뿐만 아니라 이미지 segmentation이 필요한 다양한 최신 모델에 두루 널리 쓰이며 사랑받고 있습니다.



본 논문 리뷰를 통해 다양한 최신 모델에서 자주 보이는 U-Net의 구조와 원리에 대해서 이해할 수 있어서 영광이었습니다 :-) 다음에도 좋은 논문 리뷰로 찾아뵙겠습니다. 감사합니다!


 

[참고] 본 포스팅은 수리링 본인이 Attention is all you need 논문을 처음부터 끝까지 직접 읽으며 분석하고 리뷰하여 작성했습니다. 불펌 절대 금지! 본문 내용에 잘못된 부분이 있다면 댓글 달아주세요.


Transformer

Transformer

이전 포스팅에서 다루었던 LSTM과 GRU와 같은 새로운 모델들은 기존 RNN 모델의 Long-term Dependency, Exploding Gradient 문제를 해결하기 위해 고안되었었죠. 하지만 안타깝게도 근본적인 문제가 완전히 해결된 것은 아니었다고 해요. 그 이유는 RNN이나 CNN이 가지는 연쇄적인 계산구조 때문이었는데요. 따라서 Recurrent 구조가 아닌 새로운 구조의 모델로 Sequence Data를 다루고자 하는 시도가 계속되었다고 합니다. 그리고 2015년, 인공지능 역사에 한 획을 긋는 Attention이라는 개념이 새롭게 도입됩니다.

You got me looking for attention...?

간단하게 말하면, 어텐션이란 모든 기억을 동등하게 기억하지 않고 연관성 있는 기억에 집중해서 기억하도록 구조화하는 기법을 말합니다. 어텐션이 정말 획기적인 메커니즘이긴 했지만, 초기에는 RNN, CNN 구조와 함께 사용되었기 때문에 여전히 시퀀스의 길이가 길어질수록 같은 문제가 발생하는 한계가 있었는데요. 2017년 구글은 Attention is all you need이라는 정말 멋있는,,, 제목으로 Transformer (트랜스포머) 모델을 제안합니다. 트랜스포머 모델은 RNN, CNN 구조를 완전히 배제하고 오롯이 어텐션 그 잡채! 에만 집중하는 아이디어로 기존의 문제점을 기냥,, 해결해버렸습니다.

본 포스팅에서는 트랜스포머 논문을 처음부터 끝까지 직접! 읽으며 분석한 내용을 정리하고 공유하고자 합니다 :)

논문 출처 :  https://arxiv.org/pdf/1706.03762


초록 Abstract

먼저 논문의 전체적인 아이디어와 내용을 파악할 수 있는 초록을 읽어 보도록 하겠습니다.

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.

기존 모델들의 인코더-디코더에는 복잡한 RNN 구조나 CNN 구조가 포함되어 있는데, 우리는 RNN/CNN구조를 완전히 배제하고 온전히 어텐션 메커니즘에만 기반한 새로운 네트워크 구조 '트랜스포머'를 제안한다! 라고 되어 있습니다. Attention is all you need이라는 논문 제목도 그렇고, Transformer이라는 모델 이름도 그렇고, 너무 멋있어서 소름이 돋습니다.

We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.

트레이닝 데이터가 많든지 적든지간에 관계없이 트랜스포머가 영어 구문 분석에 굉장히 성공적으로 적용이 되었는데, 영어 구문 분석 뿐만 아니라 다른 과업에도 트랜스포머가 잘 일반화되어 적용될 수 있다는 것을 보여주겠다고 합니다.

이제 서론을 봅시다.



서론 Introduction

Recurrent neural networks, long short-term memory [13] and gated recurrent [7] neural networks in particular, have been firmly established as state of the art approaches in sequence modeling and transduction problems such as language modeling and machine translation [35, 2, 5]. 

RNN, LSTM, GRU같은 모델들은 언어모델이나 번역기같은 sequence modeling과 transduction problems에 특히 잘 적용되어 왔는데요.

they generate a sequence of hidden states ht, as a function of the previous hidden state ht−1 and the input for position t. This inherently sequential nature precludes parallelization within training examples, which becomes critical at longer sequence lengths, as memory constraints limit batching across examples. ...... The fundamental constraint of sequential computation, however, remains.

이런 RNN 구조의 모델들은 시퀀스가 길어질수록  어쩔 수 없이 맛탱이가 가버렸고..... 이런 문제를 해결하기 위해 factiorization trick이나 conditional computation같은 방법이 고안되기도 했지만, 결국 Recurrent 구조는 그대로였기때문에 근본적인 문제점은 여전히 해결되지 못한 상태였습니다.

Attention mechanisms have become an integral part of compelling sequence modeling and transduction models in various tasks, allowing modeling of dependencies without regard to their distance in the input or output sequences [2, 19]. In all but a few cases [27], however, such attention mechanisms are used in conjunction with a recurrent network.

이때 혜성처럼 등장한 어텐션 메커니즘은 서로간의 dependency를 계산하면서 입출력 시퀀스의 길이가 길어져도 학습이 잘 되도록 도왔는데요. 안타깝게도 문제점의 근원이 되는 Recurrent 구조가 여전히 그대로 사용이 되었기 때문에, 상황이 좀 나아지긴 했으나, 시퀀스 길이가 길어지면 또 같은 문제점이 발생했다고 합니다.... 이쯤 되니 '이거 그냥 Recurrent 구조 자체를 쓰지 말아야 겠다'는 생각을 슬슬 시작했던 것 같습니다.

In this work we propose the Transformer, a model architecture eschewing recurrence and instead relying entirely on an attention mechanism to draw global dependencies between input and output. ...

그래서 구글이 제안하는 트랜스포머는 입출력 사이의 Global dependency를 계산할 수 있도록 오롯이 어텐션 메커니즘에만 집중하고 Recurrence 구조를 완전히 배제한다고 합니다. 그렇게 했더니.. 학습도 잘되고... 성능이.. 쩐다고 하네요!



연구 배경 Background

연구 배경에서는 다양한 이전 모델들에 대해서 거론하고 있습니다.

언급된 주요 모델 중 4가지에 대해 찾아보았는데요.

  • [9] ConvS2S (2017): CNN 구조로 시퀀스 간의 종속성을 학습, 병렬 처리를 통해 효율성을 높인 모델
  • [16] Extended Neural GPU (2016): CNN 구조로 긴 시퀀스를 병렬로 처리하는 데 중점
  • [17] Neural GPU (2016): CNN 구조로 알고리즘을 학습하고 긴 시퀀스 데이터를 병렬로 처리할 수 있도록 설계
  • [18] ByteNet (2016): 깊고 확장 가능한 CNN 구조로 입력 시퀀스와 출력 시퀀스 간의 종속성을 효과적으로 학습

대부분 어텐션을 적용하지 않은 모델들이었습니다. 이 밖에도 대체로 RNN, CNN 구조를 사용한 기존 모델들에 대해서 언급을 하면서, 우리가 걔네보다 월등하다는 걸 증명하겠다!는 이야기를 하고 있습니다.

To the best of our knowledge, however, the Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequencealigned RNNs or convolution.

마지막으로 현재까지(발표 시점까지) 트랜스포머가 입출력 사이의 관계를 규명하기위해 self-attention 계산에만 온전히 집중하며, 연쇄적인 RNN이나 CNN 구조를 전혀 사용하지 않는 유일한! 모델이라고 거듭 강조하고 있습니다.

그럼 이제 본격적으로 모델 구조에 대해서 알아보겠습니다.



모델 구조 Model Architecture

관심있는 분이라면 한번쯤은 보셨을 트랜스포머의 구조도입니다. 처음 봤을때 저는 이게 도대체 뭘까 굉장히 심란했었는데요, 관련 자료를 열심히 찾아 읽고 논문도 계속 뒤져보고 하면서 한 번 이해하고 나니, 생각보다 심플한 구조구나- 느껴져 재밌었습니다.


3-1. 인코더 - 디코더

먼저 왼쪽 구조도는 인코더, 오른쪽 구조도는 디코더에 해당합니다. 구조 양옆에 N* 이라고 표시된 부분은 해당 작업을 N번 반복하겠다는 것을 의미합니다. 논문에서는 인코더와 디코더에서 모두 N = 6을 사용한다고 밝히고 있습니다.

  • 인코더 레이어는 2개의 하위 레이어로 구성되어 있습니다. 첫 번째 레이어는 멀티헤드 어텐션을 수행하며, 두 번째 레이어는 간단한 Feed-Forward 구조로 이루어져 있습니다. 두 하위 레이어는 ResNet에서 제안했던 잔차연결(Residual connection)으로 연결되는데, 각 하위 레이어의 아웃풋은 인풋과 더해진 뒤(add) 정규화(Norm)됩니다.
  • 이런 더하기 작업은 모든 레이어의 아웃풋이 같은 차원으로 전부 통일되기 때문에 가능합니다.
  • 모든 결과물의 차원을 논문에서는 512로 고정하고 있습니다. 차차 알아보겠지만 레이어 안팎으로 벡터끼리 서로 계속 더하는 일이 많기때문에, 모든 벡터의 shape과 차원을 동일하게 통일할 필요가 있습니다.

  • 디코더는 3개의 하위 레이어로 구성되어 있는데, 인코더와 마찬가지로 모든 하위 레이어는 Residual connection으로 연결됩니다.
  • 특히 첫 번째 하위 레이어에서 Masked 멀티헤드 어텐션을 사용하는 이유 cheating을 방지하기 위함입니다. 해당 내용은 뒤에서 더 자세히 살펴보도록 하겠습니다.

3-2. 어텐션

An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. 

어텐션을 하나의 함수의 관점에서 생각해봅시다. 함수는 입력을 받아 결과를 출력하잖아요? 어텐션 함수는 인풋으로 3가지를 받아요. 바로 query, key, value인데요. 이렇게 3가지 인풋을 받아서 맵핑이란 걸 해가지고 결과물을 출력(output)합니다. 인풋으로 사용된 query(Q), key(K), value(V)와 출력물 output은 전부 벡터 형태로 이루어져 있습니다.

여기서부터 저는 이런 의문이 들었습니다. 그래서 Q는 뭐고, K는 뭐고, V는 뭔데? 의문을 해결하기 위해 잠깐 순서를 건너뛰고 3-2 대신 3-5를 먼저 보겠습니다.


3-5. 포지셔널 인코딩 (Positional Encoding)

포지셔널 인코딩을 먼저 이해하면 좋습니다. 간단하게 Input은 'I am hungry'이라는 영어 문장이고, Output은 '나는 배가 고프다'라는 한국어 문장이라고 생각해 봅시다. 논문 초록과 서론에서 누누이 봤지만, 트랜스포머는 이 문장들을 순차적으로 입력받지 않잖아요. 그렇다면 트랜스포머는 이 정보들을 도대체 무슨 수로 sequence data처럼 핸들링할 수 있는 걸까요? 그걸 가능하게 해주는 것이 바로 포지셔널 인코딩입니다.

Since our model contains no recurrence and no convolution, in order for the model to make use of the order of the sequence, we must inject some information about the relative or absolute position of the tokens in the sequence. To this end, we add "positional encodings" to the input embeddings at the bottoms of the encoder and decoder stacks. The positional encodings have the same dimension dmodel as the embeddings, so that the two can be summed. There are many choices of positional encodings, learned and fixed [9].

영어든 한국어든 단어로 된 문장을 받았다면, 기본적인 임베딩 작업을 해서 문장을 벡터화 해야겠죠. 포지셔널 인코딩은 쉽게 말해 이 임베딩 벡터값에 '위치(position) 정보'를 더해주는 일입니다. 위의 구조도에 잘 보면 Input Enbedding과 Positional Encoding 사이에 더하기(+) 기호가 있지요. 물론 두 벡터를 더해줘야 하므로 인풋 임베딩과 포지셔널 인코딩의 shape는 당연히 같도록 설계되었습니다. 어쨌든 이렇게 두 정보를 더함으로써 인코더와 디코더에 위치 정보가 더해진 벡터가 제공되고, 덕분에 마치 유사 sequence data처럼 인식을 할수 있게 되는 겁니다. 또, 이렇게 완성된 벡터에 각각 서로 다른 weight를 걸어서 어텐션 레이어의 서로 다른 입력 Q, K, V가 되는 것입니다. 어떤 weight를 걸어야 최적일지 찾는 건 결국 컴퓨터가 우리에게 해주는 일이 되겠죠!

포지셔널 인코딩을 하는 방법은 다양한데, 트랜스포머는 위의 식과 같은 삼각함수 형태의 식을 취하고 있습니다. 임베딩 벡터 내의 각 차원의 인덱스가 짝수인 경우에는 사인함수의 값을 사용하고, 홀수인 경우에는 코사인 함수의 값을 활용합니다. 이렇게 해야만 하는 건 아니고, 이렇게 했더니 계산과 학습이 용이하면서 성능도 잘 나오더라! 정도로 나름 간단하게 설명을 하고 있습니다. 

https://velog.io/@gibonki77/DLmathPE

포지셔널 인코딩에 대해서 좀더 직관적인 이해가 필요하시면, 위의 포스팅을 참고하시는 것을 추천합니다. 정리가 엄청 잘돼있습니다.


3-2. 어텐션

그럼 다시 Attention 설명파트로 돌아오겠습니다. 먼저 우리가 기존의 전체 구조도에서 살펴본 멀티헤드 어텐션이란 'Scaled Dot-Product Attention'이라는 걸 여러 번 실행하는 것을 의미하는데요. 굉장히 직관적인 작명을 해서... 크기를 줄이는 Scale과 Dot-product(행렬곱 내적)이 사용되는 싱글 어텐션이라고 생각을 하면 됩니다. 

  • 먼저 Q와 K를 행렬곱 계산합니다. Q와 K는 shape이 같은 벡터입니다. 따라서 벡터 내작 계산을 하기 위해 K를 Transpose 합니다. 따라서 두 행렬을 내적한 결과로 행렬은 정방형이 됩니다. (shape이 (a, b)라고 하면, 결과는 (a, a))
  • 그 다음 벡터 안의 숫자값을 작게 줄이는 Scaling 작업을 해줍니다. 논문에서는 벡터 안의 숫자값을 작게 해줌으로써 vanishing gradient 문제를 방지할 수 있게 된다고 밝히고 있습니다.
  • 만약 디코더라면 치팅 방지를 위해 Mask 작업을 추가합니다.
  • 이제 거기다가 Softmax 함수를 걸어주면, 벡터 안의 값이 확률화 되면서 weigt metrix로 간주할 수 있게 됩니다.
  • 그렇게 해서 나온 결과 벡터를 마지막으로 V와 행렬곱 계산합니다. 이 때, 결과 벡터의 shape은 기존 Q, K, V와 동일하게 유지됩니다.((a,a)•(a,b)=(a,b)) 여기까지가 바로 'Scaled Dot-Product Attention' 싱글 어텐션입니다.

  • 트랜스포머는 멀티 헤드 어텐션을 이용합니다. 위에서 살펴본 'Scaled Dot-Product Attention' 형태의 싱글헤드 어텐션을 h번 각각 수행하여 concat해서 이어 붙여준다는 건데요. 예를 들어서 논문에서는 512차원의 벡터를 다루고 있으므로, 이걸 64차원씩 8세트로 나누어서 각각 어텐션을 따로 수행하고 나서 Concat, 즉 이어 붙여서 다시 512차원으로 만들어 준다는 거예요.
Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions. With a single attention head, averaging inhibits this.
  • 멀티헤드 어텐션은 트랜스포머 모델의 성능을 높이는 핵심 요소 중 하나인데요. 그 이유를 살펴보겠습니다.
  • 먼저 Single head 어텐션은 하나의 문장에서 각 단어의 중요도를 계산한 후, 이 중요도를 이용해 모든 단어의 정보를 결합하여 하나의 벡터를 출력합니다. 이 과정에서 다양한 단어의 정보가 섞이게 되어 특정 단어의 중요한 세부 정보가 희석될 수 있는 가능성이 있고, 논문에서는 이것을 'averaging'이라고 부르고 있습니다. 중요한 패턴이나 특이점이 평균화되면서 사라지게 된다는 것이죠.
  • 반면 Multi head 어텐션은 여러 개의 어텐션 헤드를 사용하여 각 헤드가 특정 위치나 특징에 더 집중할 수 있게 돕고, 다양한 정보를 더 풍부하게 학습할 수 있게 됩니다. 즉 다양한 관점에서 입력 데이터를 이해하고 처리할 수 있게 되는 건데요. 이를 통해 모델은 입력 데이터의 여러 측면을 동시에 학습하고, 중요한 정보를 놓치지 않게 됩니다. 복잡하고 다양한 패턴을 효과적으로 인식하고 처리할 수 있을 뿐만 아니라 모델의 표현력도 향상시키는 거죠. 그래서 멀티헤드 어텐션이 트랜스포머 모델의 성능을 크게 향상시키는 핵심 요소라는 겁니다.

트랜스포머에서 어텐션은 크게 3곳에서 적용됩니다.

The encoder contains self-attention layers. In a self-attention layer all of the keys, values and queries come from the same place, in this case, the output of the previous layer in the encoder. 
  • 먼저 인코더는 self-attention layer를 사용하는데, 위에서 살펴봤듯이 인코더에 맨 처음 들어오는 입력값은 임베딩과 포지셔널 인코딩된 값이 더해진 벡터입니다. 이 벡터에 각각 서로 다른 weight가 걸려서 Q, K, V라는 입력값으로 들어오게 되지만, 실제로는 전부 같은 값을 가진 하나의 벡터로부터 근원합니다. 논문에서도 'keys, values and queries come from the same place'라고 밝히고 있죠. 
Similarly, self-attention layers in the decoder allow each position in the decoder to attend to all positions in the decoder up to and including that position. We need to prevent leftward information flow in the decoder to preserve the auto-regressive property. We implement this inside of scaled dot-product attention by masking out (setting to −∞) all values in the input of the softmax which correspond to illegal connections. See Figure 2.
  • 디코더에서도 똑같이 self-attention layer를 사용합니다. output에 해당하는 문장을 임베딩한 값과 포지셔널 임베딩한 값을 더한 벡터에 서로 다른 weight가 걸려 Q, K, V가 되고, Masked 작업을 추가한 멀티헤드 어텐션을 수행하죠. 그림의 2번에 해당합니다.
  • 우리가 마스크를 쓰면 마스크 아래 얼굴이 가려져서 보이지 않는 것처럼, 마스킹 작업은 어떤 값이 보이지 않게 가려버리는 것을 말합니다. 여기서는 벡터에서 마스킹할 부분을 마이너스 무한대로 발산하는 -inf값으로 바꿔버리는데, 그러면 이 -inf값이 다음 단계의 softmax 함수를 지나면서 0값을 가지게 됩니다.

참조

  • 기존의 RNN 모델들은 시퀀스가 순차적으로 입력되기 때문에, 앞쪽부터 순차적으로 업데이트 되어온 hidden state를 다음 시퀀스에 제공하면서 sequence 예측을 합니다. 하지만 트랜스포머 모델은 데이터가 순차적으로 제공되지 않고 한번에 제공됩니다. 따라서 현재 시점보다 뒤에 올 시퀀스의 정보까지 알 수 있게, 즉 'cheating'을 할 수 있게 되는 거죠.
  • 논문은 디코더에서 leftward information flow를 방지해야 한다고 언급합니다. 마스킹은 참조용 그림에서 보이는 것처럼 벡터의 대각선 왼쪽 아래 부분을 아예 0값으로 만들어버리고, 그래서 현재 시점보다 뒤에 있는 시퀀스를 참조하지 않도록 돕습니다. 쉽게 말하자면 현재 토큰보다 나중에 해당하는 토큰 값이 계산에 포함되는 부분을 모두 가려버린 것입니다.
In "encoder-decoder attention" layers, the queries come from the previous decoder layer, and the memory keys and values come from the output of the encoder. This allows every position in the decoder to attend over all positions in the input sequence. This mimics the typical encoder-decoder attention mechanisms in sequence-to-sequence models such as [38, 2, 9].
  • 마지막으로 그림 3번에 해당하는 어텐션입니다. 이 어텐션에도 Q, K, V가 필요하겠죠.
  • 먼저 디코더의 첫 번째 하위레이어를 지난 결과물이 Q가 됩니다. (queries come from the previous decoder layer) 그리고 인코더의 최종 결과물에 서로 다른 weight가 걸려서 각각 K, V,가 되고요. 이 결합 메커니즘을 통해 디코더의 각 위치가 입력 시퀀스의 모든 위치를 참조할 수 있게 됩니다.
  • 즉, 디코더의 특정 위치에서 다음 토큰을 예측할 때, 입력 시퀀스 전체의 정보를 활용할 수 있게 되는 것입니다. 이는 시퀀스-투-시퀀스(sequence-to-sequence) 모델에서 일반적으로 사용되는 인코더-디코더 어텐션 메커니즘과 유사한데요. 덕분에 디코더가 보다 정확하고 문맥에 맞는 출력을 생성할 수 있겠습니다.

3-3. Feed-Forward 네트워크

이전에 살펴본 바와 같이 인코더와 디코더는 각각 2개, 3개의 하위 레이어로 구성되어 있는데, 마지막 하위 레이어는 feed-forward 네트워크로 구성되어 있으며, 활성함수로는 ReLU가 사용됩니다. 레이어마다 사용된 웨이트는 모두 다르다고 밝히고 있습니다.


3-4. 임베딩 & 소프트맥스

  • input과 output 토큰을 벡터화하기 위해 learned embedding을 사용하는데, 이 임베딩에 필요한 weight matrix는 같은 것을 쓴다고 밝히고 있습니다. 또한 디코더 결과물을 선형 변환하는 과정에서도 같은 weight matrix를 쓴다고 합니다. 즉, 아래 그림에 빨간색으로 표시한 3곳에서 모두 같은 가중치 행렬을 사용합니다.

  • 디코더의 마지막 feed-forward를 지난 결과물은 linear transformation과 softmax를 차례대로 거쳐 다음 토큰의 probabilities를 예측하는 아웃풋이 됩니다.

3-5. 포지셔널 인코딩

위에서 미리 봤으므로 생략



Why self attention

4장에서는 Self-attention의 장점을 recurrent, convolution 구조와 비교하여 크게 3가지 측면에서 비교합니다.

One is the total computational complexity per layer. Another is the amount of computation that can be parallelized, as measured by the minimum number of sequential operations required. The third is the path length between long-range dependencies in the network.
  1. 레이어마다 발생하는 계산의 복잡도가 상대적으로 낮아 효율적입니다.
  2. 병렬화가 용이해 동시에 많은 계산을 수행할 수 있습니다.
  3. 입력과 출력 위치 간의 경로 길이가 짧아 장기 의존성을 더 쉽게 학습할 수 있습니다.
Learning long-range dependencies is a key challenge in many sequence transduction tasks. One key factor affecting the ability to learn such dependencies is the length of the paths forward and backward signals have to traverse in the network. The shorter these paths between any combination of positions in the input and output sequences, the easier it is to learn long-range dependencies [12]. Hence we also compare the maximum path length between any two input and output positions in networks composed of the different layer types.

n이 시퀀스의 길이, d가 차원의 크기, k가 convolution에서 커널의 사이즈, r이 길이가 제한된 self-attention에서 이웃의 사이즈를 의미할 때 계산의 복잡도를 비교한 표입니다. Self-attention 레이어는 모든 위치를 일정한 수의 순차적 연산으로 병렬 연결할 수 있기 때문에 Recurrent, Convolution 구조보다 훨씬 적은 비용으로 계산을 처리할 수 있습니다.

특히 길이가 제한된 self-attention이란, 입력 시퀀스의 각 위치가 특정 범위 내의 이웃 위치들만 제한적으로 참조하여 어텐션을 계산하는 것을 의미합니다. 예를 들어 시퀀스 길이 n = 100이고 길이 제한 범위 r = 5인 경우, 일반적인 self-attention에서는 각 위치가 99개의 다른 위치와 전부 상호 작용하지만, 제한된 self-attention에서는 각 위치가 최대 10개의 이웃 위치(왼쪽 5개, 오른쪽 5개)와만 상호 작용합니다. 딱 봐도 계산량이 확 줄어서 효율적인 장점이 있겠죠. 특히 입력 시퀀스의 길이가 매우 길고 계산 자원이 제한된 상황에서 유리할 수 있다고 합니다.

추가적으로 self-attention을 사용한 모델은 해석이 조금 더 용이한 장점이 있다고 합니다.



학습과 결과 Training / Results

학습과 결과 부분은 가볍게 읽어만 보고, 자세한 리뷰는 생략하겠습니다.

영어->독어 번역, 영어->불어 번역 문제에서 다른 기존의 SOTA 모델들과 비교하여 월등한 최고 성능을 보여주었다는 것이 핵심입니다.



결론 Conclusion

결론에서는 앞으로 트랜스포머가 언어 번역뿐만 아니라 이미지, 오디오, 비디오와 같은 대용량 입출력 처리를 할 수 있도록 어텐션 메커니즘을 더 연구하고 발전시켜 나가겠다고 밝히며, 트랜스포머에 대한 자부심과 앞으로에 대한 기대감으로 마무리를 하고 있습니다.

2017년에 발표되었던 논문인 만큼 2024년인 현재까지 트랜스포머는 많은 발전에 발전을 거듭하였고, 최신 생성형 모델의 근간이 되고 있습니다. 어느 분야든 마찬가지겠지만 특히 딥러닝 분야에서 기존의 문제점을 해결하기 위한 새로운 아이디어를 떠올리고 그를 구현해내는 이런 멋진 작업물들을 볼 때면 정말 경이롭습니다. 이번 논문 리뷰를 통해서 트랜스포머의 기본 개념과 원리, 구조에 대해 파악할 수 있어서 영광이었습니다.

이로서 Attention is all you need, 트랜스포머 논문 리뷰를 마치겠습니다. 감사합니다 :)

포스팅 참고 문헌

1. Do it! 딥러닝 교과서 (윤성진 지음)
2. MIT 6.S191: Recurrent Neural Networks, Transformers, and Attention (바로가기)
3. https://colah.github.io/posts/2015-08-Understanding-LSTMs/
4. SK플래닛 T아카데미 강사님 수업자료

RNN

[1] 시퀀스 데이터

흔히 '시계열 데이터', '순차 데이터'라고도 부르는 Sequence data에는 시공간적 순서 관계가 포함되어 있습니다. 예를 들어서 지금 저는 커피 한 모금을 마시고 컵을 내려놓은 뒤 타자를 치고 있고, 창 밖에는 차와 사람들이 움직이고 있으며, 옆에 있는 친구는 음악을 듣고 있어요. 이러한 일들이 일어날 때 자연스레 시간이 흐르고 공간상의 움직임도 나타나게 되지요. 이런 시퀀스 데이터는 문맥(context)을 가지기 때문에 어느 한 순간의 데이터만 살펴봐서는 그 특성을 이해하기가 어렵습니다.

예를 들어 우리가 위의 그림만 보고 공이 다음에 어느 방향으로 움직일지 논리적으로 예측하기는 무척 어렵습니다. 공이 옆에서 굴러왔을지, 밑에서 떨어졌을지, 위에서 던졌을지, 시공간 정보에 대한 어떤 문맥도 주어지지 않았기 때문입니다.

반면에 이렇게 공이 움직여 온 과정 대한 정보가 주어진다면, 우리는 아주 자연스럽게 공이 오른쪽 방향으로 움직일 것이라고 합리적으로 예측할 수 있게 됩니다. 이렇게 데이터의 순차 구조를 인식하고 처리할 수 있는 인공 신경망이 바로 RNN : 순방향 신경망(Recurrent Neural Network)입니다. RNN은 아래와 같은 구조로 이루어져 있습니다.


[2] RNN 기본 구조와 원리

RNN의 구조

첫 번째 입력 x1에 weight X를 곱한 값 => 히든 레이어 h1
{(두 번째 입력 x2에 weight X를 곱한 값) + (전 단계 h1에 weight H를 곱하고 bias를 더한 값)}에 하이퍼탄젠트(tanh) 액티베이션 펑션을 걸어주면 => 히든 레이어 h2
{(세 번째 입력 x3에 weight X를 곱한 값) + (전 단계 h2에 weight H를 곱하고 bias를 더한 값)}에 하이퍼탄젠트(tanh) 액티베이션 펑션을 걸어주면 => 히든 레이어 h3
....
{(t 번째 입력 xt에 weight X를 곱한 값) + (전 단계 h(t-1)에 weight H를 곱하고 bias를 더한 값)} 하이퍼탄젠트(tanh) 액티베이션 펑션을 걸어주면 => 히든 레이어 ht

이를 수식으로 나타내면 아래와 같아집니다.


[3] RNN의 weight

RNN에서 사용되는 가중치 Wx, Wh, Wy는 모든 시간 단계에서 공유되는데, 그 이유는 다음과 같습니다.

  1. 순차 구조를 포착할 수 있기 때문입니다.
    :  RNN의 주된 목적 중 하나는 시퀀스 데이터의 순차적 특성을 학습하는 것입니다. 이를 위해서는 각 시간 단계에서 입력과 은닉 상태를 동일한 방식으로 처리해야 합니다. Wx(입력 가중치), Wh(은닉 상태 가중치), Wy(출력 가중치)를 시간 단계마다 공유함으로써 네트워크는 시간 순서에 따라 일관된 방식으로 데이터를 처리할 수 있습니다.
  2. 가변 길이 데이터 처리가 용이하기 때문입니다.
    :  RNN은 고정된 길이의 입력만 처리하는 것이 아니라 가변 길이의 시퀀스 데이터도 처리할 수 있습니다. 모든 시간 단계에서 동일한 가중치를 사용하면, 시퀀스의 길이가 어떻게 되든 간에 동일한 모델 구조로 일관된 학습과 예측이 가능해집니다. 따라서 입력 시퀀스의 길이가 다르더라도 동일한 가중치 매트릭스를 사용하여 각 단계의 데이터를 처리할 수 있습니다.
  3. 파라미터 수가 절약되고, 정규화 효과가 생깁니다.
    :  각 시간 단계마다 다른 가중치를 사용한다면 파라미터 수가 급격히 증가하여 학습이 비효율적이 될 수 있습니다. 모든 시간 단계에서 가중치를 공유함으로써 파라미터 수를 크게 줄일 수 있습니다. 이는 모델의 복잡도를 낮추고, 과적합(overfitting)을 방지하는 데 도움이 됩니다. 또한, 적은 수의 파라미터를 통해 더 나은 일반화 성능을 얻을 수 있습니다. 이는 정규화 효과와 유사한 역할을 하여 모델이 더 일반화된 패턴을 학습하는 데 기여합니다.

[4] RNN Loss Function & Backpropagation

RNN의 전체 Loss Function은 모든 단계의 Loss Function을 더해서 정의합니다. 각 단계의 Loss Function은 회귀 문제라면 주로 MSE, 분류 문제라면 주로 Cross Entropy로 정의하게 됩니다.

RNN의 Backpropagation은 BPTT(Back Propagation Through Time), 시간펼침 역전파 알고리즘이라고도 불리는데요. 말그대로 시간 순서대로 네트워크를 펼쳐서 역전파를 수행하는 알고리즘입니다. BPTT는 아래와 같은 단계로 이루어집니다.

BPTT

1. 모든 시간 단계(t)마다 오차를 계산하고, 이를 이전 시간 단계로 전파합니다.
2. 모든 단계에서 가중치 및 바이어스에 대한 기울기를 구합니다.
3. 구한 기울기를 이용하여 각 가중치와 바이어스를 업데이트합니다.
-> 이를 통해 모델이 점차 학습하여 더 나은 예측을 할 수 있게 됩니다.

 


[5] RNN 한계점

예를 들어서, 한국에서 태어난 수리링은 인공지능 공부를 열심히 하고 있는데, 수리링은 영어도 잘 하지만 사실 한국말을 제일 잘한다. 라는 문장이 있다고 해 봅시다. RNN 모델에게 빈칸에 들어갈 말이 무엇인지 추측하도록 시킨다고 할 때, 모델이 정답을 잘 맞추기 위해서는 문장의 가장 처음에 있는 '한국'이라는 단어의 정보를 제대로 활용할 수 있어야 합니다. 만약 '한국'이라는 단어의 중요도가 점점 소실된다면 뜬금없이 빈칸에 '스페인어'나 '영어' 등의 오답이 들어가는 경우가 발생하겠죠. 이것이 바로 RNN의 근본적인 문제점입니다. (아, 참고로 빈 칸에 들어갈 정답은 '한국말' 입니다. ^^)

Long-term Dependency

RNN은 오차가 멀리 전파될수록(시간이 지날수록) 기울기가 점차 작아지는(0으로 수렴하는) 'Vanishing Gradient'로 인해 입력 데이터의 영향이 점점 사라지는 'Long-term Dependency'라는 명확한 한계를 가지고 있습니다. 또 가중치가 반복적으로 곱해지는 과정에서 기울기가 폭발적으로 발산하는 불상사로 인해 정상적인 학습이 불가능해지는 Exploding Gradient 문제도 쉽게 발생하곤 합니다. 이러한 문제점을 해결하기 위해 gradient clipping이나 오차를 몇 단계까지만 전파시키는 생략된-BPTT(truncated BPTT) 등을 사용하기도 했지만, 시간이 지나면서 사람들은 LSTM 및 GRU를 많이 사용하게 되었습니다.



LSTM

[1] 핵심

LSTM은 기본 RNN 구조를 변경해서 만든 모델입니다. LSTM의 핵심 아이디어는 바로 Gate & Cell State인데요.

이전의 RNN은 모든 정보를 연쇄적으로 곱해주는 방식으로 계산했기 때문에 역전파 과정에서 Vanishing/Exploding Gradient 같은 문제점이 발생했습니다. 이를 방지하고자 LSTM은 게이트가 있는 Gated cell을 사용하여 선택적으로 정보를 조절해 학습할 수 있도록 합니다. 이는 장기 기억(Long Term Memory)과 단기 기억(Short Term Memory)이라는 두 가지 메커니즘(LSTM)으로 구현되는 것으로 볼 수 있어 LSTM이라는 이름이 붙게 되었습니다.

기본 RNN은 위처럼 매우 심플한 구조로 이루어져 있습니다. (Xt * Wx + Ht-1 * Wh)에 활성함수로 하이퍼탄젠트(tanh)를 곧바로 걸어주게 되고, 이것이 순차 반복적으로 곱해지면서 Vanishing/Exloding Gradient 문제가 발생하게 되는 건데요.

LSTM의 경우, 내부 구조가 위의 사진처럼 세부 단계로 나뉘어져 있습니다. 처음 보면 무척 복잡해 보이지만, 한 번 이해하고 나면 꽤나 심플한 아이디어로 구성되어 있음을 알 수 있게 됩니다.


[2] Gate

Cell State : C

LSTM을 이끄는 핵심은 Cell state, 그림 상단에 보이는 Ct 라인입니다. Cell state는 마치 컨베이어 벨트와 역할을 하면서 레이어 사이를 지나가는데요. LSTM은 이 Cell state에 새로운 정보를 선택적으로 추가하기도 하고, 기존의 정보를 삭제하기도 합니다. 근데 도대체 어떻게 이런 일이 가능한 걸까요? 만약 이런 의문이 드신다면, 당신은 정상인입니다. 바로 게이트(Gate)가 있기 때문에 가능합니다.

그럼 정확히 Gate가 무엇이냐?라고 하신다면, 참고문헌 [3]은 They are composed out of a sigmoid neural net layer and a pointwise multiplication operation이라고 기술하고 있습니다.

gate
sigmoid neural net layer
: 시그모이드 함수는 0부터 1 사이의 값을 출력하기 때문에, 비율의 관점에서 바라볼 수 있습니다. 시그모이드 출력값이 0이라면 정보를 삭제하는 것과 같을 것이고, 시그모이드 출력값이 1이라면 정보를 100% 통과시켜야 함을 의미하겠죠.

pointwise multiplication operation
: 
시그모이드 함수의 출력값, 즉 '비율'을 곱한 다음, 이렇게 중요도가 결정된 정보가 게이트를 통과하게 되는 것입니다.

즉, 그냥 단순히 정보를 마구잡이로 곱하는 방식이 아니라, 각 정보의 중요도를 반영한 값을 처리할 수 있는 매커니즘을 구현하겠다는 겁니다. 만약 쓸데 없는 정보가 들어온다면 입뺀을 먹이고 통과를 시켜주지 않을 것이고, 필요한 정보가 들어온다면 중요도에 따라 필터링을해서 통과시켜 주겠다는 것이죠. LSTM은 세 가지 주요 게이트를 사용하여 정보를 조절합니다.


[3] Gate 종류

  • Forget Gate : 과거 정보를 얼마나 유지할 것인지
  • Input Gate : 현 시점의 입력 정보를 Cell State에 얼만큼 반영할 것인지
  • Output Gate : 현 시점에서 정보를 얼만큼 출력해서 다음 시점에 제공할지

3-1. Forget Gate 

현 시점의 입력 정보 Xt와 지난 레이어h(t-1)를 종합한 정보에 시그모이드를 걸어 비율값을 만들어 준 다음, 이전의 Cell State와 곱해줍니다. 시그모이드 값이 작을수록 이전의 정보는 많이 소실되고, 시그모이드 값이 클수록 이전의 정보는 많이 유지되겠죠. 즉, forget gate는 과거 정보를 얼마나 유지할 것인지 판단하는 게이트입니다. 

3-2. Input Gate 

인풋 게이트는 다음과 같은 구조로 흘러갑니다.

현 시점의 입력 정보 Xt와 지난 레이어h(t-1)를 종합한 정보에 

  1. 하나는 시그모이드를 걸어 0과 1사이의 비율값으로 만들어줍니다.
  2. 또 하나는 RNN처럼 활성함수로 하이퍼탄젠트(tanh)를 걸어줍니다.
  3. 두 개의 값을 곱해줍니다.
  4. Forget Gate를 지난 Cell State에 그 값을 더해줍니다.

즉, 인풋 게이트는 현 시점의 입력 정보를 Cell State에 얼만큼 반영할 것인지 판단하는 게이트입니다. 인풋 게이트를 통과한 정보가 더해지고 나면, 현 시점 LSTM에서의 Cell State가 완성됩니다. 이 Cell State는 다음 시점의 LSTM으로 전달되어, 또 다시 Forget Gate를 통과한 정보와 곱해지게 되겠죠. 

3-3. Output Gate 

아웃풋 게이트는 다음과 같은 구조로 흘러갑니다.

  1. 현 시점의 입력 정보 Xt와 지난 레이어h(t-1)를 종합한 정보에 시그모이드를 걸어 0-1사이의 비율값으로 만들어 줍니다.
  2. Cell State 값에 활성함수로 하이퍼탄젠트(tanh)를 걸어줍니다.
  3. 두 값을 곱해서 다음 시점의 h값으로 제공합니다.

즉, 현 시점의 output payer를 통과한 값은 다음 시점의 입력 정보와 만나는 h값이 되는 것입니다. 따라서 Output layer는 현 시점에서 정보를 얼만큼 출력해서 다음 시점에 제공할지 판단하는 레이어라고 볼 수 있습니다. 참고문헌 [3]에서는 Output gate를 지난 output을 다음과 같이 표현하고 있습니다. This output will be based on our cell state, but will be a filtered version. 


[4] LSTM의 장점

LSTM에서 셀들의 상태를 연결하는 경로를 다시 한 번 살펴보겠습니다.

LSTM은 셀들의 상태를 연결하는 경로에서 행렬곱을 생략하고, 대신 Cell State 개념을 도입했습니다. 기억 정보들은 Gate를 지나면서 선택적으로 형성, 지속, 망각되는 과정을 거치고, 그 과정이 담긴 Cell State에서 단기 기억과 장기 기억이 상호작용하며 유지됩니다. 이러한 획기적인 아이디어가 기존 RNN에서 Vanishing Gradient를 유발하는 요인이었던 반복적인 행렬 곱 연산을 대체하게 되면서 중요한 정보가 시퀀스의 초반부에서 후반부까지 소멸되지 않고 유지될 수 있었고, Long-term Dependency 문제를 해결할 수 있었습니다.



GRU

GRU(Gated Recurrent Unit)는 LSTM(Long Short-Term Memory)의 단순화된 버전으로, 구조를 단순화해서 계산 효율성을 높인 모델입니다.

출처 : http://dprogrammer.org/rnn-lstm-gru

  • Cell state와 Hidden state의 통합
    • 가장 도드라지는 차이점은 Cell State가 사라졌다는 점입니다.
    • LSTM은 Cell state(상단 C)와 Hidden state(하단 h)를 별도로 유지합니다. Cell state는 장기 기억을 저장하고, Hidden state는 단기 기억과 출력을 담당합니다.
    • 반면에 GRU는 둘을 통합하여 단일 Hidden state로 처리합니다. 이를 통해 모델이 더 간단해지고, 계산 효율성이 향상됩니다.
  • 게이트의 변화
    • LSTM은 세 가지 게이트를 가지고 있습니다. (Forget/Input/Output Gate)
    • GRU는 두 가지 게이트를 가지고 있습니다. (Reset/Update Gate)
    • 리셋 게이트(r)는 이전 은닉 상태를 얼마나 초기화할지를 결정하고, 업데이트 게이트(z)는 새로운 정보와 기존 정보를 어떻게 결합할지를 결정합니다.

GRU는 이러한 구조적 단순화를 통해 LSTM의 복잡성을 줄이면서도 유사한 성능을 유지할 수 있도록 설계되었습니다. 만약 컴퓨팅 리소스가 제한된 환경에 있다면, LSTM보다 계산량이 적으면서도 비슷한 성능을 가진 GRU를 사용하는 것이 효율적이겠습니다.


이것으로 RNN / LSTM / GRU 포스팅을 마치도록 하겠습니다. 다음 포스팅에서는 Transformer 논문 리뷰를 해보겠습니다 :) 감사합니다!

VGGNet

VGGNet(Visual Geometry Group Network)은 2014년 1000개의 이미지 클래스를 분류하는 이미지넷 이미지 인식 대회에서 준우승을 한 모델입니다. 옥스포드 대학의 연구팀 VGG에 의해 개발되었다고 하는데요. 이번 포스팅에서는 VGGNet 논문에서 중요한 내용을 살펴보고 직접 코드화하는 과정을 정리해 작성해 보겠습니다.


<VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION>
논문 링크 : https://arxiv.org/pdf/1409.1556

VGG의 핵심 장점은 다음과 같습니다.

1. convolution의 depth를 깊게 구성
2. 연산량을 획기적으로 줄여 좋은 성능 확보
3. 깊은 레이어 구조를 통해 Activation function을 여러 번 집어넣어서 비선형성을 더 많이 확보

왜 이런 장점이 있는지 논문 내용과 함께 살펴봅시다.


2.1. Architecture

VGG 이전의 기존 CNN 모델들은 주로 Convolution 레이어와 Pooling 레이어를 번갈아 연속적으로 사용하는 것이 일반적이었습니다. VGGNet은 이러한 기존의 틀에서 벗어나 Convolution을 2번 또는 3번 연속해서 쌓은 뒤 Pooling 레이어를 배치하는 새로운 구조를 제시합니다. 

VGG16 구조

위 사진은 대표적인 VGG16모델의 레이어 설계도입니다. 책이나 인터넷에서 쉽게 찾아볼 수 있는 그림인데요. 보이는 것처럼 파란색의 Convolution 레이어가 연속해서 2-3번 쌓이고, 이어서 빨간색 max pooling layer가 배치된 것을 볼 수 있습니다. 논문 2.1 Architecture에 관한 부분을 함께 살펴보도록 하겠습니다.

the input to our ConvNets is a fixed-size 224 × 224 RGB image
  • 입력 이미지의 shape은 (224, 224, 3)인 것을 알 수 있습니다.
The image is passed through a stack of convolutional (conv.) layers, where we use filters with a very small receptive field: 3 × 3 (which is the smallest size to capture the notion of left/right, up/down, center). (중략) The convolution stride is fixed to 1 pixel
  • 콘볼루션 레이어를 여러겹 쌓고 필터는 (3 x 3) 작은 사이즈로 고정하여 사용한다고 명시하고 있습니다. VGG 이전의 CNN 모델들은 전통적으로 필터 사이즈가 7, 9, 11 정도로 큰 것이 일반적이었다고 합니다. 그래서 사이즈가 3인 필터는 'very small'이라고 표현되는 것으로 보입니다.
  • 콘볼루션 레이어의 stride는 1픽셀로 고정됩니다.
Max-pooling is performed over a 2 × 2 pixel window, with stride 2.
  • 사용된 Maxpooling의 필터 사이즈와 stride 모두 (2, 2)인 것을 알 수 있습니다.
A stack of convolutional layers is followed by three Fully-Connected (FC) layers: the first two have 4096 channels each, the third performs 1000- way ILSVRC classification and thus contains 1000 channels (one for each class). The final layer is the soft-max layer.
  • CNN 레이어 이후에는 순서대로 4096 - 4096 - 1000개의 필터가 사용된 FC(Fully-Connected) 레이어가 3번 배치되었습니다.
  • 마지막 필터가 1000개인 이유는 VGG모델이 총 1000개의 이미지 클래스를 분류하기 때문입니다.
  • 마지막 레이어의 activation function로는 소프트맥스가 사용된 것을 알 수 있습니다.

2.2. Configuration

다음으로 여러 가지 버전의 VGG모델을 표현된 논문의 Table 1, 2를 함께 살펴보겠습니다.

The width of conv. layers (the number of channels) is rather small, starting from 64 in the first layer and then increasing by a factor of 2 after each max-pooling layer, until it reaches 512. 
  • 콘볼루션 레이어의 필터의 수는 64개로 작게 시작해서 마지막으로 512가 될때까지 2의 배수로 늘려 가겠다고 말하고 있습니다.
The convolutional layer parameters are denoted as “conv[receptive field size]-[number of channels]”. The ReLU activation function is not shown for brevity.
※ [2-1] All hidden layers are equipped with the rectification (ReLU (Krizhevsky et al., 2012)) non-linearity.
  • Table 1에서 표현된 레이어 수식(conv0-000형식)을 읽을 수 있어야 합니다. 예를 들어 conv3-256의 경우 필터 사이즈 (3x3)인 콘볼루션 레이어가 256장 쌓인 것으로 해석할 수 있습니다.
  • 간결한 표현을 위해 아래 배치도(Table 1)에서 활성함수 ReLU는 생략해서 표현되었으나, 논문 2.1 Architecture에 언급되었듯이 모든 히든레이어에는 ReLU가 적용되었습니다.

Table 1

  • 우리가 맨 위에서 살펴본 빨강파랑 레이어 구조도는 VGG16모델입니다. Convolution 레이어와 Dense 레이어를 합해 16개의 레이어가 사용되었습니다. 여기에서 레이어가 3개 늘어나면 VGG19(E모델)이 됩니다.
  • VGG16에 해당하는 모델 C와 D의 차이점은 3겹의 콘볼루션 레이어에서 마지막에 필터 사이즈 1짜리 레이어가 쓰였느냐 3짜리가 쓰였느냐 정도로 구분이 되네요.

VGG16 구조
Table 2

In Table 2 we report the number of parameters for each configuration. In spite of a large depth, the number of weights in our nets is not greater than the number of weights in a more shallow net with larger conv. layer widths and receptive fields (144M weights in (Sermanet et al., 2014)).
  • 테이블 2에는 백만 단위의 파라미터 수가 표현이 되어 있는데요. VGG16에 해당하는 모델 C-D의 경우 1억 3천만 개 정도의 파라미터를 찾아야 하네요.
  • 그렇다면 사이즈 3의 작은 필터를 사용한 3개의 콘볼루션 레이어를 연속적으로 사용해서 얻은 이점이 무엇일까요?

Table 2 아래에 중요한 내용이 담겨있습니다.

So what have we gained by using, for instance, a stack of three 3×3 conv. layers instead of a single 7×7 layer? First, we incorporate three non-linear rectification layers instead of a single one, which makes the decision function more discriminative. Second, we decrease the number of parameters
예: (10, 10) 이미지에 (7, 7) 필터 1번 적용
* 콘볼루션 후 최종 사이즈 : (4, 4)
* 찾아야 할 파라미터  : (7, 7) -> 49개
예 : (10, 10) 이미지에 (3, 3) 필터 3번 적용
* 콘볼루션 후 최종 사이즈 : (4, 4)
* 찾아야 할 파라미터 : (3, 3) 3개 -> 9 * 3 -> 27개
  • 최종적으로 얻는 이미지의 사이즈는 (4, 4)로 동일한데 찾아야 할 파라미터의 수는 49개에서 27개로 줄어드는 것을 확인할 수 있습니다.
  • 콘볼루션 레이어를 연속해서 쌓는 VGG 구조를 통해 찾아야 할 파라미터 수를 획기적으로 줄여 연산량을 줄이고 성능을 개선할 수 있다는 것입니다.
  • 또한 한 번의 콘볼루션 레이어만 추가했을 때보다 세 번의 연속적인 콘볼루션 레이어를 추가하게 되면서 비선형성을 더욱 강조해 모델의 유연성을 확보할 수 있게 되었고 이 역시 성능 개선으로 이어지게 되었습니다.

코드화

VGG16 모델 D - 코드로 구현해보기

from tensorflow.keras.layers import Conv2D, MaxPool2D, Flatten, Dense, Dropout

필요한 라이브러리를 호출합니다.

# 논문 VGG16 D모델 그대로 설계해보기
    
model_D_VGG_origin = tf.keras.Sequential([
    Conv2D(64, 3, input_shape = (224, 224, 3), padding = "same", activation = "relu"),
    Conv2D(64, 3, padding = "same", activation = "relu"),
    MaxPool2D(pool_size = 2, strides = 2),
    Conv2D(128, 3, padding = "same", activation = "relu"),
    Conv2D(128, 3, padding = "same", activation = "relu"),
    MaxPool2D(pool_size = 2, strides = 2),
    Conv2D(256, 3, padding = "same", activation = "relu"),
    Conv2D(256, 3, padding = "same", activation = "relu"),
    Conv2D(256, 3, padding = "same", activation = "relu"),
    MaxPool2D(pool_size = 2, strides = 2),
    Conv2D(512, 3, padding = "same", activation = "relu"),
    Conv2D(512, 3, padding = "same", activation = "relu"),
    Conv2D(512, 3, padding = "same", activation = "relu"),
    MaxPool2D(pool_size = 2, strides = 2),
    Flatten(),
    Dense(4096, activation = "relu"),
    Dense(4096, activation = "relu"),
    Dense(1000, activation = "softmax") # 1000가지 이미지를 분류하는 대회였음
])


VGG16 모델 D - Fashion Mnist에 맞게 튜닝하기

VGG16 Model D를 튜닝해서 fashion_mnist 분류모델을 구현하는 코드로 작성해 보겠습니다.

  • 논문 상 입력 데이터는 (224, 224, 3)이지만 Fashion Mnist의 데이터는 (28, 28, 1)입니다. 28을 224로 늘리는 것은 해상도가 너무 깨지고 특징이 소실되므로 의미가 없다는 판단 하에, 입력 부분을 28로 튜닝해서 사용하기로 결정했습니다.
  • MaxPool 횟수를 4회에서 3회로 줄이기로 했습니다. 이미지 사이즈가 가로 세로 (28, 28)이기 때문에 논문 그대로 4번 사용하면 사이즈가 소실될 수도 있습니다.
  • 논문 속 레이블은 1000개이지만 Fashion Mnist의 레이블은 10개입니다. 따라서 마지막 Dense 레이어의 필터 수를 1000에서 10으로 줄이겠습니다.
import tensorflow as tf

# 데이터 불러오기
fashion_mnist = tf.keras.datasets.fashion_mnist
(X_train, y_train), (X_test, y_test) = fashion_mnist.load_data()

# 정규화
X_train, X_test = X_train/255. , X_test/255.

# 3D를 4D로 변환
X_train = X_train.reshape(-1, 28, 28, 1)
X_test = X_test.reshape(-1, 28, 28, 1)
# 논문 VGG16 D모델 -> 패션 엠니스트에 맞는 모델로 바꾸어보기
    
model_D_VGG_fashion = tf.keras.Sequential([
    Conv2D(64, 3, input_shape = (28, 28, 1), padding = "same", activation = "relu"),
    Conv2D(64, 3, padding = "same", activation = "relu"),
    MaxPool2D(pool_size = 2, strides = 2),
    Conv2D(128, 3, padding = "same", activation = "relu"),
    Conv2D(128, 3, padding = "same", activation = "relu"),
    MaxPool2D(pool_size = 2, strides = 2),
    Conv2D(256, 3, padding = "same", activation = "relu"),
    Conv2D(256, 3, padding = "same", activation = "relu"),
    Conv2D(256, 3, padding = "same", activation = "relu"),
    MaxPool2D(pool_size = 2, strides = 2),
    Flatten(),
    Dense(4096, activation = "relu"),
    Dense(4096, activation = "relu"),
    Dense(10, activation = "softmax") # 10가지 이미지로 분류하기
])
model_D_VGG_fashion.summary()

model_D_VGG_fashion.compile(loss = tf.keras.losses.SparseCategoricalCrossentropy(),
                 optimizer = Adam(),
                 metrics = ['accuracy'])
import os

# callbacks
early = tf.keras.callbacks.EarlyStopping(patience = 5)
cp_path = "training/cp-{epoch:04d}.ckpt"
cp_dir = os.path.dirname(cp_path)
cp_callback = tf.keras.callbacks.ModelCheckpoint(cp_path,
                                                 monitor = 'val_loss',
                                                 verbose = 1,
                                                 save_weights_only=True)

# train
history_D_fashion = model_D_VGG_fashion.fit(X_train,
                                            y_train,
                                            validation_split = 0.25,
                                            batch_size = 128,
                                            epochs = 200,
                                            callbacks = [early,cp_callback])

model_D_VGG_fashion.evaluate(X_test, y_test)

# 313/313 [==============================] - 2s 5ms/step - loss: 0.2621 - accuracy: 0.9195
# [0.2621194124221802, 0.9194999933242798]

VGG16모델을 튜닝해서 사용한 결과 단 한 번의 시도만에 0.92에 가까운 valid accuracy를 확보하게 되었습니다 :)


 
 
이것으로 간단하게 살펴본 VGG 논문 리뷰를 마치겠습니다. 감사합니다 :)

+ Recent posts