1. 개요 LSTM(+ Seq2Seq)의 경우 많은 개선점이 있었음에도 long-term dependency에 취약하다는 단점 어텐션을 RNN의 보정을 위한 용도가 아닌 어텐션만으로 인코더와 디코더를 만듦 RNN을 사용하지 않기 때문에 입력을 순차적으로 받지 않고 한 번에 사용 2. 입력 - 포지셔널 인코딩 RNN이 자연어 처리에서 유용했던 이유는 단어의 위치에 따라 단어를 순차적으로 입력받아서 처리하기 때문 트랜스포머는 단어의 위치 정보를 얻기 위해서 각 단어의 임베딩 벡터에 위치 정보들을 더하여 모델의 입력으로 사용 짝수 인덱스에는 사인 함수, 홀수 인덱스에는 코사인 함수를 적용하여 위치 정보 저장 3. 인코딩 3-1. Multi-Head Attention 하나의 word를 아래와 같은 구조로 계산 ..