AI

Universal Transformer (2018)

jw92 2022. 9. 4. 13:52

1. Universal Transformer

  • Transformer 모델(https://jw92.tistory.com/31)은 계산을 일반화하기 어렵기 때문에 문장 단순 복사 등 기본적인 추론에서도 틀리는 경우가 있음
  • Weight를 공유해 Transformer를 일반화한 모델
  • Transition Function에는 CNN 혹은 FFNN 사용

The Transformer vs The Universal Transformer

2. Adaptive universal transformer

  • 각 Symbol에 필요한 계산량을 조절하는 ACT (Adaptive Computation Time)을 Universal Transformer에 적용한 것
  • Weight를 공유하기 때문에 Symbol마다 layer 개수가 다른게 가능해짐

 

'AI' 카테고리의 다른 글

LLM - Transformer (2017)  (0) 2022.09.04
Attention Mechanism (Dot-Product Attention) (2015)  (0) 2022.09.04
Seq2Seq (Encoder-Decoder Model) (2014)  (0) 2022.09.04
LSTM (Long Short-Term Memory)  (0) 2022.09.04
RNN (Recurrent Neural Network)  (0) 2022.01.12