1. Universal Transformer
- Transformer 모델(https://jw92.tistory.com/31)은 계산을 일반화하기 어렵기 때문에 문장 단순 복사 등 기본적인 추론에서도 틀리는 경우가 있음
- Weight를 공유해 Transformer를 일반화한 모델
- Transition Function에는 CNN 혹은 FFNN 사용
2. Adaptive universal transformer
- 각 Symbol에 필요한 계산량을 조절하는 ACT (Adaptive Computation Time)을 Universal Transformer에 적용한 것
- Weight를 공유하기 때문에 Symbol마다 layer 개수가 다른게 가능해짐
'AI' 카테고리의 다른 글
LLM - Transformer (2017) (0) | 2022.09.04 |
---|---|
Attention Mechanism (Dot-Product Attention) (2015) (0) | 2022.09.04 |
Seq2Seq (Encoder-Decoder Model) (2014) (0) | 2022.09.04 |
LSTM (Long Short-Term Memory) (0) | 2022.09.04 |
RNN (Recurrent Neural Network) (0) | 2022.01.12 |