1. Universal Transformer Transformer 모델(https://jw92.tistory.com/31)은 계산을 일반화하기 어렵기 때문에 문장 단순 복사 등 기본적인 추론에서도 틀리는 경우가 있음 Weight를 공유해 Transformer를 일반화한 모델 Transition Function에는 CNN 혹은 FFNN 사용 2. Adaptive universal transformer 각 Symbol에 필요한 계산량을 조절하는 ACT (Adaptive Computation Time)을 Universal Transformer에 적용한 것 Weight를 공유하기 때문에 Symbol마다 layer 개수가 다른게 가능해짐