AI 6

Universal Transformer (2018)

1. Universal Transformer Transformer 모델(https://jw92.tistory.com/31)은 계산을 일반화하기 어렵기 때문에 문장 단순 복사 등 기본적인 추론에서도 틀리는 경우가 있음 Weight를 공유해 Transformer를 일반화한 모델 Transition Function에는 CNN 혹은 FFNN 사용 2. Adaptive universal transformer 각 Symbol에 필요한 계산량을 조절하는 ACT (Adaptive Computation Time)을 Universal Transformer에 적용한 것 Weight를 공유하기 때문에 Symbol마다 layer 개수가 다른게 가능해짐

AI 2022.09.04

LLM - Transformer (2017)

1. 개요 LSTM(+ Seq2Seq)의 경우 많은 개선점이 있었음에도 long-term dependency에 취약하다는 단점 어텐션을 RNN의 보정을 위한 용도가 아닌 어텐션만으로 인코더와 디코더를 만듦 RNN을 사용하지 않기 때문에 입력을 순차적으로 받지 않고 한 번에 사용 2. 입력 - 포지셔널 인코딩 RNN이 자연어 처리에서 유용했던 이유는 단어의 위치에 따라 단어를 순차적으로 입력받아서 처리하기 때문 트랜스포머는 단어의 위치 정보를 얻기 위해서 각 단어의 임베딩 벡터에 위치 정보들을 더하여 모델의 입력으로 사용 짝수 인덱스에는 사인 함수, 홀수 인덱스에는 코사인 함수를 적용하여 위치 정보 저장 3. 인코딩 3-1. Multi-Head Attention 하나의 word를 아래와 같은 구조로 계산 ..

AI 2022.09.04

Attention Mechanism (Dot-Product Attention) (2015)

1. 전체 구조 기존 Seq2Seq는 시점 t에서 출력 단어를 예측하기 위해서 디코더의 셀은 두 개의 입력값이 필요 여기에 하나의 값을 더해서 예측 a. 시점 t-1의 Hidden state b. 시점 t-1에 나온 출력 c. 어텐션 값(Attention Value) 2. Attention Score (, je는 같은 과정을 거쳐 현재 suis에 대해 진행한다고 가정) 어텐션 스코어란 현재 디코더의 시점 t에서 단어를 예측하기 위해, 인코더의 모든 Hidden state 각각이 디코더의 현 시점의 state와 얼마나 유사한지를 판단하는 스코어값 모든 Input hidden state에 대하여 아래와 같이 내적하여 값을 구함 3. Attention Distribution using Softmax Softm..

AI 2022.09.04

Seq2Seq (Encoder-Decoder Model) (2014)

1. 구조 1-1. 전체 구조: 2개의 RNN Long term dependency problem을 가지기 때문에 LSTM을 선택 1-2. Encoder: input 시퀀스를 하나의 context vector로 변환 1-3. Decoder: 디코더 - RNNLM(Recurrent Neural Network Language Model, RNNLM) 가변적인 길이의 데이터를 다루기 위해 사용 예측 과정에서 이전 시점의 출력을 현재 시점의 입력으로 함 EOS가 아웃풋으로 나오게 되면 종료 Training 시에는 빠른 학습을 위하여 Teacher forcing 방식 사용 (Output이 틀린 경우에 학습에 방해가 됨) 2. 한계 하나의 고정된 크기의 벡터에 모든 정보를 압축해서 정보 손실이 발생 RNN의 고질적..

AI 2022.09.04

LSTM (Long Short-Term Memory)

기존 RNN( https://jw92.tistory.com/23 )의 문제점을 해결하기 위해 나온 것이 LSTM (Long Short-Term Memory) 1. 구조 LSTM의 핵심은 셀 스테이트(The cell state) 셀 스테이트는 아주 마이너한 계산을 거쳐 다음 셀로 이동, 이를 이용해 정보의 장기기억이 가능해짐 장기 기억과 단기 기억을 모두 고려 forget gate layer에서 이전 시간에 있던 Input data의 영향력을 결정 Input gate layer에서 현재 시간 t에서 받은 Input data중 어떤 것을 cell state에 저장할 것인지를 정한다 Cell state 업데이트 (기존 정보를 잊어버리기로 했고, 그 대신 정보를 cell state에 더하는 과정) Output ..

AI 2022.09.04

RNN (Recurrent Neural Network)

개요 Recurrent Neural Network 기존의 뉴럴 네트워크는 과거의 데이터(아웃풋)가 미래에 영향을 줄 수 없는 구조 Ex) 문장을 생성하는 모델, (1)The clouds (2)are (3)in (4)the sky 기존의 Neural Network 시계열 데이터란 시간 축을 중심으로 현재 시간의 데이터가 앞, 뒤 시간의 데이터와 연관 관계를 가지고 있는 데이터를 의미 RNN은 시계열 데이터 등의 맥락을 고려해 학습 이전 입력의 연산 결과가 현재 입력데이터와 함께 고려됨 문제점 RNN은 장기 의존성(Long Term Dependency) 문제를 가짐 짧은 기간에 의존하는 RNN은 과거 데이터를 기반으로 효율적으로 학습 더 많은 문맥을 필요로 하는 경우 학습하기가 매우 어려움 (Vanishin..

AI 2022.01.12
반응형