seq2seq 2

Attention Mechanism (Dot-Product Attention) (2015)

1. 전체 구조 기존 Seq2Seq는 시점 t에서 출력 단어를 예측하기 위해서 디코더의 셀은 두 개의 입력값이 필요 여기에 하나의 값을 더해서 예측 a. 시점 t-1의 Hidden state b. 시점 t-1에 나온 출력 c. 어텐션 값(Attention Value) 2. Attention Score (, je는 같은 과정을 거쳐 현재 suis에 대해 진행한다고 가정) 어텐션 스코어란 현재 디코더의 시점 t에서 단어를 예측하기 위해, 인코더의 모든 Hidden state 각각이 디코더의 현 시점의 state와 얼마나 유사한지를 판단하는 스코어값 모든 Input hidden state에 대하여 아래와 같이 내적하여 값을 구함 3. Attention Distribution using Softmax Softm..

AI 2022.09.04

Seq2Seq (Encoder-Decoder Model) (2014)

1. 구조 1-1. 전체 구조: 2개의 RNN Long term dependency problem을 가지기 때문에 LSTM을 선택 1-2. Encoder: input 시퀀스를 하나의 context vector로 변환 1-3. Decoder: 디코더 - RNNLM(Recurrent Neural Network Language Model, RNNLM) 가변적인 길이의 데이터를 다루기 위해 사용 예측 과정에서 이전 시점의 출력을 현재 시점의 입력으로 함 EOS가 아웃풋으로 나오게 되면 종료 Training 시에는 빠른 학습을 위하여 Teacher forcing 방식 사용 (Output이 틀린 경우에 학습에 방해가 됨) 2. 한계 하나의 고정된 크기의 벡터에 모든 정보를 압축해서 정보 손실이 발생 RNN의 고질적..

AI 2022.09.04
반응형