언어모델 2

Attention Mechanism (Dot-Product Attention) (2015)

1. 전체 구조 기존 Seq2Seq는 시점 t에서 출력 단어를 예측하기 위해서 디코더의 셀은 두 개의 입력값이 필요 여기에 하나의 값을 더해서 예측 a. 시점 t-1의 Hidden state b. 시점 t-1에 나온 출력 c. 어텐션 값(Attention Value) 2. Attention Score (, je는 같은 과정을 거쳐 현재 suis에 대해 진행한다고 가정) 어텐션 스코어란 현재 디코더의 시점 t에서 단어를 예측하기 위해, 인코더의 모든 Hidden state 각각이 디코더의 현 시점의 state와 얼마나 유사한지를 판단하는 스코어값 모든 Input hidden state에 대하여 아래와 같이 내적하여 값을 구함 3. Attention Distribution using Softmax Softm..

AI 2022.09.04

LSTM (Long Short-Term Memory)

기존 RNN( https://jw92.tistory.com/23 )의 문제점을 해결하기 위해 나온 것이 LSTM (Long Short-Term Memory) 1. 구조 LSTM의 핵심은 셀 스테이트(The cell state) 셀 스테이트는 아주 마이너한 계산을 거쳐 다음 셀로 이동, 이를 이용해 정보의 장기기억이 가능해짐 장기 기억과 단기 기억을 모두 고려 forget gate layer에서 이전 시간에 있던 Input data의 영향력을 결정 Input gate layer에서 현재 시간 t에서 받은 Input data중 어떤 것을 cell state에 저장할 것인지를 정한다 Cell state 업데이트 (기존 정보를 잊어버리기로 했고, 그 대신 정보를 cell state에 더하는 과정) Output ..

AI 2022.09.04
반응형