본문 바로가기

부스트캠프 AI Tech/NLP

Transformer

Transformer

  • RNN의 정보 유실 한계
  • Bi-Directional RNN - forward RNN & backward RNN concat

 

  • 각 input은 concat 후 query, key, value로 변환 (linear transform)
  • # of key vector == # of value vector
  • dim of query vector == dim of key vector
  • attention : Q, K(T) 내적 후 row-wise softmax
  • attention과 V 내적
  • 실제 transformer는 q,k,v의 shape 동일
  • scaled softmax - 일정한 학습을 위해 dim of key의 제곱근을 나눠줌 

Multi-head attention

  • attention의 입출력 크기가 같아야함 
  • norm - 각 word를 평균 0, 분산 1로 정규화
  • feed forward - fc layer
  • positional encoding - word의 position을 특정지음. dimension마다 다른 주기함수 
  • warmup learning rate scheduler
  • masked self attention - softmax의 output은 renormalization(cheating 방지)

 

 

'부스트캠프 AI Tech > NLP' 카테고리의 다른 글

Word embedding  (0) 2022.03.07
NLP overview  (0) 2022.03.07