본문 바로가기

부스트캠프 AI Tech/NLP

Transformer

딸기스무디 2022. 3. 14. 23:14

Transformer

RNN의 정보 유실 한계
Bi-Directional RNN - forward RNN & backward RNN concat

각 input은 concat 후 query, key, value로 변환 (linear transform)
# of key vector == # of value vector
dim of query vector == dim of key vector
attention : Q, K(T) 내적 후 row-wise softmax
attention과 V 내적
실제 transformer는 q,k,v의 shape 동일
scaled softmax - 일정한 학습을 위해 dim of key의 제곱근을 나눠줌

Multi-head attention

attention의 입출력 크기가 같아야함
norm - 각 word를 평균 0, 분산 1로 정규화
feed forward - fc layer
positional encoding - word의 position을 특정지음. dimension마다 다른 주기함수
warmup learning rate scheduler
masked self attention - softmax의 output은 renormalization(cheating 방지)

'부스트캠프 AI Tech > NLP' 카테고리의 다른 글

Word embedding (0)	2022.03.07
NLP overview (0)	2022.03.07

티스토리툴바