Transformer
- RNN의 정보 유실 한계
- Bi-Directional RNN - forward RNN & backward RNN concat
- 각 input은 concat 후 query, key, value로 변환 (linear transform)
- # of key vector == # of value vector
- dim of query vector == dim of key vector
- attention : Q, K(T) 내적 후 row-wise softmax
- attention과 V 내적
- 실제 transformer는 q,k,v의 shape 동일
- scaled softmax - 일정한 학습을 위해 dim of key의 제곱근을 나눠줌
Multi-head attention
- attention의 입출력 크기가 같아야함
- norm - 각 word를 평균 0, 분산 1로 정규화
- feed forward - fc layer
- positional encoding - word의 position을 특정지음. dimension마다 다른 주기함수
- warmup learning rate scheduler
- masked self attention - softmax의 output은 renormalization(cheating 방지)
'부스트캠프 AI Tech > NLP' 카테고리의 다른 글
Word embedding (0) | 2022.03.07 |
---|---|
NLP overview (0) | 2022.03.07 |