Word embedding
- word를 하나의 vector로 변환
- 단어의 유사도를 잘 표현하도록 설계해야함
Word2Vec
- 한 문장에서 인접한 단어는 비슷할 것이다. (기본 전제)
- sliding window - 중심 단어와 주변 단어를 window 크기만큼 단어 쌍으로 구성
- input layer -> hidden layer -> output layer -> softmax
- 기계번역, 감정분석, image captioning
Glove
- 학습이 빠르고 small corpus에서도 가능
- 단어 쌍이 동시에 등장한 횟수를 미리 count
- 두 단어의 내적값과 비슷하도록 loss function 설계
'부스트캠프 AI Tech > NLP' 카테고리의 다른 글
Transformer (0) | 2022.03.14 |
---|---|
NLP overview (0) | 2022.03.07 |