본문 바로가기

부스트캠프 AI Tech/NLP

Word embedding

Word embedding

  • word를 하나의 vector로 변환
  • 단어의 유사도를 잘 표현하도록 설계해야함

 

Word2Vec

  • 한 문장에서 인접한 단어는 비슷할 것이다. (기본 전제)
  • sliding window - 중심 단어와 주변 단어를 window 크기만큼 단어 쌍으로 구성
  • input layer -> hidden layer -> output layer -> softmax
  • 기계번역, 감정분석, image captioning

Glove

  • 학습이 빠르고 small corpus에서도 가능
  • 단어 쌍이 동시에 등장한 횟수를 미리 count
    • 두 단어의 내적값과 비슷하도록 loss function 설계

'부스트캠프 AI Tech > NLP' 카테고리의 다른 글

Transformer  (0) 2022.03.14
NLP overview  (0) 2022.03.07