부스트캠프 AI Tech/NLP

NLP overview


  • NLU : Natural Language Understanding
  • NLG : Natural Language Generation


NLP (major conference : ACL, EMNLP, NAACL)

Low-level parsing

  • tokenization, stemming

Word level

  • Named entity recognition(고유명사 인식), POS tagging,  noun-phrase chunking, dependency parsing, coreference resolution

Sentence level

  • Sentiment analysis, machine translation

Multi-sentence and paragraph level

  • Entailment, prediction, question answering, dialog systems, summarization

Text mining (major conference : KDD, formerly, WWW, WSDM, CIKM, ICWSM)

  • Extract useful information and insights from text and document data
  • Document clustering
  • Highly related to computational social science

Information retrieval (major conference : SIGIR, WSDM, CIKM, RecSys)

  • Highly related to computational social science


  • text data는 시계열 데이터로 볼 수 있으며 각 word는 Word2Vec, Glove등의 기법을 통하여 벡터로 표현될 수 있다.(word embedding)
  • RNN 계열 모델(LSTM, GRUs)이 NLP task의 main architenture이다.
  • 전체적인 NLP task의 성능은 attention, transformer 구조로 인해 향상되어 RNN 모델을 대체하였다.
  • 오늘날에는 pre-trained model을 fine tuning하는 형식으로 task 수행
  • self-supervised learning : word를 masking하고 맞히게 하는 형식
  • BERT, GPT-3 등은 transfer learning을 통해 범용적인 사용이 가능


  1. Constructing the vocabulary containg unique words
  2. Encoding unique words to one-hot vectors
    • 각 word 간 distance = root 2
    • 각 word 간 cosine 유사도 = 0
  3. 각 문장은 one-hot vector의 합으로 표현 가능

NaiveBayes Classifier for document classification

  • P(c|d) : document d가 하나의 class c일 확률 = P(d|c)P(c) - Bayes Rule


