본문 바로가기

부스트캠프 AI Tech/Deep Learning

(7)
Generative Model Generative Model Generation : trainset에 없는 이미지를 생성 Density estimation : anomaly detection, 이미지 구분 explicit model : input에 대한 probability를 얻을 수 있는 model Unsupervised representatino learning : feature learning Discrete distribution 베르누이 분포(coin flip) 0 or 1 카테고리 분포(m-side dice) 1 or 2 or ... or n Independent Assumption 각 pixel이 모두 independent 하다는 가정 3 important rules Chain rule Bayes' rule Conditi..
Transformer Transformer attention last encoder's layer -> all decoder's layer input의 len, domain은 output과 다를 수 있다 input word의 수에 상관 없이 1번만 돌아 감 encoder, decoder의 구조는 같지만, parameter는 다르다 input이 같더라도 같은 seq 내의 단어들에 따라 output이 변할 수 있다 (more flexible) O(n^2)의 연산이 필요하므로 bottleneck 발생 각 word마다 다른 word들 간의 attention을 계산해야 하기 때문 Encoder Self-Attention 하나의 vector를 변환할 때 다른 벡터를 변환하려 고려하는 것 - 다른 벡터들에 의존적인 forward 1 wo..
RNN Recurrent Neural Network markov model (first-order autogressive model) : n번째의 결과는 n-1에 dependent하고 그 이전 정보는 버린다 latent autoregressive model : 과거의 정보를 요약한 hidden state만을 참조 Short-term dependency - 과거의 정보를 제대로 저장할 수 없음 Gradient vanishing/exploding LSTM (Long Short Term Memory) cell state : t까지의 정보를 summarize Forget gate : 어떤 정보를 버릴지 (input과 prev hidden state에 대해) Input gate : 어떤 정보를 저장할지 (input과 p..
CV application Semantic Segmention per pixel classification fully convolution layer (convolutionalization) dense layer를 대체함 input dimension에 independent함 단순한 분류가 아닌 heatmap 생성 가능 Deconvolution 정확한 복원은 불가능 Detection R-CNN SPPNet Fast R-CNN Faster R-CNN - Region Proposal Network + Fast R-CNN YOLO - bounding box를 sampling하지 않아 훨씬 빠름
Modern CNN Imagenet Large-Scale Visual Recognition Challenge (ILSVRC) AlexNet 11x11 kernal, 5 conv layer, 3 dense layer ReLU Overlapping pooling Data augmentation Dropout VGGNet 3x3 kernal 1x1 conv layer for FC layer 3x3 kernal을 두번 쓰는 것이 5x5 kernal을 쓰는 것보다 더 효율적 GoogLeNet 22 layer, Network In Network Inception block - conv하기 전 1x1 conv parameter가 줄어듦 ResNet Idendity map (skip connenction) 더 깊은 network 가능 b..
Optimizer Optimizing Generalization - gap of train error&test error Underfitting, Overfitting Cross-validation Bias(정답 적중률) and Variance(분산율) Bootstrapping - dataset을 한번에 학습하지 않고 subsampling을 통해 학습 Bagging(Bootstrapping aggregating) - subsampling을 통해 여러 모델을 학습시킴. parallel Boosting - weak learner를 합쳐 strong learner를 만듦. sequential Optimizer Gradient descent - 미분값을 뺌 Momemtum - gradient에 관성을 추가 Nesterov Acc..
DL history Key of DL DATA MODEL LOSS OPTIMIZER 2012 - AlexNet Deep learning paradigm 시작 2013 - DQN 알파고 2014 - Encoder/Decoder, Adam seq2seq, machine translation 쉬운 구현, 효율적 연산 2015 - GAN, ResNet generator, discriminator more deep network 2017 - Transformer Attention 2018 - BERT fine - tuned NLP model 2019 - BIG Language Models GPT-X, many parameter 2020 - Self Supervised Learning 학습 데이터 외의 데이터셋 활용