Optimizing
- Generalization - gap of train error&test error
- Underfitting, Overfitting
- Cross-validation
- Bias(정답 적중률) and Variance(분산율)
- Bootstrapping - dataset을 한번에 학습하지 않고 subsampling을 통해 학습
- Bagging(Bootstrapping aggregating) - subsampling을 통해 여러 모델을 학습시킴. parallel
- Boosting - weak learner를 합쳐 strong learner를 만듦. sequential
Optimizer
- Gradient descent - 미분값을 뺌
- Momemtum - gradient에 관성을 추가
- Nesterov Accelerated Gradient(NAG) - 1 step 다음의 gradient 계산
- Adagrad - 변화율이 큰 parameter는 적게, 변화율이 작은 parameter는 많이 update
- Adadelta - no learning rate, sum of gradient square가 분모로 감, EMA - Exponential Moving Average
- RMSprop - adadelta에 step size 추가
- Adam(Adaptive Moment Estimation) - gradient square, momentum, unbiased
Regularization
- Early stopping - 과적합 방지
- Parameter Norm Penalty - parameter를 작게 유지
- Data augmentation - more dataset
- Noise Robustness - random noise를 추가
- Label smoothing - train dataset을 mix-up
- Dropout - random하게 neuron을 0으로 변경
- Batch Normalization - layer input 데이터의 평균과 분산을 고정시켜 데이터가 일정한 분포를 가지게 한다
'부스트캠프 AI Tech > Deep Learning' 카테고리의 다른 글
Transformer (0) | 2022.02.08 |
---|---|
RNN (0) | 2022.02.08 |
CV application (0) | 2022.02.08 |
Modern CNN (0) | 2022.02.08 |
DL history (0) | 2022.02.07 |