모수(Parameter)
- 통계적 모델링 : 적절한 가정 위에서 확률분포를 추정하는 것
- 정확한 분포를 맞히는 것이 아닌 위험을 최소화
- 모수적(parametric) 방법론 : 특정 확률분포를 따른다고 가정한 후 그 분포의 모수를 추정
- 비모수적(nonparametric) 방법론 : 데이터에 따라 모델의 구조 및 모수의 개수 변화
- 모수가 없는 것이 아님!
확률 분포 가정
- 히스토그램을 통해 관찰
- 데이터가 0 또는 1 : 베르누이 분포
- 데이터가 n개 : 카테고리 분포, 다항분포
- 데이터가 [0.1] 사이 실수 값 : 베타 분포
- 데이터가 0 이상 : 감마 분포, 로그정규 분포
- 데이터가 실수 전체 값 : 정규 분포, 라플라스 분포
- 데이터를 생성하는 원리를 먼저 고려해야 함
- 모수 추정 후 반드시 검정해야 한다
통계량(statistic) : 모집단에서 추출한 표본(sample)을 이용해 만든 것으로 표본들의 함수
표집분포(Sampling distribution) != 표본분포(Sample distribution)
- 표집 분포 - 표본 평균과 표본 분산의 확률 분포 (통계량의 확률 분포)
- 표본 평군의 표집 분포는 N이 커질수록 정규분포를 따름(Central Limit Theorem)
- 모집단의 분포가 정규분포를 따르지 않아도 표본 평균의 분포는 정규분포를 따름 (중심극한정리)
최대가능도 추정법(maximum likelihood estimation, MLE)
- 이론적으로 가장 가능성이 높은 모수를 추정하는 방법
- 확률 밀도 함수 : 모수 theta가 주어질 때 x에 대한 함수
- MLE : x가 주어질 때 모수 theta에 대한 함수
- 모수 theta를 따르는 분포가 x를 관찰할 가능성(확률 x)
로그 가능도
- 데이터가 독립일 경우 로그를 사용하여 곱셈을 덧셈으로 변환 가능
- 데이터의 숫자가 많다면 컴퓨터로 정확한 계산 불가
- 경사하강법으로 최적화 시 로그가능도를 사용하면 O(n^2) -> O(n)
- negative log-likelihood 사용 (목적식 최소화를 위해)
정규분포 최대가능도 추정법
- 정규분포이기 때문에 모수 = 평균, 분산
- 정규분포의 확률밀도함수
카테고리분포 최대가능도 추정법
- 베르누이 분포를 n차원으로 확장한 것
- N개의 데이터 중 하나를 고르는 one-hot vector의 형태
딥러닝 최대가능도 추정법
- 가중치 행렬 W에서 마지막 layer에서 softmax를 이용하여 조건부확률 계산
- sofxmax vector를 이용하여 카테고리분포의 모수 modeling 가능
- 정답 lable을 관찰 데이터로 이용해 sofxmax vector의 로그가능도 최적화
- 손실 함수 - 데이터에서 관찰한 확률분포와 모델이 학습하는 확률분포를 통해 유도
- 두 확률분포를 계산하는 방법
- 총변동 거리(Total Variation Distance)
- 쿨백-라이블러 발산(Kullback-Leibler Divergence)
- 바슈타인 거리(Wasserstein Distance)
쿨백-라이블러 발산
- 분류 문제에서 정답을 P, 예측 값을 Q일 시
- 쿨백-라이블러 발산을 최소화(정답과 예측값의 거리를 최소화)하면 최대가능도를 추정할 수 있다
'부스트캠프 AI Tech > Math' 카테고리의 다른 글
CNN (0) | 2022.01.20 |
---|---|
Bayesian Statistic (0) | 2022.01.20 |
Probability (0) | 2022.01.19 |
Neural Network (0) | 2022.01.19 |
Gradient Descent (0) | 2022.01.18 |