본문 바로가기

부스트캠프 AI Tech/Math

Statistics

딸기스무디 2022. 1. 19. 15:37

모수(Parameter)

통계적 모델링 : 적절한 가정 위에서 확률분포를 추정하는 것
정확한 분포를 맞히는 것이 아닌 위험을 최소화
모수적(parametric) 방법론 : 특정 확률분포를 따른다고 가정한 후 그 분포의 모수를 추정
비모수적(nonparametric) 방법론 : 데이터에 따라 모델의 구조 및 모수의 개수 변화
- 모수가 없는 것이 아님!

확률 분포 가정

히스토그램을 통해 관찰
- 데이터가 0 또는 1 : 베르누이 분포
- 데이터가 n개 : 카테고리 분포, 다항분포
- 데이터가 [0.1] 사이 실수 값 : 베타 분포
- 데이터가 0 이상 : 감마 분포, 로그정규 분포
- 데이터가 실수 전체 값 : 정규 분포, 라플라스 분포
- 데이터를 생성하는 원리를 먼저 고려해야 함
- 모수 추정 후 반드시 검정해야 한다

정규분포의 모수

통계량(statistic) : 모집단에서 추출한 표본(sample)을 이용해 만든 것으로 표본들의 함수

표집분포(Sampling distribution) != 표본분포(Sample distribution)

표집 분포 - 표본 평균과 표본 분산의 확률 분포 (통계량의 확률 분포)
표본 평군의 표집 분포는 N이 커질수록 정규분포를 따름(Central Limit Theorem)
- 모집단의 분포가 정규분포를 따르지 않아도 표본 평균의 분포는 정규분포를 따름 (중심극한정리)

최대가능도 추정법(maximum likelihood estimation, MLE)

이론적으로 가장 가능성이 높은 모수를 추정하는 방법

확률 밀도 함수 : 모수 theta가 주어질 때 x에 대한 함수
MLE : x가 주어질 때 모수 theta에 대한 함수
모수 theta를 따르는 분포가 x를 관찰할 가능성(확률 x)

로그 가능도

데이터가 독립일 경우 로그를 사용하여 곱셈을 덧셈으로 변환 가능

데이터의 숫자가 많다면 컴퓨터로 정확한 계산 불가
- 경사하강법으로 최적화 시 로그가능도를 사용하면 O(n^2) -> O(n)
- negative log-likelihood 사용 (목적식 최소화를 위해)

정규분포 최대가능도 추정법

정규분포이기 때문에 모수 = 평균, 분산
정규분포의 확률밀도함수

정규분포의 확률밀도함수 분해

정규분포이기 때문에 모수 = 평균, 분포평균(위)과 분산(아래)을 미분

평균과 분산의 최대가능도

카테고리분포 최대가능도 추정법

베르누이 분포를 n차원으로 확장한 것
N개의 데이터 중 하나를 고르는 one-hot vector의 형태

모든 차원의 가능성을 더하면 1

nk = k가 1인 데이터의 개수

라그랑주 승수법 사용

라그랑주 승수법

딥러닝 최대가능도 추정법

가중치 행렬 W에서 마지막 layer에서 softmax를 이용하여 조건부확률 계산
- sofxmax vector를 이용하여 카테고리분포의 모수 modeling 가능
- 정답 lable을 관찰 데이터로 이용해 sofxmax vector의 로그가능도 최적화

손실 함수 - 데이터에서 관찰한 확률분포와 모델이 학습하는 확률분포를 통해 유도
두 확률분포를 계산하는 방법
- 총변동 거리(Total Variation Distance)
- 쿨백-라이블러 발산(Kullback-Leibler Divergence)
- 바슈타인 거리(Wasserstein Distance)

쿨백-라이블러 발산

분류 문제에서 정답을 P, 예측 값을 Q일 시
- 쿨백-라이블러 발산을 최소화(정답과 예측값의 거리를 최소화)하면 최대가능도를 추정할 수 있다

'부스트캠프 AI Tech > Math' 카테고리의 다른 글

CNN (0)	2022.01.20
Bayesian Statistic (0)	2022.01.20
Probability (0)	2022.01.19
Neural Network (0)	2022.01.19
Gradient Descent (0)	2022.01.18

티스토리툴바