본문 바로가기

부스트캠프 AI Tech/Math

Statistics

모수(Parameter)

  • 통계적 모델링 : 적절한 가정 위에서 확률분포를 추정하는 것
  • 정확한 분포를 맞히는 것이 아닌 위험을 최소화
  • 모수적(parametric) 방법론 : 특정 확률분포를 따른다고 가정한 후 그 분포의 모수를 추정
  • 비모수적(nonparametric) 방법론 : 데이터에 따라 모델의 구조 및 모수의 개수 변화
    • 모수가 없는 것이 아님!

 

확률 분포 가정

  • 히스토그램을 통해 관찰
    • 데이터가 0 또는 1 : 베르누이 분포
    • 데이터가 n개 : 카테고리 분포, 다항분포
    • 데이터가 [0.1] 사이 실수 값 : 베타 분포
    • 데이터가 0 이상 : 감마 분포, 로그정규 분포
    • 데이터가 실수 전체 값 : 정규 분포, 라플라스 분포
    • 데이터를 생성하는 원리를 먼저 고려해야 함
    • 모수 추정 후 반드시 검정해야 한다

정규분포의 모수

통계량(statistic) : 모집단에서 추출한 표본(sample)을 이용해 만든 것으로 표본들의 함수

표집분포(Sampling distribution) != 표본분포(Sample distribution)

  • 표집 분포 - 표본 평균과 표본 분산의 확률 분포 (통계량의 확률 분포)
  • 표본 평군의 표집 분포는 N이 커질수록 정규분포를 따름(Central Limit Theorem)
    • 모집단의 분포가 정규분포를 따르지 않아도 표본 평균의 분포는 정규분포를 따름 (중심극한정리)

최대가능도 추정법(maximum likelihood estimation, MLE)

  • 이론적으로 가장 가능성이 높은 모수를 추정하는 방법

  • 확률 밀도 함수 : 모수 theta가 주어질 때 x에 대한 함수
  • MLE : x가 주어질 때 모수 theta에 대한 함수
  • 모수 theta를 따르는 분포가 x를 관찰할 가능성(확률 x)

로그 가능도

  • 데이터가 독립일 경우 로그를 사용하여 곱셈을 덧셈으로 변환 가능

  • 데이터의 숫자가 많다면 컴퓨터로 정확한 계산 불가
    • 경사하강법으로 최적화 시 로그가능도를 사용하면 O(n^2) -> O(n)
    • negative log-likelihood 사용 (목적식 최소화를 위해)

정규분포 최대가능도 추정법 

정규분포의 확률밀도함수 분해
정규분포이기 때문에 모수 = 평균, 분포평균(위)과 분산(아래)을 미분
평균과 분산의 최대가능도

카테고리분포 최대가능도 추정법

  • 베르누이 분포를 n차원으로 확장한 것
  • N개의 데이터 중 하나를 고르는 one-hot vector의 형태

모든 차원의 가능성을 더하면 1
nk = k가 1인 데이터의 개수
라그랑주 승수법 사용

라그랑주 승수법

딥러닝 최대가능도 추정법

  • 가중치 행렬 W에서 마지막 layer에서 softmax를 이용하여 조건부확률 계산
    • sofxmax vector를 이용하여 카테고리분포의 모수 modeling 가능 
    • 정답 lable을 관찰 데이터로 이용해 sofxmax vector의 로그가능도 최적화

  • 손실 함수 - 데이터에서 관찰한 확률분포와 모델이 학습하는 확률분포를 통해 유도
  • 두 확률분포를 계산하는 방법
    • 총변동 거리(Total Variation Distance)
    • 쿨백-라이블러 발산(Kullback-Leibler Divergence)
    • 바슈타인 거리(Wasserstein Distance)

쿨백-라이블러 발산

  • 분류 문제에서 정답을 P, 예측 값을 Q일 시
    • 쿨백-라이블러 발산을 최소화(정답과 예측값의 거리를 최소화)하면 최대가능도를 추정할 수 있다

'부스트캠프 AI Tech > Math' 카테고리의 다른 글

CNN  (0) 2022.01.20
Bayesian Statistic  (0) 2022.01.20
Probability  (0) 2022.01.19
Neural Network  (0) 2022.01.19
Gradient Descent  (0) 2022.01.18